作者 Sai Teja Peddinti     , Keith W Ross     , Justin Cappos     ,譯者 姚佳靈

本文要點(diǎn):

  • 本文探討了三個(gè)研究目標:測量推特用戶(hù)采用匿名或假名的數量;測量在內容敏感性和用戶(hù)匿名之間的相關(guān)性;以及確認是否有可能構建能夠檢測敏感推特賬戶(hù)的自動(dòng)分類(lèi)器。
  • 為了測量推特用戶(hù)匿名的流行程度, 他們從公開(kāi)的 2010 年推特數據集中的 4170 萬(wàn)個(gè)賬戶(hù)中隨機選取了 10 萬(wàn)個(gè)賬戶(hù),并用 Amazon Mechanical Turk 進(jìn)行標注。
  • 為了評估內容敏感性和用戶(hù)選擇匿名的相關(guān)性,他們選擇了若干廣泛被認為敏感、有爭議的主題類(lèi)別。
  • 研究人員在跨度為 5 年的不同時(shí)間點(diǎn)上使用了 3 個(gè)數據集。在所有的 3 個(gè)數據集中,不僅有匿名推特賬戶(hù),還有跨越不同數據集而沒(méi)有變化的匿名賬戶(hù)與敏感推特賬戶(hù)之間的關(guān)系。

本文首先發(fā)表于《 IEEE Security & Privacy 》。對于如今的戰略技術(shù)問(wèn)題,《IEEE Security & Privacy》提供可靠的、同行評審的信息。為了迎接經(jīng)營(yíng)可靠、靈活企業(yè)的挑戰,IT 管理人員和技術(shù)人員依靠 IT Pro 提供較先進(jìn)的解決方案。

互聯(lián)網(wǎng)的急速膨脹引發(fā)出現了越來(lái)越多的在線(xiàn)社交網(wǎng)絡(luò )和論壇。為了加入這些社交網(wǎng)絡(luò )和論壇,用戶(hù)一般必須創(chuàng )建一個(gè)賬戶(hù)并設立一個(gè)在線(xiàn)身份。各種社交網(wǎng)絡(luò )和論壇通常在可接受的用戶(hù)身份上有不同的要求。例如,臉書(shū)實(shí)施實(shí)名制,要求用戶(hù)在創(chuàng )建賬戶(hù)時(shí)提供其真名。所述理由包括這樣的政策會(huì )增強用戶(hù)的責任感并提高了內容質(zhì)量(有助于減少垃圾郵件、欺凌和黑客行為)。然而,倡導隱私人士聲稱(chēng)實(shí)名制政策侵蝕了在線(xiàn)自由,因為這會(huì )把用戶(hù)興趣(通過(guò)其在線(xiàn)活動(dòng)反映出來(lái))和其名字聯(lián)系在一起,從而生成一大堆信息。 1

推特剛好相反,不要求用戶(hù)提供真名,盡管其的確要求用戶(hù)創(chuàng )建獨特的假名。使用與真名無(wú)關(guān)的假名可以有效地讓用戶(hù)匿名(即對其他用戶(hù)匿名,盡管沒(méi)必要對服務(wù)供應商匿名)。不采用實(shí)名制政策使得推特成為流行的信息交換門(mén)戶(hù),用戶(hù)們可以分享和獲取信息而不會(huì )被識別。 2,3

在線(xiàn)和離線(xiàn)匿名都已受到廣泛的研究 4-6 。這里,我們特別關(guān)注在線(xiàn)社交網(wǎng)絡(luò )中的匿名如何影響用戶(hù)行為。我們對推特實(shí)施了大范圍、數據驅動(dòng)的分析,以確定用戶(hù)匿名和其內容敏感性之間的相關(guān)性(如果要更多地了解我們使用的 3 個(gè)推特數據集,請參看原文的邊欄)。我們也探討了利用用戶(hù)匿名模式幫助識別敏感內容的自動(dòng)化系統的可行性。通過(guò)我們的工作,我們希望深入了解匿名在社會(huì )中的重要性和作用,以指導在現有及未來(lái)的在線(xiàn)社交網(wǎng)絡(luò )中新隱私和匿名特征的開(kāi)發(fā),并在社交網(wǎng)絡(luò )中發(fā)現潛在的敏感或有爭議的話(huà)題。為了便于閱讀,我們將在文中采用常用術(shù)語(yǔ),而不是更隱晦的假名。

推特賬戶(hù)基本信息

每個(gè)推特賬戶(hù)包含 4 項主要信息:

  • 用戶(hù)提供詳細個(gè)人信息的賬戶(hù)包括一個(gè)識別該賬戶(hù)的唯一混合了字母數字的 ID,這個(gè)稱(chēng)為顯示名(screen name);一個(gè)名字字段,通常包含該用戶(hù)的全名(姓氏+名字);一張個(gè)人資料照片;一個(gè)可以鏈接到另一個(gè)社交網(wǎng)絡(luò )賬戶(hù)的地址。請注意,在賬戶(hù)中所提供的詳細資料并不總是真實(shí)的,比如,姓名字段中可能名字是假的、姓氏是假的或兩者都是假的。
  • 用戶(hù)發(fā)布的推文或消息列表。
  • 朋友列表。當一個(gè)用戶(hù)關(guān)注(follow)另一個(gè)用戶(hù)或成為“朋友(friend)”時(shí),其會(huì )收到來(lái)自另一個(gè)用戶(hù)的推文更新。但這種關(guān)系是單向的,如果 Alice 是 Bob 的朋友,Bob 不一定是 Alice 的朋友。
  • 關(guān)注者列表。其他收到來(lái)自該用戶(hù)的推文更新的用戶(hù)被稱(chēng)為“關(guān)注者(follower)”。

我們的工作

為了測量推特中匿名的普遍性,我們從公開(kāi)的 2010 年推特數據集中的 4179 萬(wàn)個(gè)賬戶(hù)中隨機選取了 10 萬(wàn)個(gè)賬戶(hù)。 7 去掉所有被停用的賬戶(hù)、非英語(yǔ)賬戶(hù)(那些不以英語(yǔ)為偏好語(yǔ)言的賬戶(hù))、垃圾郵件賬戶(hù)以及非活動(dòng)或短期賬戶(hù),我們把含有 50173 個(gè)推特賬戶(hù)的數據集用 Amazon Mechanical Turk(AMT)進(jìn)行了標注。

標注推特賬戶(hù)

我們把每個(gè)推特賬戶(hù)的名字和顯示名提供給 AMT 的工作人員,請他們來(lái)確定這兩個(gè)字段是否只包含名字,或只包含姓氏,或兩者都有,或兩者都沒(méi)有。工作人員也可以標注為不確定。在 AMT 標注的基礎之上,我們把每個(gè)賬戶(hù)分配給下面幾個(gè)類(lèi)別中的其中一個(gè):

  • 匿名——推特賬戶(hù)中既沒(méi)有姓氏也沒(méi)有名字,還沒(méi)有鏈接地址(因為鏈接地址可以指向一個(gè)部分或完全可識別用戶(hù)的網(wǎng)頁(yè))
  • 部分匿名——推特賬戶(hù)中有姓氏或者有名字,二者居其一
  • 可識別的——有姓氏和名字的推特賬戶(hù)
  • 無(wú)法分類(lèi)的——只要不能被分到上述的類(lèi)別中,比如有鏈接地址而無(wú)姓氏或名字的,或者是屬于組織和公司的推特賬戶(hù),都被歸到這一類(lèi)

請注意,用戶(hù)分類(lèi)中的噪音是難以完全除去的。例如,標注成匿名賬戶(hù)中的一小部分也許不完全如此,比如,用戶(hù)提供的可識別的個(gè)人資料照片或用戶(hù)推文公開(kāi)了他們的身份。而且,可識別的賬號中的一部分也許實(shí)際上是匿名的,因為這些用戶(hù)提供的是假的姓氏和名字。

量化用戶(hù)匿名

我們發(fā)現在所分析的賬戶(hù)中有 6%是匿名的,因為這些賬戶(hù)的用戶(hù)沒(méi)有透露姓氏和名字。還有 20%的賬戶(hù)是部分匿名的,只透露了姓氏或者名字。這意味著(zhù)在線(xiàn)匿名是重要的,至少對 4 分之一的推特用戶(hù)來(lái)說(shuō)是這樣的。同時(shí),推特實(shí)名制的缺失也許是推特的強大賣(mài)點(diǎn)。在剩余的賬戶(hù)中,有 6%是無(wú)法分類(lèi)的,68%是可識別的。當然,有些可識別的用戶(hù)用的是假的姓氏和假的名字,因此,實(shí)際上是匿名的。這意味著(zhù)在推特上沒(méi)有完全披露自己身份的用戶(hù)占 26%可能有點(diǎn)低估了。

用戶(hù)匿名和內容敏感性

為了評估內容敏感性和用戶(hù)匿名之間是否相關(guān),我們選擇了幾個(gè)主題類(lèi)別,這些主題是被廣泛地認為敏感或有爭議的,包括色情、三陪服務(wù)、性取向、宗教和種族仇恨、在線(xiàn)毒品、槍支。為了對比,我們也選擇了幾個(gè)非敏感的主題類(lèi)別,包括新聞網(wǎng)站、家庭娛樂(lè )、影視或戲劇、兒童或嬰兒、生產(chǎn)家居用品的公司或組織。我們?yōu)槊恳活?lèi)別確定了一些與眾不同的搜索主題詞,并且手工選取了在我們用那些主題詞在推特上搜索時(shí)顯示出的賬戶(hù)。

圖 1 敏感和不敏感推特賬號類(lèi)別,按照匿名關(guān)注者所占的百分比從高到低排列

我們選擇了 50 個(gè)跟敏感類(lèi)別相關(guān)的推特賬戶(hù),20 個(gè)跟非敏感類(lèi)別相關(guān)的推特賬戶(hù)。圖 1 展示了每個(gè)敏感和非敏感類(lèi)別的匿名關(guān)注者所占的平均百分比。這些分類(lèi)是根據匿名關(guān)注者所占的百分比從高到低排列的。

敏感類(lèi)別的匿名用戶(hù)所占的百分比較高,關(guān)注色情、大麻、伊斯蘭恐懼癥以及同性戀賬戶(hù)的用戶(hù)至少占 21.6%,關(guān)注色情賬戶(hù)的遠遠超過(guò)其他匿名關(guān)注者,有 37.3%之多。然而,某些敏感主題類(lèi)別,比如白人之上和槍支這類(lèi)的,在可識別的關(guān)注者中有著(zhù)驚人的大比例。這顯示出某些類(lèi)別的敏感內容有保密性,而其他的則鼓勵開(kāi)放性。這個(gè)觀(guān)察再次肯定內容敏感性是相當微妙和復雜的。

甚至非敏感的分類(lèi)賬戶(hù)也有 6.6%到 8.9%的匿名追隨者。這個(gè)觀(guān)察證實(shí)用戶(hù)不會(huì )僅僅為了關(guān)注敏感賬戶(hù)而創(chuàng )建匿名賬戶(hù)。為了避免維護多個(gè)賬戶(hù),一個(gè)匿名用戶(hù)也許會(huì )用同個(gè)賬戶(hù)同時(shí)關(guān)注敏感和非敏感的賬戶(hù),于是在推特上泄露了其興趣所在。

自動(dòng)檢測敏感賬戶(hù)

一種識別敏感賬戶(hù)的方法是指定敏感主題的分類(lèi),識別那些通常出現在這些主題討論中的詞匯,然后搜索使用這些詞匯的推文和賬戶(hù)。然而,這個(gè)方法是非常主觀(guān)的,因為它依賴(lài)人類(lèi)來(lái)決定敏感主題和詞匯。

另一種方法是對推文應用自動(dòng)主題識別技術(shù),比如 LDA(latent Dirichlet allocation,潛在狄利克雷分配)。這可以識別與這些敏感主題相關(guān)的賬戶(hù)。然而,這樣的技術(shù)是資源高度密集型的,無(wú)法匹配推特的規模。 8

因此,我們調查了我們觀(guān)察到的用戶(hù)匿名模式和他們與內容敏感性之間的聯(lián)系是否可以用來(lái)開(kāi)發(fā)一個(gè)有效的自動(dòng)方式來(lái)識別推文中含有敏感內容的賬戶(hù)。這種方式會(huì )更好地推廣到不可預見(jiàn)的主題,將不會(huì )受到語(yǔ)言特征的限制并且易于擴展。

我們首先考慮了自動(dòng)確定賬戶(hù)是否匿名問(wèn)題的一個(gè)子問(wèn)題。我們依賴(lài)先前已經(jīng)被標注的推特賬戶(hù)用于訓練。因為匿名和可識別賬戶(hù)在姓氏和名字的構成上有不同之處,我們獲取了美國人口普查和社會(huì )保障局的公開(kāi)姓氏和名字列表。

但是,僅僅在名字列表中搜索,得到匿名和可識別的檢測率很差。因此,我們從推特賬戶(hù)中提取了額外的可用信息,比如在公開(kāi)名字列表中的姓氏和名字的流行等級;名字字符串遵循的結構約束(比如,“名 +中間名+ 姓 ”),另外還有朋友的數量、關(guān)注者、推文等等。

利用這些提取的特征,我們訓練了一個(gè)基于隨機森林的匿名機器學(xué)習分類(lèi)器,這個(gè)分類(lèi)器能夠精確地檢測出匿名和可識別賬戶(hù),精度超過(guò) 90%。然后,根據這個(gè)匿名分類(lèi)器在之前已知的 70 個(gè)敏感和非敏感的賬號中檢測到匿名和可識別的關(guān)注者的比例,我們開(kāi)發(fā)了一個(gè)基于支持向量機的敏感分類(lèi)器,它可以區分敏感和非敏感的推特賬戶(hù)。

為了測試這個(gè)敏感分類(lèi)器,我們爬取了推特上隨機的 10 萬(wàn)個(gè)賬戶(hù),這些賬戶(hù)有大約 4 億 4 百萬(wàn)活躍的關(guān)注者。在標注了它們的關(guān)注者是匿名或是可識別之后,我們在這些賬戶(hù)上應用了這個(gè)分類(lèi)器。

手工檢查表明,被我們的分類(lèi)器定義的敏感賬戶(hù)中,最主要的的確是在討論多數人認為的敏感話(huà)題:色情、毒品和成人內容。然而,除了這些常見(jiàn)的嫌疑賬戶(hù)外,我們的方法發(fā)現很多賬戶(hù)跟社會(huì )性主題相關(guān),這說(shuō)明匿名具有很多不同的目的。

例如,我們識別出許多為同性戀、雙性戀、變性人的權利搖旗吶喊的賬戶(hù)。對于很多人來(lái)說(shuō),披露自己的性取向是個(gè)敏感的問(wèn)題,因此用戶(hù)更傾向于匿名。我們發(fā)現了那些公開(kāi)討論婚姻和其他關(guān)系問(wèn)題、分享個(gè)人感受或經(jīng)歷并解決健康問(wèn)題的賬戶(hù)。匿名或許為人們提供了一個(gè)尋求支持和安慰的機會(huì )。

我們也發(fā)現了和嚴重厭食癥、社交焦慮、抑郁和自殺傾向有關(guān)的賬戶(hù)。事實(shí)上,在其中的一些賬戶(hù)上,用戶(hù)上傳了其自殘的照片。盡管這些賬戶(hù)有不同的目的,醫療機構正利用它們對那些需要幫助的人伸出援手。 9

跟那些敏感主題有關(guān)賬戶(hù)的存在,以及它們有很多匿名關(guān)注者的事實(shí)支持了在我們這個(gè)社會(huì )中隱私和匿名是很重要的這個(gè)論點(diǎn)。

盡管我們識別推特敏感賬戶(hù)的新方法提供了一種可推廣和客觀(guān)的方式來(lái)了解內容敏感性,但是要改善用戶(hù)在社交媒體內容上的隱私偏好和期望還需要更深入的研究。

比如,值得探索和量化在不同社交應用程序中有多少敏感性?xún)热蓊?lèi)別是一致的,以及有多少取決于該應用程序的特性(例如分享照片與消息傳送)。我們希望我們的發(fā)現會(huì )對將來(lái)隱私政策的改善和新的隱私管控上有所幫助。

致謝

本文是在作者之前發(fā)表的兩篇文章的基礎上形成的,其中一篇是《在網(wǎng)上,沒(méi)人知道你是條狗:社交網(wǎng)絡(luò )匿名性的推文案例研究》(Proc. ACM Conf. Online Social Networks [COSN 14], 2014, pp. 83–94),另一篇是《在推特上尋找敏感賬戶(hù):基于關(guān)注者匿名的自動(dòng)化方法》(Proc. Int’l AAAI Conf. Web and Social Media [ICWSM 16], 2016, pp. 665–658)。

參考文獻

  1. N. Lomas, “Facebook Users Must Be Allowed to Use Pseudonyms, Says German Privacy Regulator; Real-Name Policy ‘Erodes Online Freedoms,’” Techcrunch, 18 Dec. 2012; techcrunch.com/2012/12/18 /facebook-users-must-be-allowed-to -use-pseudonyms-says-german -privacy-regulator-real-name-policy -erodes-online-freedoms.
  2. A. Kavanaugh et al., “Microblogging in Crisis Situations: Mass Protests in Iran, Tunisia, Egypt,” Proc. Workshop Transnational Human-Computer Interaction (CHI 11), 2011; eventsarchive.org/sites/default/ les/Twi er%20Use%20 in%20Iran%20Tunisia%20Egypt .Kavanaugh.Final__0.pdf.
  3. E. Mustafaraj et al., “Hiding in Plain Sight: A Tale of Trust and Mistrust inside a Community of Citizen Reporters,” Proc. 6th Int’l AAAI Conf. Weblogs and Social Media (ICWSM 12), 2012, pp. 250–257.
  4. M.S. Bernstein et al., “4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community,” Proc. 5th Int’l AAAI Conf. Weblogs and Social Media(ICWSM 11), 2011, pp. 50–57.
  5. D. Correa et al., “ e Many Shades of Anonymity: Characterizing Anonymous Social Media Content,” Proc. 9th Int’l AAAI Conf. Web and Social Media (ICWSM 15), 2015; socialnetworks.mpi-sws.org/papers/anonymity_shades.pdf.
  6. S.T. Peddinti et al., “Cloak and Swagger: Understanding Data Sensitivity through the Lens of User Anonymity,” Proc. 35th IEEE Symp. Security and Privacy, 2014, pp. 493–508.
  7. H. Kwak et al., “What Is Twi er, a Social Network or a News Media?,” Proc. 19th Int’l Conf. World Wide Web(WWW 10), 2010, pp. 591–600.
  8. B. Bi et al., “Scalable Topic-Speci c In uence Analysis on Microblogs,” Proc. 7th ACM Int’l Conf. Web Search and Data Mining (WSDM 14), 2014, pp. 513–522.
  9. J. Jashinsky et al., “Tracking Suicide Risk Factors through Twi er in the US,” Crisis, vol. 35, no. 1, 2014, pp. 51–59.

作者簡(jiǎn)介

Sai Teja Peddinti是谷歌安全和隱私小組的研究科學(xué)家。他的研究工作是在紐約大學(xué)攻讀博士學(xué)位時(shí)期完成的。請通過(guò) psaiteja@ google.com 與他聯(lián)系。

Keith W. Ross是上海紐約大學(xué)工程與計算機科學(xué)系主任,紐約大學(xué)計算機科學(xué)與工程系 Leonard J. Shustek 講座教授。 請通過(guò) keithwross@nyu.edu 與他聯(lián)系。

Justin Cappos是紐約大學(xué) Tandon 工程學(xué)院的助教。請通過(guò) jcappos@nyu.edu 與他聯(lián)系。

查看英文原文: http://www.infoq.com/articles/user-anonymity-twitter

轉自 http://www.infoq.com/cn/articles/user-anonymity-twitter