作者 Sai Teja Peddinti , Keith W Ross , Justin Cappos ,譯者 姚佳靈
本文要點(diǎn):
- 本文探討了三個(gè)研究目標:測量推特用戶(hù)采用匿名或假名的數量;測量在內容敏感性和用戶(hù)匿名之間的相關(guān)性;以及確認是否有可能構建能夠檢測敏感推特賬戶(hù)的自動(dòng)分類(lèi)器。
- 為了測量推特用戶(hù)匿名的流行程度, 他們從公開(kāi)的 2010 年推特數據集中的 4170 萬(wàn)個(gè)賬戶(hù)中隨機選取了 10 萬(wàn)個(gè)賬戶(hù),并用 Amazon Mechanical Turk 進(jìn)行標注。
- 為了評估內容敏感性和用戶(hù)選擇匿名的相關(guān)性,他們選擇了若干廣泛被認為敏感、有爭議的主題類(lèi)別。
- 研究人員在跨度為 5 年的不同時(shí)間點(diǎn)上使用了 3 個(gè)數據集。在所有的 3 個(gè)數據集中,不僅有匿名推特賬戶(hù),還有跨越不同數據集而沒(méi)有變化的匿名賬戶(hù)與敏感推特賬戶(hù)之間的關(guān)系。
本文首先發(fā)表于《 IEEE Security & Privacy 》。對于如今的戰略技術(shù)問(wèn)題,《IEEE Security & Privacy》提供可靠的、同行評審的信息。為了迎接經(jīng)營(yíng)可靠、靈活企業(yè)的挑戰,IT 管理人員和技術(shù)人員依靠 IT Pro 提供較先進(jìn)的解決方案。
互聯(lián)網(wǎng)的急速膨脹引發(fā)出現了越來(lái)越多的在線(xiàn)社交網(wǎng)絡(luò )和論壇。為了加入這些社交網(wǎng)絡(luò )和論壇,用戶(hù)一般必須創(chuàng )建一個(gè)賬戶(hù)并設立一個(gè)在線(xiàn)身份。各種社交網(wǎng)絡(luò )和論壇通常在可接受的用戶(hù)身份上有不同的要求。例如,臉書(shū)實(shí)施實(shí)名制,要求用戶(hù)在創(chuàng )建賬戶(hù)時(shí)提供其真名。所述理由包括這樣的政策會(huì )增強用戶(hù)的責任感并提高了內容質(zhì)量(有助于減少垃圾郵件、欺凌和黑客行為)。然而,倡導隱私人士聲稱(chēng)實(shí)名制政策侵蝕了在線(xiàn)自由,因為這會(huì )把用戶(hù)興趣(通過(guò)其在線(xiàn)活動(dòng)反映出來(lái))和其名字聯(lián)系在一起,從而生成一大堆信息。 1
推特剛好相反,不要求用戶(hù)提供真名,盡管其的確要求用戶(hù)創(chuàng )建獨特的假名。使用與真名無(wú)關(guān)的假名可以有效地讓用戶(hù)匿名(即對其他用戶(hù)匿名,盡管沒(méi)必要對服務(wù)供應商匿名)。不采用實(shí)名制政策使得推特成為流行的信息交換門(mén)戶(hù),用戶(hù)們可以分享和獲取信息而不會(huì )被識別。 2,3
在線(xiàn)和離線(xiàn)匿名都已受到廣泛的研究 4-6 。這里,我們特別關(guān)注在線(xiàn)社交網(wǎng)絡(luò )中的匿名如何影響用戶(hù)行為。我們對推特實(shí)施了大范圍、數據驅動(dòng)的分析,以確定用戶(hù)匿名和其內容敏感性之間的相關(guān)性(如果要更多地了解我們使用的 3 個(gè)推特數據集,請參看原文的邊欄)。我們也探討了利用用戶(hù)匿名模式幫助識別敏感內容的自動(dòng)化系統的可行性。通過(guò)我們的工作,我們希望深入了解匿名在社會(huì )中的重要性和作用,以指導在現有及未來(lái)的在線(xiàn)社交網(wǎng)絡(luò )中新隱私和匿名特征的開(kāi)發(fā),并在社交網(wǎng)絡(luò )中發(fā)現潛在的敏感或有爭議的話(huà)題。為了便于閱讀,我們將在文中采用常用術(shù)語(yǔ),而不是更隱晦的假名。
推特賬戶(hù)基本信息
每個(gè)推特賬戶(hù)包含 4 項主要信息:
- 用戶(hù)提供詳細個(gè)人信息的賬戶(hù)包括一個(gè)識別該賬戶(hù)的唯一混合了字母數字的 ID,這個(gè)稱(chēng)為顯示名(screen name);一個(gè)名字字段,通常包含該用戶(hù)的全名(姓氏+名字);一張個(gè)人資料照片;一個(gè)可以鏈接到另一個(gè)社交網(wǎng)絡(luò )賬戶(hù)的地址。請注意,在賬戶(hù)中所提供的詳細資料并不總是真實(shí)的,比如,姓名字段中可能名字是假的、姓氏是假的或兩者都是假的。
- 用戶(hù)發(fā)布的推文或消息列表。
- 朋友列表。當一個(gè)用戶(hù)關(guān)注(follow)另一個(gè)用戶(hù)或成為“朋友(friend)”時(shí),其會(huì )收到來(lái)自另一個(gè)用戶(hù)的推文更新。但這種關(guān)系是單向的,如果 Alice 是 Bob 的朋友,Bob 不一定是 Alice 的朋友。
- 關(guān)注者列表。其他收到來(lái)自該用戶(hù)的推文更新的用戶(hù)被稱(chēng)為“關(guān)注者(follower)”。
我們的工作
為了測量推特中匿名的普遍性,我們從公開(kāi)的 2010 年推特數據集中的 4179 萬(wàn)個(gè)賬戶(hù)中隨機選取了 10 萬(wàn)個(gè)賬戶(hù)。 7 去掉所有被停用的賬戶(hù)、非英語(yǔ)賬戶(hù)(那些不以英語(yǔ)為偏好語(yǔ)言的賬戶(hù))、垃圾郵件賬戶(hù)以及非活動(dòng)或短期賬戶(hù),我們把含有 50173 個(gè)推特賬戶(hù)的數據集用 Amazon Mechanical Turk(AMT)進(jìn)行了標注。
標注推特賬戶(hù)
我們把每個(gè)推特賬戶(hù)的名字和顯示名提供給 AMT 的工作人員,請他們來(lái)確定這兩個(gè)字段是否只包含名字,或只包含姓氏,或兩者都有,或兩者都沒(méi)有。工作人員也可以標注為不確定。在 AMT 標注的基礎之上,我們把每個(gè)賬戶(hù)分配給下面幾個(gè)類(lèi)別中的其中一個(gè):
- 匿名——推特賬戶(hù)中既沒(méi)有姓氏也沒(méi)有名字,還沒(méi)有鏈接地址(因為鏈接地址可以指向一個(gè)部分或完全可識別用戶(hù)的網(wǎng)頁(yè))
- 部分匿名——推特賬戶(hù)中有姓氏或者有名字,二者居其一
- 可識別的——有姓氏和名字的推特賬戶(hù)
- 無(wú)法分類(lèi)的——只要不能被分到上述的類(lèi)別中,比如有鏈接地址而無(wú)姓氏或名字的,或者是屬于組織和公司的推特賬戶(hù),都被歸到這一類(lèi)
請注意,用戶(hù)分類(lèi)中的噪音是難以完全除去的。例如,標注成匿名賬戶(hù)中的一小部分也許不完全如此,比如,用戶(hù)提供的可識別的個(gè)人資料照片或用戶(hù)推文公開(kāi)了他們的身份。而且,可識別的賬號中的一部分也許實(shí)際上是匿名的,因為這些用戶(hù)提供的是假的姓氏和名字。
量化用戶(hù)匿名
我們發(fā)現在所分析的賬戶(hù)中有 6%是匿名的,因為這些賬戶(hù)的用戶(hù)沒(méi)有透露姓氏和名字。還有 20%的賬戶(hù)是部分匿名的,只透露了姓氏或者名字。這意味著(zhù)在線(xiàn)匿名是重要的,至少對 4 分之一的推特用戶(hù)來(lái)說(shuō)是這樣的。同時(shí),推特實(shí)名制的缺失也許是推特的強大賣(mài)點(diǎn)。在剩余的賬戶(hù)中,有 6%是無(wú)法分類(lèi)的,68%是可識別的。當然,有些可識別的用戶(hù)用的是假的姓氏和假的名字,因此,實(shí)際上是匿名的。這意味著(zhù)在推特上沒(méi)有完全披露自己身份的用戶(hù)占 26%可能有點(diǎn)低估了。
用戶(hù)匿名和內容敏感性
為了評估內容敏感性和用戶(hù)匿名之間是否相關(guān),我們選擇了幾個(gè)主題類(lèi)別,這些主題是被廣泛地認為敏感或有爭議的,包括色情、三陪服務(wù)、性取向、宗教和種族仇恨、在線(xiàn)毒品、槍支。為了對比,我們也選擇了幾個(gè)非敏感的主題類(lèi)別,包括新聞網(wǎng)站、家庭娛樂(lè )、影視或戲劇、兒童或嬰兒、生產(chǎn)家居用品的公司或組織。我們?yōu)槊恳活?lèi)別確定了一些與眾不同的搜索主題詞,并且手工選取了在我們用那些主題詞在推特上搜索時(shí)顯示出的賬戶(hù)。
圖 1 敏感和不敏感推特賬號類(lèi)別,按照匿名關(guān)注者所占的百分比從高到低排列
我們選擇了 50 個(gè)跟敏感類(lèi)別相關(guān)的推特賬戶(hù),20 個(gè)跟非敏感類(lèi)別相關(guān)的推特賬戶(hù)。圖 1 展示了每個(gè)敏感和非敏感類(lèi)別的匿名關(guān)注者所占的平均百分比。這些分類(lèi)是根據匿名關(guān)注者所占的百分比從高到低排列的。
敏感類(lèi)別的匿名用戶(hù)所占的百分比較高,關(guān)注色情、大麻、伊斯蘭恐懼癥以及同性戀賬戶(hù)的用戶(hù)至少占 21.6%,關(guān)注色情賬戶(hù)的遠遠超過(guò)其他匿名關(guān)注者,有 37.3%之多。然而,某些敏感主題類(lèi)別,比如白人之上和槍支這類(lèi)的,在可識別的關(guān)注者中有著(zhù)驚人的大比例。這顯示出某些類(lèi)別的敏感內容有保密性,而其他的則鼓勵開(kāi)放性。這個(gè)觀(guān)察再次肯定內容敏感性是相當微妙和復雜的。
甚至非敏感的分類(lèi)賬戶(hù)也有 6.6%到 8.9%的匿名追隨者。這個(gè)觀(guān)察證實(shí)用戶(hù)不會(huì )僅僅為了關(guān)注敏感賬戶(hù)而創(chuàng )建匿名賬戶(hù)。為了避免維護多個(gè)賬戶(hù),一個(gè)匿名用戶(hù)也許會(huì )用同個(gè)賬戶(hù)同時(shí)關(guān)注敏感和非敏感的賬戶(hù),于是在推特上泄露了其興趣所在。
自動(dòng)檢測敏感賬戶(hù)
一種識別敏感賬戶(hù)的方法是指定敏感主題的分類(lèi),識別那些通常出現在這些主題討論中的詞匯,然后搜索使用這些詞匯的推文和賬戶(hù)。然而,這個(gè)方法是非常主觀(guān)的,因為它依賴(lài)人類(lèi)來(lái)決定敏感主題和詞匯。
另一種方法是對推文應用自動(dòng)主題識別技術(shù),比如 LDA(latent Dirichlet allocation,潛在狄利克雷分配)。這可以識別與這些敏感主題相關(guān)的賬戶(hù)。然而,這樣的技術(shù)是資源高度密集型的,無(wú)法匹配推特的規模。 8
因此,我們調查了我們觀(guān)察到的用戶(hù)匿名模式和他們與內容敏感性之間的聯(lián)系是否可以用來(lái)開(kāi)發(fā)一個(gè)有效的自動(dòng)方式來(lái)識別推文中含有敏感內容的賬戶(hù)。這種方式會(huì )更好地推廣到不可預見(jiàn)的主題,將不會(huì )受到語(yǔ)言特征的限制并且易于擴展。
我們首先考慮了自動(dòng)確定賬戶(hù)是否匿名問(wèn)題的一個(gè)子問(wèn)題。我們依賴(lài)先前已經(jīng)被標注的推特賬戶(hù)用于訓練。因為匿名和可識別賬戶(hù)在姓氏和名字的構成上有不同之處,我們獲取了美國人口普查和社會(huì )保障局的公開(kāi)姓氏和名字列表。
但是,僅僅在名字列表中搜索,得到匿名和可識別的檢測率很差。因此,我們從推特賬戶(hù)中提取了額外的可用信息,比如在公開(kāi)名字列表中的姓氏和名字的流行等級;名字字符串遵循的結構約束(比如,“名 +中間名+ 姓 ”),另外還有朋友的數量、關(guān)注者、推文等等。
利用這些提取的特征,我們訓練了一個(gè)基于隨機森林的匿名機器學(xué)習分類(lèi)器,這個(gè)分類(lèi)器能夠精確地檢測出匿名和可識別賬戶(hù),精度超過(guò) 90%。然后,根據這個(gè)匿名分類(lèi)器在之前已知的 70 個(gè)敏感和非敏感的賬號中檢測到匿名和可識別的關(guān)注者的比例,我們開(kāi)發(fā)了一個(gè)基于支持向量機的敏感分類(lèi)器,它可以區分敏感和非敏感的推特賬戶(hù)。
為了測試這個(gè)敏感分類(lèi)器,我們爬取了推特上隨機的 10 萬(wàn)個(gè)賬戶(hù),這些賬戶(hù)有大約 4 億 4 百萬(wàn)活躍的關(guān)注者。在標注了它們的關(guān)注者是匿名或是可識別之后,我們在這些賬戶(hù)上應用了這個(gè)分類(lèi)器。
手工檢查表明,被我們的分類(lèi)器定義的敏感賬戶(hù)中,最主要的的確是在討論多數人認為的敏感話(huà)題:色情、毒品和成人內容。然而,除了這些常見(jiàn)的嫌疑賬戶(hù)外,我們的方法發(fā)現很多賬戶(hù)跟社會(huì )性主題相關(guān),這說(shuō)明匿名具有很多不同的目的。
例如,我們識別出許多為同性戀、雙性戀、變性人的權利搖旗吶喊的賬戶(hù)。對于很多人來(lái)說(shuō),披露自己的性取向是個(gè)敏感的問(wèn)題,因此用戶(hù)更傾向于匿名。我們發(fā)現了那些公開(kāi)討論婚姻和其他關(guān)系問(wèn)題、分享個(gè)人感受或經(jīng)歷并解決健康問(wèn)題的賬戶(hù)。匿名或許為人們提供了一個(gè)尋求支持和安慰的機會(huì )。
我們也發(fā)現了和嚴重厭食癥、社交焦慮、抑郁和自殺傾向有關(guān)的賬戶(hù)。事實(shí)上,在其中的一些賬戶(hù)上,用戶(hù)上傳了其自殘的照片。盡管這些賬戶(hù)有不同的目的,醫療機構正利用它們對那些需要幫助的人伸出援手。 9
跟那些敏感主題有關(guān)賬戶(hù)的存在,以及它們有很多匿名關(guān)注者的事實(shí)支持了在我們這個(gè)社會(huì )中隱私和匿名是很重要的這個(gè)論點(diǎn)。
盡管我們識別推特敏感賬戶(hù)的新方法提供了一種可推廣和客觀(guān)的方式來(lái)了解內容敏感性,但是要改善用戶(hù)在社交媒體內容上的隱私偏好和期望還需要更深入的研究。
比如,值得探索和量化在不同社交應用程序中有多少敏感性?xún)热蓊?lèi)別是一致的,以及有多少取決于該應用程序的特性(例如分享照片與消息傳送)。我們希望我們的發(fā)現會(huì )對將來(lái)隱私政策的改善和新的隱私管控上有所幫助。
致謝
本文是在作者之前發(fā)表的兩篇文章的基礎上形成的,其中一篇是《在網(wǎng)上,沒(méi)人知道你是條狗:社交網(wǎng)絡(luò )匿名性的推文案例研究》(Proc. ACM Conf. Online Social Networks [COSN 14], 2014, pp. 83–94),另一篇是《在推特上尋找敏感賬戶(hù):基于關(guān)注者匿名的自動(dòng)化方法》(Proc. Int’l AAAI Conf. Web and Social Media [ICWSM 16], 2016, pp. 665–658)。
參考文獻
- N. Lomas, “Facebook Users Must Be Allowed to Use Pseudonyms, Says German Privacy Regulator; Real-Name Policy ‘Erodes Online Freedoms,’” Techcrunch, 18 Dec. 2012; techcrunch.com/2012/12/18 /facebook-users-must-be-allowed-to -use-pseudonyms-says-german -privacy-regulator-real-name-policy -erodes-online-freedoms.
- A. Kavanaugh et al., “Microblogging in Crisis Situations: Mass Protests in Iran, Tunisia, Egypt,” Proc. Workshop Transnational Human-Computer Interaction (CHI 11), 2011; eventsarchive.org/sites/default/ les/Twi er%20Use%20 in%20Iran%20Tunisia%20Egypt .Kavanaugh.Final__0.pdf.
- E. Mustafaraj et al., “Hiding in Plain Sight: A Tale of Trust and Mistrust inside a Community of Citizen Reporters,” Proc. 6th Int’l AAAI Conf. Weblogs and Social Media (ICWSM 12), 2012, pp. 250–257.
- M.S. Bernstein et al., “4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community,” Proc. 5th Int’l AAAI Conf. Weblogs and Social Media(ICWSM 11), 2011, pp. 50–57.
- D. Correa et al., “ e Many Shades of Anonymity: Characterizing Anonymous Social Media Content,” Proc. 9th Int’l AAAI Conf. Web and Social Media (ICWSM 15), 2015; socialnetworks.mpi-sws.org/papers/anonymity_shades.pdf.
- S.T. Peddinti et al., “Cloak and Swagger: Understanding Data Sensitivity through the Lens of User Anonymity,” Proc. 35th IEEE Symp. Security and Privacy, 2014, pp. 493–508.
- H. Kwak et al., “What Is Twi er, a Social Network or a News Media?,” Proc. 19th Int’l Conf. World Wide Web(WWW 10), 2010, pp. 591–600.
- B. Bi et al., “Scalable Topic-Speci c In uence Analysis on Microblogs,” Proc. 7th ACM Int’l Conf. Web Search and Data Mining (WSDM 14), 2014, pp. 513–522.
- J. Jashinsky et al., “Tracking Suicide Risk Factors through Twi er in the US,” Crisis, vol. 35, no. 1, 2014, pp. 51–59.
作者簡(jiǎn)介
Sai Teja Peddinti是谷歌安全和隱私小組的研究科學(xué)家。他的研究工作是在紐約大學(xué)攻讀博士學(xué)位時(shí)期完成的。請通過(guò) psaiteja@ google.com 與他聯(lián)系。
Keith W. Ross是上海紐約大學(xué)工程與計算機科學(xué)系主任,紐約大學(xué)計算機科學(xué)與工程系 Leonard J. Shustek 講座教授。 請通過(guò) keithwross@nyu.edu 與他聯(lián)系。
Justin Cappos是紐約大學(xué) Tandon 工程學(xué)院的助教。請通過(guò) jcappos@nyu.edu 與他聯(lián)系。
查看英文原文: http://www.infoq.com/articles/user-anonymity-twitter
轉自 http://www.infoq.com/cn/articles/user-anonymity-twitter