社交網(wǎng)絡(luò )和數據挖掘是計算機學(xué)科相關(guān)研究中的熱點(diǎn)。
近年來(lái),以微博、微信等為代表的在線(xiàn)社會(huì )媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。在社交網(wǎng)絡(luò )中匯聚了大量的用戶(hù)關(guān)系數據和信息傳播數據,對社交網(wǎng)絡(luò )數據的研究和挖掘將為我們了解和研究人類(lèi)社會(huì )、經(jīng)濟、商業(yè)等的潛在規律提供極大的幫助。
那么在海量的社交網(wǎng)絡(luò )數據下面存在著(zhù)什么樣的特點(diǎn)和規律呢?在線(xiàn)社交網(wǎng)絡(luò )的信息傳播與物理社交網(wǎng)絡(luò )的信息傳播有什么樣異同呢?如何挖掘社交網(wǎng)絡(luò )的數據以從中發(fā)現一些潛在的社會(huì )、經(jīng)濟和商業(yè)規律呢?社交網(wǎng)絡(luò )和數據挖掘的前沿研究方向在哪里呢?
不管你是青年愛(ài)好者、計算機科學(xué)工作者,還是社會(huì )科學(xué)研究人員或者企事業(yè)單位的管理人員,對這些問(wèn)題的探討和學(xué)習,都會(huì )對你的工作、學(xué)習、研究有極大的幫助。
12月22日-24日,由中國計算機學(xué)會(huì )(CCF)主辦的第87期CCF學(xué)科前沿講習班(CCF-ADL)將以《社交網(wǎng)絡(luò )和數據挖掘》為主題,邀請數位來(lái)自國內外該領(lǐng)域重量級的專(zhuān)家學(xué)者對這些問(wèn)題做一系列主題報告。雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) 作為全力合作媒體,也將到場(chǎng)聆聽(tīng)大牛分享,并對講習班內容進(jìn)行全程報道。
他們將對社交網(wǎng)絡(luò )和數據挖掘的基礎理論、關(guān)鍵技術(shù)方法以及當前熱點(diǎn)問(wèn)題進(jìn)行深入淺出的介紹,并對如何開(kāi)展該領(lǐng)域前沿技術(shù)研究等進(jìn)行探討,以及分享近幾年在在線(xiàn)社會(huì )媒體中的信息傳播預測方面的研究成果。相信與會(huì )者必然能夠從中了解到社交網(wǎng)絡(luò )和數據挖掘領(lǐng)域的重點(diǎn)和熱點(diǎn),給自己的學(xué)習、研究和工作帶來(lái)新啟發(fā)。
(雷鋒網(wǎng)編者注:CCF-ADL系列開(kāi)班以來(lái),主題涉及深度學(xué)習、類(lèi)腦計算、區塊鏈技術(shù)、城市計算、計算機視覺(jué)等各大領(lǐng)域,邀請了學(xué)術(shù)界、工業(yè)界包括微軟研究員鄭宇、360首席科學(xué)家顏水成、港科大楊強教授等,聚集產(chǎn)學(xué)研各界人士,給數千人分享了學(xué)術(shù)前沿成果和應用方法。 雷鋒網(wǎng)作為全力合作媒體,將對講習班進(jìn)行深入報道,無(wú)法到達現場(chǎng)的同學(xué),雷鋒網(wǎng)·AI慕課學(xué)院也會(huì )呈上已獲授權的 全 網(wǎng)全力在線(xiàn)視頻(http://www.mooc.ai/course/307) 以供學(xué)習。
下面雷鋒網(wǎng)對課程內容作以簡(jiǎn)要介紹,詳細內容請 參閱AI慕課學(xué)院介紹 。
特邀講者
Philip S. Yu:通過(guò)社交網(wǎng)絡(luò )信息融合的“Broad Learning”
Philip S. Yu,ACM/IEEE院士、美國伊利諾伊大學(xué)芝加哥分校特聘教授、清華大學(xué)軟件學(xué)院客座教授。
報告簡(jiǎn)介:
在大數據時(shí)代,以各種格式存在的數據資源非常豐富。一種有意思的想法就是將這些不同格式的資源融合在一起,來(lái)協(xié)同挖掘數據背后的信息,這將比單一的數據資源獲得更多有價(jià)值的結果?!癇road Learning”正是這樣一種新型的學(xué)習任務(wù)。但BL在將不同的數據資源有效融合的過(guò)程中仍然存在著(zhù)巨大的挑戰,這不僅取決于數據源的相關(guān)性,還取決于目標應用問(wèn)題。在本次報告中,我們將探討如何融合社交網(wǎng)絡(luò )信息來(lái)改善各種應用場(chǎng)景中數據挖掘的效果。
唐杰:社會(huì )影響力與行為預測
唐杰,清華計算機系副教授、博導、CCF杰出會(huì )員、清華-工程院知識智能聯(lián)合實(shí)驗室主任。主持研發(fā)了研究者社會(huì )網(wǎng)絡(luò )挖掘系統AMiner,從億級文獻數據挖掘科技知識,吸引了220個(gè)國家/地區800多萬(wàn)獨立IP訪(fǎng)問(wèn);核心技術(shù)應用于國家科技部、自然科學(xué)基金委、中國工程院、ACM、美國艾倫人工智能研究所、搜狗、阿里巴巴、騰訊等單位。
摘要:
社會(huì )網(wǎng)絡(luò )已經(jīng)成為溝通真實(shí)物理世界和虛擬互聯(lián)空間的橋梁。我們在互聯(lián)網(wǎng)絡(luò )中的行為直接反映了我們在真實(shí)世界的活動(dòng)和情感。我將介紹在大規模真實(shí)網(wǎng)絡(luò )中(如:微信、微博、Twitter、 AMiner等網(wǎng)絡(luò ))如何分析用戶(hù)之間的交互影響力和基于網(wǎng)絡(luò )拓撲的結構影響力,并基于影響力預測用戶(hù)行為。模型同時(shí)考慮了網(wǎng)絡(luò )結構、用戶(hù)屬性和網(wǎng)絡(luò )用戶(hù)的偏好。并設計了針對大規模網(wǎng)絡(luò )的并行學(xué)習算法。在實(shí)際真實(shí)在線(xiàn)社交系統中得到了驗證。
沈華偉:在線(xiàn)社交媒體中的信息傳播預測
沈華偉,博士,中國科學(xué)院計算技術(shù)研究所研究員,中國中文信息學(xué)會(huì )社會(huì )媒體處理專(zhuān)委會(huì )副主任。
摘要:
近年來(lái),以微博、微信等為代表的在線(xiàn)社會(huì )媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。社會(huì )媒體匯聚了大量的用戶(hù)關(guān)系數據和信息傳播數據,為分析和研究人類(lèi)社會(huì )活動(dòng)提供了彌足珍貴的數據資源。社會(huì )媒體中數據多源異構、個(gè)體間關(guān)系繁雜、信息傳播突發(fā)等特點(diǎn)給社會(huì )媒體分析提出了科學(xué)技術(shù)挑戰。分析社交網(wǎng)絡(luò )的結構規律、挖掘用戶(hù)行為的固有模式、探索網(wǎng)絡(luò )信息傳播的內在機理、研究高效的社交網(wǎng)絡(luò )分析與網(wǎng)絡(luò )信息傳播預測方法,有利于提升對在線(xiàn)社會(huì )媒體的科學(xué)認知水平和有效利用能力。報告將從網(wǎng)絡(luò )結構分析、網(wǎng)絡(luò )表達學(xué)習、網(wǎng)絡(luò )信息傳播預測等幾個(gè)方面介紹報告人近幾年在在線(xiàn)社會(huì )媒體中的信息傳播預測方面的研究成果。
宋國杰:社會(huì )網(wǎng)絡(luò )信息傳播影響最大化挖掘
宋國杰,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副教授,智能交通系統研究中心副主任。
摘要:
網(wǎng)絡(luò )信息傳播挖掘研究是近年來(lái)社交網(wǎng)絡(luò )分析領(lǐng)域的熱點(diǎn)問(wèn)題。報告將重點(diǎn)介紹兩方面的研究工作:傳播影響最大化(Influence Maximization)和網(wǎng)絡(luò )推斷(Network Inference)。前者主要研究在既定傳播模型下,如何高效尋找社交網(wǎng)絡(luò )中信息傳播影響力最大的Top-k節點(diǎn)集合,而后者則是在給定觀(guān)測到信息傳播級聯(lián)數據集的基礎上,推斷出隱藏的、不可直接觀(guān)測的社交網(wǎng)絡(luò )拓撲結構。報告將重點(diǎn)介紹這兩類(lèi)工作的代表性研究成果,并對未來(lái)發(fā)展進(jìn)行展望。
Wei Wang:動(dòng)態(tài)網(wǎng)絡(luò )的系統建模
Wei Wang,加州大學(xué)洛杉磯分校計算機科學(xué)Leonard Kleinrock首席教授,ScAi研究所主任,NIH BD2K中央合作中心的聯(lián)合主任。
摘要:
含時(shí)網(wǎng)絡(luò )(Temporal networks,即在網(wǎng)絡(luò )中加入時(shí)間的成分)可以說(shuō)是無(wú)處不在,因為眾多的應用程序(包括微信、微博、twitter等)主要就是以時(shí)間依賴(lài)的方式生成的網(wǎng)絡(luò )結構。近年來(lái),在進(jìn)化網(wǎng)絡(luò )分析領(lǐng)域已經(jīng)有了大量的研究工作,例如異常檢車(chē)、鏈路預測、節點(diǎn)分類(lèi)等。針對這些問(wèn)題已經(jīng)存在許多單獨的解決方案,但是要想更廣泛地解決類(lèi)似的問(wèn)題,我們需要考慮的是:我們是否可以直接把網(wǎng)絡(luò )結構描述成時(shí)間的一個(gè)函數?在不同的應用環(huán)境中使用網(wǎng)絡(luò )結構時(shí),將其描述為時(shí)間的函數至關(guān)重要,因為這樣的描述可以捕獲非常豐富的關(guān)于底層網(wǎng)絡(luò )結構的信息。在報告中,我將展示動(dòng)態(tài)網(wǎng)絡(luò )建模的一些困難以及我們的解決方案。
胡祥恩:語(yǔ)義表示和分析(SRA)以及潛在的應用
胡先根博士是孟菲斯大學(xué)(UOFM)心理學(xué)系,電氣與計算機工程與計算機科學(xué)系教授,UofM智能系統研究所(IIS)高級研究員,華中師范大學(xué)心理學(xué)院院長(cháng),UOFM高級分布式學(xué)習(ADL)合作實(shí)驗室主任,中國教育部青少年網(wǎng)絡(luò )心理與行為重點(diǎn)實(shí)驗室高級研究員。
摘要:
語(yǔ)義表示分析(SRA)是基于向量的語(yǔ)義分析的一般框架。 在這個(gè)框架內,自然語(yǔ)言的語(yǔ)義以誘導語(yǔ)義結構的形式表示。 SRA在信息檢索、文本分析和智能輔導系統中有很大的應用。 在這個(gè)講座中,我將會(huì ):1)介紹一個(gè)SRA的數學(xué)模型;2)介紹和展示一種生成個(gè)性化的、領(lǐng)域特定的、上下文敏感的語(yǔ)義表示的方法;3)介紹和展示作為局部學(xué)生模型的學(xué)習者特征曲線(xiàn)以及它在智能輔導系統中的應用。
石川:異質(zhì)信息網(wǎng)絡(luò )建模與分析
石川,博士、北京郵電大學(xué)計算機學(xué)院教授、博士研究生導師、智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗室副主任。
摘要:
當前的社會(huì )網(wǎng)絡(luò )分析主要針對同質(zhì)網(wǎng)絡(luò )(即網(wǎng)絡(luò )中結點(diǎn)類(lèi)型相同),但是現實(shí)世界中的網(wǎng)絡(luò )化數據通常包含不同類(lèi)型的對象,并且對象之間的關(guān)聯(lián)表示不同的語(yǔ)義關(guān)系。構建異質(zhì)信息網(wǎng)絡(luò )(即包含不同類(lèi)型的結點(diǎn)或邊的網(wǎng)絡(luò ))可以包含更加完整的對象之間的關(guān)聯(lián)信息,因此分析這類(lèi)網(wǎng)絡(luò )有希望挖掘更加準確的模式。本課題以異質(zhì)信息網(wǎng)絡(luò )為對象,深入分析異質(zhì)網(wǎng)絡(luò )的復雜結構和豐富語(yǔ)義對數據挖掘帶來(lái)的挑戰。本報告將介紹異質(zhì)信息網(wǎng)絡(luò )的基本概念、特點(diǎn)、和分析方法,以及在實(shí)際問(wèn)題中的應用。
崔鵬:網(wǎng)絡(luò )嵌入:在向量空間中啟用網(wǎng)絡(luò )分析和推理
崔鵬,清華大學(xué)副教授。
摘要:
現在,在應用當中出現越來(lái)越大的網(wǎng)絡(luò ),網(wǎng)絡(luò )數據也變得越來(lái)越具有復雜性和挑戰性。為了有效地處理圖譜數據,先進(jìn)個(gè)關(guān)鍵的挑戰就是如何表示網(wǎng)絡(luò )數據,即如何正確表示網(wǎng)絡(luò )以便在時(shí)間和空間上高效地進(jìn)行模式發(fā)現、分析、預測等高級分析任務(wù)。 在這個(gè)報告中,我將回顧一下網(wǎng)絡(luò )嵌入的較新思想和研究成果。 更具體地說(shuō)就是,將討論網(wǎng)絡(luò )嵌入中的一系列基本問(wèn)題,包括為什么需要重新考慮網(wǎng)絡(luò )表示,網(wǎng)絡(luò )嵌入的研究目標是什么,網(wǎng)絡(luò )嵌入如何學(xué)習以及網(wǎng)絡(luò )嵌入的主要未來(lái)方向。
劉知遠:語(yǔ)言表示學(xué)習與計算社會(huì )科學(xué)
劉知遠,清華大學(xué)計算機系助理教授。
摘要:
語(yǔ)言是人類(lèi)交流的工具、人類(lèi)文化的載體,是了解人類(lèi)社會(huì )的重要視角。近年來(lái)隨著(zhù)表示學(xué)習在自然語(yǔ)言處理中的應用,語(yǔ)言表示學(xué)習也為社會(huì )科學(xué)研究提供了全新的技術(shù)工具,特別是面向在線(xiàn)社會(huì )媒體的大規模用戶(hù)產(chǎn)生內容進(jìn)行用戶(hù)和內容分析,具有很大優(yōu)勢。本報告將介紹語(yǔ)言表示學(xué)習技術(shù)在計算社會(huì )科學(xué)方面的較新動(dòng)態(tài),探討該方向的未來(lái)發(fā)展趨勢。
韓家煒:大規模語(yǔ)料庫的多維分析
韓家煒,ACM院士和IEEE院士,伊利諾伊大學(xué)厄巴納 - 香檳分校計算機科學(xué)系Abel Bliss教授。
摘要:
現實(shí)世界的大數據在很大程度上是以自然語(yǔ)言文本形式存在的非結構性的、相互關(guān)聯(lián)的數據。對于這樣的海量文本數據,從多維角度觀(guān)看和分析是非常理想的。不過(guò)這也提出了一個(gè)重大的挑戰,即如何將非結構化文本數據轉換為結構化文本然后在多維空間中去分析這些數據。為了促進(jìn)這樣的分析,我們提出了一種文本立方體(textcube)建模方法,并討論了如何從大量文本語(yǔ)料庫構建這樣的立方體,以及如何使用這種文本立方體進(jìn)行多維OLAP分析。在過(guò)去的幾年里,我們開(kāi)發(fā)出一種文本挖掘方法,這種方法只需要遠程的或最小的監督,而不是依靠大量數據。 在這個(gè)報告中,我將展示:
(1)從海量文本數據中挖掘出高質(zhì)量的短語(yǔ);
(2)通過(guò)遠程監督從海量文本數據中提取類(lèi)型;
(3)通過(guò)元路徑定向模式發(fā)現實(shí)體、屬性和值;
(4)從大量的語(yǔ)料庫中構建分面分類(lèi)法;
(5)從大量文本構建文本立方體;
(6)對這些立方體進(jìn)行多維分析。
這里我們展示的范例——將大量的文本數據轉化為結構化和有用的知識——將是一個(gè)非常有希望的方向。
趙鑫:面向社交媒體平臺的商業(yè)數據挖掘
趙鑫,中國人民大學(xué)計算機副教授。
摘要:
隨著(zhù)互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,各種社交媒體平臺都得到了廣泛的使用。社交網(wǎng)絡(luò )平臺中蘊含大量的用戶(hù)信息,包括用戶(hù)個(gè)人屬性信息(如年齡、性別等等)、用戶(hù)所發(fā)表的內容信息等等。如何充分利用社交媒體平臺的信息來(lái)加強用戶(hù)個(gè)性化建模,從而推動(dòng)商業(yè)數據挖掘成了一個(gè)研究熱點(diǎn)。本次報告試圖系統梳理一些重要的商業(yè)大數據應用問(wèn)題,如用戶(hù)意圖檢測、用戶(hù)畫(huà)像構建以及推薦算法等。
楊洋:移民的城市夢(mèng)——上海移民融合
楊洋,浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院助理教授。
摘要:
前所未有的人類(lèi)流動(dòng)推動(dòng)了全球高速的城市化進(jìn)程。在中國,1978年至2012年間,城市人口居住比例從17.9%上升到52.6%。這種大規模的移民對政策制定者和研究人員來(lái)說(shuō)既是重大的挑戰,又是重要的問(wèn)題。在這個(gè)報告中,我將介紹我們對移民融合過(guò)程的研究。
具體而言,我們采用了上海一個(gè)月的電信元數據完整的數據集,其中擁有5400萬(wàn)用戶(hù)和6.98億個(gè)通話(huà)記錄。我們發(fā)現本地人和移民在移動(dòng)通信網(wǎng)絡(luò )和地理位置上存在有系統的差異。例如移民在定居后相比本地人會(huì )有更多的社會(huì )接觸,在城市中的移動(dòng)半徑要大于本地人。通過(guò)區分新移民(最近移居上海)和定居的移民(在上海待了一段時(shí)間),我們發(fā)現了新移民在前三周的融合過(guò)程。此外,我們進(jìn)一步調查了移民在先進(jìn)周的行為,特別是他們的行為與最終提早離開(kāi)之間的關(guān)系。我們發(fā)現最終離開(kāi)的移民,在頭幾個(gè)星期往往都沒(méi)有發(fā)展處多樣性的聯(lián)系,也沒(méi)有在城市周?chē)苿?dòng);他們活動(dòng)區域的住房?jì)r(jià)格也高于那些最終留下來(lái)的移民的住房?jì)r(jià)格。
學(xué)術(shù)主任:唐杰、劉知遠
時(shí)間:2017年12月22日-24日
地點(diǎn) :中科院計算所一層報告廳(北京市海淀區中關(guān)村科學(xué)院南路6號)
報名方式:
1)現場(chǎng)聽(tīng)課:即日起至2017年12月20日,報名請 登錄 http://jinshuju.net/f/yxdpPx
2)線(xiàn)上聽(tīng)課: 點(diǎn)擊 報名鏈接 ,雷鋒網(wǎng)AI慕課學(xué)院已獲全力視頻授權,或者掃描下圖二維碼報名
雷鋒網(wǎng)原創(chuàng )文章,未經(jīng)授權禁止轉載。詳情見(jiàn) 轉載須知 。