原標題:用AI追熱點(diǎn),自動(dòng)化編輯新聞,路透社已經(jīng)這么做了(附論文)

編者按: 本文來(lái)自量子位(公眾號:QbitAI) ,李杉 編譯自 MIT技術(shù)評論,36氪經(jīng)授權發(fā)布。

“互聯(lián)網(wǎng)的出現和隨后的信息爆炸導致記者越來(lái)越難以準確、迅速地獲取新聞?!甭吠干绲难邪l(fā)團隊本周在arXiv的一篇論文的開(kāi)場(chǎng)白中如此寫(xiě)道。

對于路透社來(lái)說(shuō),假新聞的出現導致這個(gè)問(wèn)題變得更加尖銳,因為這些假新聞扭曲了人們對事件的感知。

然而,美聯(lián)社等新聞機構已經(jīng)開(kāi)始使用自動(dòng)化的新聞寫(xiě)作服務(wù)。他們會(huì )采用標準的模式,例如,在報道財經(jīng)新聞和體育比賽結果時(shí),直接將數據粘貼到預先編寫(xiě)的模板中:“X公司第三季度實(shí)現利潤Y萬(wàn)美元,超出華爾街預期……”

因此,其他新聞機構也面臨壓力,必須啟用自動(dòng)化新聞制作技術(shù)。今天,路透社闡述了它是如何在時(shí)間發(fā)生后先進(jìn)時(shí)間完全通過(guò)自動(dòng)化技術(shù)識別突發(fā)新聞的。

劉小沫(XIaomo Liu,音譯)他的在路透社研發(fā)部門(mén)及阿里巴巴的同事表示,這套新系統運行良好。事實(shí)上,它有可能徹底改變新聞行業(yè)。但這也引發(fā)了人們的擔憂(yōu),他們擔心這樣一套系統可能被心懷惡意的人控制。

這個(gè)新系統被稱(chēng)為路透社追蹤器(Reuters Tracer)。它使用Twitter作為一種全球傳感器,記錄新聞事件的發(fā)生。系統之后使用各種類(lèi)型的數據挖掘和機器學(xué)習來(lái)挑選出最相關(guān)的事件,確定它們的主題,排列它們的優(yōu)先級,寫(xiě)出標題和摘要。之后,這些新聞就會(huì )發(fā)布在該公司的全球新聞專(zhuān)線(xiàn)上。

流程的先進(jìn)步是吸收Twitter的數據流。追蹤器每天查看大約1200萬(wàn)條推文,占總數的2%。其中一半是隨機抽樣,另外一半來(lái)自路透社記者的Twitter帳號列表,包括其他新聞機構的帳號、重要的公司、有影響力的個(gè)人等。

下一步是確定新聞事件發(fā)生的時(shí)間。追蹤器這樣做的前提假設是:如果幾個(gè)人同時(shí)開(kāi)始談?wù)撨@件事,這個(gè)事件就已經(jīng)發(fā)生。因此它使用聚類(lèi)算法來(lái)尋找這些對話(huà)。

當然,這些聚類(lèi)包括垃圾信息、廣告、普通聊天等。只有一部分涉及有新聞價(jià)值的事件。所以下一個(gè)步是對事件進(jìn)行分類(lèi)和排序。追蹤器使用許多算法來(lái)完成這項工作。

先進(jìn)個(gè)算法負責確定對話(huà)主題。之后將此與路透社團隊從31個(gè)官方新聞帳號收集的推文進(jìn)行對比,包括@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新聞聚合器。

在這個(gè)階段,這套算法還會(huì )使用一個(gè)包含城市和地理位置的關(guān)鍵詞數據庫來(lái)判斷事件發(fā)生的地點(diǎn)。

一旦一段談話(huà)或謠言被認為可能是新聞,關(guān)鍵就是要確認它的真實(shí)性。為了確定這一點(diǎn),追蹤器需要找出對話(huà)中提到的最早的推文和它所指向的網(wǎng)站,以此來(lái)尋找來(lái)源。然后,它會(huì )查詢(xún)了一個(gè)數據庫,其中列出了已知的虛假新聞制作者,如《National Report》,或者諷刺新聞網(wǎng)站《The Onion》

最后,該系統會(huì )寫(xiě)出標題和摘要,并在整個(gè)路透社中分發(fā)新聞。

路透社的團隊表示,在試驗過(guò)程中,該系統運行良好。他們說(shuō):“追蹤器能夠在新聞探測和傳播上實(shí)現有競爭力的準確度和時(shí)效性?!?/p>

他們有統計數據來(lái)支持這一點(diǎn)。該系統每天處理1200萬(wàn)條推文,大約80%的都是噪音。剩下的大約會(huì )歸入6000個(gè)聚類(lèi),系統將其視作不同類(lèi)型的新聞事件。這都是由13個(gè)運行10個(gè)不同算法的服務(wù)器完成的。

相比之下,路透社在世界各地雇傭了大約2500名新聞?dòng)浾?,他們每天都使用包括Twitter在內的各種來(lái)源制作大約3000條新聞提示。其中大約有250條是新聞故事。

路透社將追蹤器識別的新聞與BBC和CNN等機構新聞的信息流中出現的新聞進(jìn)行對比。劉小沫和他的同事說(shuō):“結果顯示,追蹤器可以用2%的Twitter數據覆蓋70%的新聞報道?!?/p>

這套系統的運行速度很快。該團隊舉了一個(gè)例子:2017年10月,拉斯維加斯槍擊案導致58人死亡。有目擊者在凌晨1點(diǎn)22分報告了這一事件,觸發(fā)了一個(gè)追蹤器聚類(lèi)。

然而,這個(gè)聚類(lèi)不符合系統給事件制定的標準,因而直到凌晨1點(diǎn)39分才被包含到信息流中?!奥吠干缭诹璩?點(diǎn)49分報道了此事?!眲⑿∧退耐抡f(shuō)。

這是一項有趣的工作,但也引發(fā)了許多問(wèn)題,特別是關(guān)于系統的易用性。不難想象,心懷不軌的人會(huì )設計專(zhuān)門(mén)的Twitter消息來(lái)欺騙追蹤器。

不過(guò),這套系統是否比現有的系統更容易欺騙,恐怕還很難判斷。畢竟,人類(lèi)記者也經(jīng)常被各種假消息欺騙。

此外,人類(lèi)在新聞行業(yè)仍要扮演自己的角色。未來(lái)的新聞肯定會(huì )越來(lái)越自動(dòng)化,人類(lèi)如何融入其中仍然無(wú)法確定。

論文地址: