“網(wǎng)絡(luò )的出現以及隨之而來(lái)的信息爆炸,讓記者準確迅速地報道新聞變得越來(lái)越具有挑戰性?!比蛐侣剻C構路透社的研發(fā)團隊本周在arXiv上發(fā)表的一篇論文用了這樣一句開(kāi)場(chǎng)白。

對路透社而言,假新聞的出現讓問(wèn)題變得更加嚴重,這些假新聞扭曲了事件認知。

不過(guò),像美聯(lián)社等新聞機構已經(jīng)開(kāi)始采用自動(dòng)化的新聞寫(xiě)作服務(wù)。這些報道使用了標準化的模式,例如財經(jīng)新聞或者特定體育比賽結果,將數據填到預先寫(xiě)好的模板之中:“X在第三季度的財報顯示盈利為Y百萬(wàn),這一數值超出了華爾街的預期……”

所以其他新聞機構在自動(dòng)化新聞制作方面都面臨著(zhù)很大的壓力。今天,路透社介紹了該社是如何幾乎完全自動(dòng)化地識別突發(fā)新聞報道的。劉曉莫(Xiaomo Liu,音譯)以及路透社研發(fā)部門(mén)和阿里巴巴的同事表示,新系統表現良好。事實(shí)上,它有可能能夠徹底革新新聞業(yè)務(wù)。但是它也引發(fā)了人們的擔憂(yōu)——心懷叵測的人會(huì )如何利用這樣一個(gè)系統。

這個(gè)新系統被稱(chēng)為路透社追蹤器 Reuters Tracer)。它將推特(Twitter)作為一種全球傳感器加以利用,新聞事件在發(fā)生的過(guò)程中,就會(huì )在推特上有相關(guān)記錄。然后該系統會(huì )使用各種數據挖掘和機器學(xué)習技術(shù)來(lái)挑選最為相關(guān)的事件,確定它們的主題,排列它們的優(yōu)先級,并寫(xiě)出標題和摘要。這個(gè)消息隨后會(huì )被分發(fā)到該公司的全球新聞專(zhuān)線(xiàn)上。

整個(gè)流程的先進(jìn)步是提取推特的數據流。該追蹤器每天要查看大約1200萬(wàn)條推特消息,占所有推特消息總數的2%。其中一半是隨機抽樣,另外一半來(lái)自路透社記者創(chuàng )建的推特賬戶(hù)列表。其中包含其他新聞機構的賬戶(hù)、重要的公司、有影響力的個(gè)人等等。

下一步是確定新聞事件發(fā)生的時(shí)間。追蹤器(Tracer)是根據這樣一個(gè)前提假設完成這項工作的:如果幾個(gè)人同時(shí)開(kāi)始談?wù)撨@件事,這個(gè)事件就已經(jīng)發(fā)生了。因此它使用聚類(lèi)算法來(lái)尋找這些對話(huà)。

當然,這些聚類(lèi)中包括垃圾郵件、廣告、普通聊天等。其中只有一部分是具有新聞價(jià)值的事件。

所以下一個(gè)階段是對事件進(jìn)行分類(lèi)和排序。追蹤器(Tracer)使用一些算法來(lái)完成這項工作。先進(jìn)個(gè)算法確定談話(huà)的主題。然后將它與一個(gè)主題數據庫進(jìn)行比較,這個(gè)主題數據庫中的內容是由路透團隊從31個(gè)官方新聞賬戶(hù)——例如@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新聞聚合器所發(fā)布的推特消息中收集的。

在這個(gè)階段,該算法還會(huì )使用包含了城市和基于位置關(guān)鍵字的數據庫來(lái)確定事件發(fā)生的地點(diǎn)。

一旦一段談話(huà)或流言被認定為新聞,一個(gè)重要的考量就是確認其準確性。為了確定這一點(diǎn),追蹤器(Tracer)通過(guò)識別對話(huà)中最早提及該話(huà)題的推特消息及其指向的站點(diǎn)來(lái)尋找來(lái)源。然后,它會(huì )查詢(xún)一個(gè)數據庫,其中列出了已知的假新聞的制作者,例如國家報告(National Report),或是洋蔥(The Onion)這類(lèi)諷刺新聞網(wǎng)站。

最后,該系統會(huì )寫(xiě)出標題和摘要,并在路透社整個(gè)組織內分發(fā)該消息。

在試驗過(guò)程中,路透社的團隊表示該系統表現良好。他們表示:“追蹤器(Tracer)能夠在新聞檢測和提交方面實(shí)現很有競爭力的準確度、召回率、時(shí)效性和準確度?!?/p>

他們有統計數據可以支持這一觀(guān)點(diǎn)。該系統每天處理1200萬(wàn)條推特消息,將其中的大約百分之八十的內容作為噪聲加以拒絕。其余的內容則被劃分進(jìn)入6000個(gè)聚類(lèi),系統用這種方式將新聞事件劃分為不同的類(lèi)型。所有的這一切工作全部由13臺運行著(zhù)10種不同算法的服務(wù)器完成。

相比之下,路透社在全球雇傭了大約2500名新聞?dòng)浾?,他們每天使用各種來(lái)源——包括推特——總共產(chǎn)生大約3000條新聞提醒。其中,大約有250條被寫(xiě)成了新聞報道。

路透社將追蹤器(Tracer)識別出的新聞同BBC和CNN等新聞機構的推送新聞進(jìn)行了比較。劉和他的同事表示,“結果表明,追蹤器(Tracer)可以用2%的推特數據覆蓋大約70%的新聞報道?!?/p>

而這套系統的工作當然是非常迅速的。該團隊舉了2017年10月份在拉斯維加斯發(fā)生的槍擊案作為例證,在那次事件中,有58人喪生。一位目擊者在凌晨1點(diǎn)22分報告了這一事件,隨即觸發(fā)了一個(gè)追蹤器(Tracer)聚類(lèi)。但是,該聚類(lèi)到凌晨1點(diǎn)39分之前都沒(méi)有達到該系統確認新聞的標準。劉和他的同事表示:“路透社在凌晨1點(diǎn)49分報道了這一事件?!?/p>

這是一個(gè)有趣的工作,引發(fā)了很多問(wèn)題,特別是圍繞著(zhù)該系統是多么容易被操縱這個(gè)問(wèn)題。不難想象會(huì )有心懷叵測的人設計推特消息,以欺騙追蹤器(Tracer),實(shí)現特定目的。

但是這套系統是否會(huì )比現有的系統更好糊弄,恐怕還很難說(shuō),人類(lèi)也經(jīng)常會(huì )被各種假消息欺騙。

還有人類(lèi)在新聞業(yè)中扮演的角色。新聞的未來(lái)顯然會(huì )變得日益自動(dòng)化。人類(lèi)如何適應這種變化還未見(jiàn)端倪。