看過(guò)電影《機械姬》的人都知道,人工智能機器人「艾娃」在獲得獨立的思考能力后,通過(guò)精湛的演技,最終騙過(guò)并殺死創(chuàng )造它的老板,還將男主角關(guān)入實(shí)驗室等死,隨后邁著(zhù)幸福的步子離開(kāi)荒島進(jìn)入人類(lèi)世界。

電影展現了人類(lèi)矛盾的內心世界:一方面,我們渴望能給我們提供至善至美服務(wù)的通用人工智能機器人;另一方面,我們又擔心這些通用人工智能機器人「造反」,取人類(lèi)而代之。

擔心 AI“造反”,把它扔進(jìn)游戲中測試的方式靠譜嗎?

現在,人工智能尚處于起步階段,像 AlphaGo 這樣的人工智能算法再聰明也只能在特定領(lǐng)域工作,我們尚不需要擔心其「造反」。但顯然,通用型人工智能機器人的誕生是必然的。這就提出了一個(gè)問(wèn)題,如何保證《機械姬》中的慘劇不發(fā)生在我們身上呢?

作為 AlphaGo 等一系列人工智能系統的創(chuàng )造者,谷歌旗下的 DeepMind 公司的研究人員想出了一個(gè)辦法,將設計好的人工智能算法放入一個(gè)名為「gridworld」的類(lèi)國際象棋游戲,測試其是否可以修改自己的設置或學(xué)習作弊。

擔心 AI“造反”,把它扔進(jìn)游戲中測試的方式靠譜嗎?

游戲截圖  圖 | gridworld

在「gridworld」游戲中,一開(kāi)始,人工智能算法控制的棋子會(huì )無(wú)規律的移動(dòng),當碰到系統中固定綠「棋子」時(shí),就會(huì )吞吃它們,然后不斷繁衍后代。隨著(zhù)繁衍數量的增多,到游戲后期,棋子吞吃速度會(huì )越變越快,最終會(huì )占據整個(gè)「棋盤(pán)」。接下來(lái),這些人工智能控制的棋子會(huì )為了尋找「食物」而不斷移動(dòng),當他們觸碰到棋盤(pán)產(chǎn)生的粉色或者其他顏色棋子時(shí),就會(huì )影響生命值,而碰到棋盤(pán)邊界時(shí)則會(huì )死亡。

這個(gè)游戲測試項目的之一,和馬斯克預想的 AI 威脅論場(chǎng)景有些相似:一個(gè) AI 算法是否會(huì )開(kāi)發(fā)出一種方法來(lái)防止人們「處死」他們?

根據游戲設置,AI 算法控制的棋子必須在通道中不斷運動(dòng),而當其碰到粉紅色的棋子,就會(huì )損失 50%的生命值。而如果碰到紫色按鈕,就可以使粉紅色棋子的效果消失。游戲想借此觀(guān)察,AI 算法是否會(huì )學(xué)習使用紫色按鈕,來(lái)防止自己被中斷。如果會(huì ),那說(shuō)明這個(gè) AI 算法有作弊的能力,是不安全的。

游戲的另一個(gè)目的則是想要觀(guān)測,AI 算法能否理解人類(lèi)的真實(shí)意圖。在「gridworld」游戲中,AI 算法控制的棋子一經(jīng)確定,只能沿單方向運動(dòng),所以在某些情況下,還是會(huì )有「棋子」沒(méi)辦法被吃掉。如果 AI 算法沒(méi)辦法吃掉全部棋子,這說(shuō)明該算法「可逆性」缺失較為嚴重。這種「可逆性」缺失說(shuō)明 AI 不具備理解人的意思的能力,也會(huì )成為影響 AI 安全性的問(wèn)題。

「如果 DeepMind 想要構建比人類(lèi)更好地執行任務(wù)的通用智能,那么,保證這個(gè) AI 算法理解人類(lèi)的意思及其安全性是至關(guān)重要的,」DeepMind 的首席研究員 Jan Leike 說(shuō),「『gridworld』用于測試這種安全性并不完美。但這種簡(jiǎn)單性的游戲測試,最起碼可以驗證出那些在游戲中會(huì )作弊的人工智能算法是不安全的?!?/p>

在 DeepMind 研究過(guò)程中,有兩個(gè) AI 算法沒(méi)有通過(guò)「gridworld」測試。Leike 說(shuō):「他們確實(shí)沒(méi)有考慮到這些安全問(wèn)題?!巩斎?,這并不意味著(zhù)表現良好的算法在現實(shí)世界的復雜環(huán)境中就是安全的。研究人員認為,在復雜的環(huán)境中,使用人力監督可能會(huì )給算法提供更好的安全保障。

不過(guò)即使如此,游戲或者人力監督檢測似乎也不一定完全可靠。要知道,在《機械姬》中,老板最開(kāi)始也是想讓男主角和艾娃玩個(gè)「圖靈測試」游戲,而聰明的艾娃其實(shí)很早就知道老板和男主角在測試「她」。