說到機(jī)器人和自動(dòng)化,很多人腦里可能會立刻浮現(xiàn)一些生產(chǎn)線,比如汽車工廠的情景——一群機(jī)器人既高效又精確地執(zhí)行任務(wù),一天到晚不知疲倦,表現(xiàn)驚人。
但若仔細(xì)一想,本質(zhì)上,這些傳統(tǒng)機(jī)器人只是在重復(fù)一遍又一遍相同的動(dòng)作。而事實(shí)是,現(xiàn)實(shí)世界中的絕大部分任務(wù),都要求我們對眼前的情況做出即時(shí)的調(diào)整。
一個(gè)能超越重復(fù)性、根據(jù)情況調(diào)整和思考的機(jī)器人,什么時(shí)候能夠面世?
AI機(jī)器人何時(shí)才能出現(xiàn)?
對這個(gè)問題,很多科幻電影都做出了回應(yīng)。
《未來戰(zhàn)士》中,這些AI機(jī)器人來自未來,《西部世界》則遐想了它們將悄悄出現(xiàn)在我們身邊。這些想象衍生出了一連串人工智能可能出現(xiàn)的未來場景,有的駭人聽聞,有的振奮人心。
但從現(xiàn)實(shí)技術(shù)的層面來說,它未來的切入點(diǎn)究竟在哪里?實(shí)際上,它已經(jīng)發(fā)生了——人工智能機(jī)器人已經(jīng)不動(dòng)聲色地進(jìn)入了人類世界,并創(chuàng)造了價(jià)值。
那就是自主揀貨。
幾年前,這還是天方夜譚;但2020年1月,《紐約時(shí)報(bào)》就報(bào)道了由Covariant Brain公司制造的Knapp pick-it-easy機(jī)器人,靜悄悄地在某個(gè)低調(diào)的倉庫中,自主分揀訂單。
相對于傳統(tǒng)機(jī)器人,pick-it-easy面對的,是不斷在流水線中運(yùn)轉(zhuǎn)的,超過6萬種的林林總總的貨物。它過去從未見過這些貨物,未來也會持續(xù)地見到其他新的貨物及組合——無論面前是什么,它需要反復(fù)識別,并一再調(diào)整自己的動(dòng)作,做出決策——從哪提取、到哪卸放。
這是史上第一宗AI機(jī)器人的實(shí)例報(bào)導(dǎo),一段長達(dá)一小時(shí)、連續(xù)無刪減的視頻,真實(shí)完整的向世人完整展示了機(jī)器人的運(yùn)作流程:遇到什么問題,并如何調(diào)整。
AI機(jī)器人的自動(dòng)化,不但已經(jīng)發(fā)生,而且越來越重要。默默工作的過程中,它們正持續(xù)地累積經(jīng)驗(yàn),從經(jīng)驗(yàn)中自我學(xué)習(xí),一步步完善化。未來,我們將從沉悶的倉庫,拓展出更多閃亮的應(yīng)用場景。
為什么AI機(jī)器人很難做?
這樣的機(jī)器人,技術(shù)難點(diǎn)究竟在哪里?
第一,識別
這個(gè)過程的程序要怎么寫?并不是我們想象的那么簡單,因?yàn)闄C(jī)器不認(rèn)識圖片或文字,只能識別數(shù)字。
(計(jì)算機(jī)將圖片像素轉(zhuǎn)化為數(shù)字)
幾十年來,計(jì)算機(jī)視覺領(lǐng)域通過視覺技術(shù)嘗試讓機(jī)器了解圖像中的內(nèi)容,但都沒有成功。直到2012年,多倫多大學(xué)Geoffrey Hinton團(tuán)隊(duì)向世界展示了能以高準(zhǔn)確度識別圖像的機(jī)器。
那他們是怎么辦到的呢?方法就是簡單粗暴地問機(jī)器:圖像里有什么。他們把問題分解成一系列的計(jì)算,最后導(dǎo)出圖像中的內(nèi)容。這一系列的計(jì)算,就是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network;DNN)。
神經(jīng)網(wǎng)絡(luò)由非常多的人造神經(jīng)元組成。單獨(dú)來看,每個(gè)神經(jīng)元都做著簡單的工作:接收信號、生成信號、輸出信號,但合在一起,它們可以完成非常復(fù)雜、高階的反應(yīng)。
至于這些反應(yīng)是什么,取決于這些神經(jīng)元如何連結(jié),以及連結(jié)有多強(qiáng),尤其后者。隨著這些神經(jīng)元連接強(qiáng)度的不同變化,系統(tǒng)會做出不同的決定:“這是貓、狗、人或車……”
這樣一來,識別圖像的問題,就從“計(jì)算機(jī)視覺的分辨問題”,簡化成了“神經(jīng)元連接強(qiáng)度的調(diào)整問題”。但直接手動(dòng)調(diào)整是不可行的,因?yàn)楫?dāng)中涉及了數(shù)以百萬計(jì)的神經(jīng)元需要調(diào)整。
那我們要怎樣找到正確的設(shè)置?——給神經(jīng)網(wǎng)絡(luò)“投喂”足夠多的例子,讓它在猜測中學(xué)習(xí)。
一開始的猜測固然完全隨機(jī),但隨著每一次失敗,系統(tǒng)往回追溯,修改神經(jīng)元之間的權(quán)重(連結(jié)強(qiáng)度),把系統(tǒng)一步步推向正確的結(jié)果。周而復(fù)始,最后神奇的事發(fā)生了,機(jī)器能分辨出圖像中的內(nèi)容了。
在這個(gè)方法下,機(jī)器分辨得有多好?
在圖像識別領(lǐng)域里,曾有個(gè)ImageNet國際挑戰(zhàn)賽,2010年,最佳成績約28%誤差率,2011年也基本維持在相同水平線上,沒有太大突破。2012年,Geoffrey采取了深度神經(jīng)網(wǎng)絡(luò),將誤差率一舉降低到約15%,向前邁進(jìn)了一大步。
(從2010~2016年,各算法在圖像識別的錯(cuò)誤率)
隨后幾年,人們在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行修改,機(jī)器的誤差率逐年下降,甚至超越了人類。如今,這個(gè)比賽已經(jīng)徹底退出了歷史舞臺。
第二,行動(dòng)
機(jī)器不但需要識別,還需要行動(dòng)。如何讓系統(tǒng)做出正確的行動(dòng)決策?
2015年,DeepMind攻克了圍棋,打敗了世界冠軍棋手。本來人們還以為這需要數(shù)十年的時(shí)間,但一夜之間就實(shí)現(xiàn)了。
DeepMind編了一個(gè)神經(jīng)網(wǎng)絡(luò),自己和自己下棋——為求簡化,這里說的是2017年的版本,AlphaGoZero——在每一盤自我對弈中摸索、試錯(cuò)、學(xué)習(xí),越變越好,最后戰(zhàn)勝棋手。
不單是圍棋,其他游戲也被機(jī)器用同樣的方式攻克了。
和識別不同的是,識別是單一步驟的事情,我們讓系統(tǒng)去判斷一張圖是狗還是其他動(dòng)物;而行動(dòng)則不一樣,你并沒有告訴系統(tǒng)每一步該做什么。它只知道最后的結(jié)果是贏或輸,然后從結(jié)果中自我改善。
具體來說,他們在贏(或輸)的局面中找出共同點(diǎn),在贏和輸之間揪出差異,把它們分解出來。這就是強(qiáng)化學(xué)習(xí)(Reinforcement Learning;RL)。
而深度強(qiáng)化學(xué)習(xí),是在強(qiáng)化學(xué)習(xí)模式下搭配一個(gè)神經(jīng)網(wǎng)絡(luò)吸收經(jīng)驗(yàn),根據(jù)每一段經(jīng)驗(yàn)改變神經(jīng)元的權(quán)重。
顯然,除了棋牌和游戲,這個(gè)原理也適用于機(jī)器操作。
加利福尼亞大學(xué)伯克利分校通過類似的神經(jīng)網(wǎng)絡(luò),編寫了一個(gè)虛擬機(jī)器人,最開始半步都跨不出,后來踉踉蹌蹌,一直自我訓(xùn)練到能維持長時(shí)間奔跑的狀態(tài)。我第一次看見的時(shí)候,心里激動(dòng)不已。
值得一提的是,這個(gè)程序可以重復(fù)在別的場合使用,即便是不一樣的機(jī)器人、不一樣的任務(wù)。事實(shí)上,加利福尼亞大學(xué)伯克利分校在這個(gè)實(shí)驗(yàn)中就賦能了機(jī)器人一系列的任務(wù),比如翻跟斗、跨越障礙、高處跳落等等。
接著,他們將這個(gè)虛擬程序安裝到實(shí)際的機(jī)器人上,由此制造出機(jī)器人BRETT,讓它將積木放到匹配的空位當(dāng)中。要完成這項(xiàng)任務(wù),它需要學(xué)習(xí)視覺識別系統(tǒng),以及行為控制系統(tǒng)。
一開始,它完全不知道該怎么做,但隨著每一次偶爾的成功,系統(tǒng)內(nèi)不斷進(jìn)行強(qiáng)化,最終達(dá)到了能可靠完成任務(wù)的水平。
如果能搭配一個(gè)機(jī)器人艦隊(duì),一起學(xué)習(xí)、共享神經(jīng)網(wǎng)絡(luò),這個(gè)過程還能變得更簡單、更快速。
AI機(jī)器人為什么還沒普及?
看起來,這一切已經(jīng)萬事俱備,只要把研究的成功復(fù)刻到現(xiàn)實(shí),一切就會很完美。但直到今天,AI機(jī)器人依舊沒有普及,差的東風(fēng)在哪里?
值得注意的是,上述的成功都發(fā)生在虛擬或?qū)嶒?yàn)室的研究場景,而并非現(xiàn)實(shí)應(yīng)用。
在實(shí)驗(yàn)室的研究中,研究人員專注的是從無到有、從0到1的過程,做一些過去沒做過的事,對精準(zhǔn)度的要求不高,往往是達(dá)到70%就會轉(zhuǎn)到下一個(gè)指標(biāo)。
但在現(xiàn)實(shí)中,我們對可靠性的要求完全不是一個(gè)等級。很多時(shí)候,精準(zhǔn)度到90%都不足夠。
以一個(gè)工廠實(shí)際場景為例,一個(gè)機(jī)器人每小時(shí)負(fù)責(zé)500~2000個(gè)任務(wù),90%的準(zhǔn)確率意味著每小時(shí)有50~200個(gè)需要修正的錯(cuò)漏。一般而言,修正比任務(wù)本身所花費(fèi)的功夫還更大;換句話說,在90%準(zhǔn)確率下,機(jī)器人帶來的麻煩比省下的時(shí)間還多。
就現(xiàn)實(shí)而言,機(jī)器人真正價(jià)值的體現(xiàn),是當(dāng)它們每小時(shí)只需要人類1~2次的干預(yù);如此一來,人類就可以同時(shí)監(jiān)督多處的多個(gè)機(jī)器人。這就意味著如果一個(gè)機(jī)器人負(fù)責(zé)500個(gè)任務(wù),準(zhǔn)確率必須在99.6以上;如果負(fù)責(zé)2000個(gè)任務(wù),準(zhǔn)確率則必須在99.9以上。
可見,這是和實(shí)驗(yàn)室的研究場景迥然不同的要求。
這時(shí),有些人可能會想:這還不容易,建更大的神經(jīng)網(wǎng)絡(luò)、提供更多的經(jīng)驗(yàn)數(shù)據(jù),不斷重復(fù),不就行了?
如果是識別圖像、識別字符之類的任務(wù),這思路是可行的,因?yàn)槿蝿?wù)本身比較單一,搜取更多的數(shù)據(jù)去提高精準(zhǔn)度是可以辦到的。但現(xiàn)實(shí)中我們希望讓機(jī)器人處理的場景,比這些任務(wù)多更多的額外細(xì)節(jié)需要處理。
首先,系統(tǒng)不能夠忽視世界的長尾效應(yīng)。我們身處的世界,是一個(gè)高變化、大方差的環(huán)境。
在ImageNet識別測驗(yàn)里,系統(tǒng)僅僅是分辨一千個(gè)圖;但在現(xiàn)實(shí)世界中,系統(tǒng)有百萬、千萬種物品需要辨識,同時(shí)還存在著程度不一的透明及反光視效,有些則極其凌亂,和不同的物體視覺混雜在一起等等。
其次,系統(tǒng)不能夠忽視世界的動(dòng)態(tài)本質(zhì)。
學(xué)會奔跑的加利福尼亞大學(xué)伯克利分校的虛擬機(jī)器人,它的環(huán)境設(shè)定是不變的;可是現(xiàn)實(shí)世界,比如在一個(gè)貨倉里,人來人去,每個(gè)人卸包裹、拆包裹的方式、位置都持續(xù)在變化。現(xiàn)實(shí)經(jīng)常處于一個(gè)高速的動(dòng)態(tài)環(huán)境中,而遠(yuǎn)不像機(jī)器訓(xùn)練時(shí)的靜態(tài)環(huán)境。
另外,系統(tǒng)不能夠忽視自己的無知時(shí)刻。
當(dāng)系統(tǒng)遇到它不知道或不確定的情況,它必須知道自己不知道,轉(zhuǎn)而求助于備份方案,比如交由其他熟悉的人處理等,而不是強(qiáng)行做出某個(gè)決策。
AI機(jī)器人下一個(gè)應(yīng)用場景在哪?
無人機(jī)、自動(dòng)駕駛、機(jī)械手,誰更有可能成為下一個(gè)實(shí)現(xiàn)的夢境?表面看來,無人機(jī)似乎最難,因?yàn)槿祟惒粫w——但事實(shí)恰好相反。
無人機(jī)面對的場景相對簡單,因?yàn)楸举|(zhì)上它只是在空曠的空間里穿梭,直到到達(dá)某個(gè)目的地。當(dāng)然,它也會遇到一些突發(fā)狀況,比如附近出現(xiàn)一些移動(dòng)物體,導(dǎo)致它忽然處于一個(gè)復(fù)雜的動(dòng)態(tài)環(huán)境。但以實(shí)際的應(yīng)用場景來說,真正的難點(diǎn)還是在于政府對領(lǐng)空的管轄,以及硬件質(zhì)量的配合,而不是在于更聰明的人工智能。
至于自動(dòng)駕駛和機(jī)械手,單從技術(shù)層面看,自動(dòng)駕駛其實(shí)更簡單。因?yàn)轳{駛最主要的在于閃避危險(xiǎn),無需和環(huán)境互動(dòng);而機(jī)械手則需要接觸物體,和物件進(jìn)行互動(dòng),這又增加了一個(gè)維度的復(fù)雜性。
然而,從犯錯(cuò)代價(jià)的角度,自動(dòng)駕駛一旦出現(xiàn)失誤,最壞的情況可能是丟了性命,而在快遞領(lǐng)域,失誤頂多意味著送錯(cuò)或送不到。機(jī)械手也是類似,至少不是性命攸關(guān)。
所以,自動(dòng)駕駛雖然是現(xiàn)在萬眾矚目、眾望所歸的領(lǐng)域,我相信不會是第一波人工智能機(jī)器人付諸實(shí)現(xiàn)的應(yīng)用場景。
總的來說,2020年,是人工智能機(jī)器人的元年——你或許還沒看見,但它已經(jīng)在倉庫里無聲啟動(dòng)。
文章來源:高山書院