幾天前,江西圖書館里,兩個機器人為了爭搶粉絲而“拌嘴”。這是非常有趣的一件事兒,也折射出人工智能產業如火如荼的發展現狀。
今天,我來簡述這次“拌嘴”背后涉及到的人工智能技術。
人工智能時代的機器人
語音識別技術
語音識別技術
首先,機器人要能識別人類的語言,并把對方說話的語音音頻信號轉換成電腦文本(我們每天往word里輸入的東西),這就是語音識別技術。
全球有很多種語言,中國有很多種方言。電腦需要先通過神經網絡、深度學習,建立各種語言、方言的語音聲紋樣本庫。
然后,通過麥克風,實時采集另一個機器人說話的音頻信號,過濾掉背景噪聲(四周人類的哈哈聲),切分成句子,用樣本庫匹配,轉成文本。
最后自然語言處理(NLP)技術,調整識別結果,使之成為一句通順的、高置信度的話。
語音合成技術
機器人說出自己的不滿
反之,機器人在“思考”后,得知對方搶走了自己的粉絲,需要把“不滿”的思考結果“說”出來,這就是語音合成技術。
為了能讓機器人開口說話,預先要建立聲紋樣本庫,把電腦文本轉換成人類語音音頻信號,再通過音箱播放出來。
這步看似比識別容易,但要能實現多語言、男女聲、方言、多音字、音調、語氣等說話效果,就不那么容易了。
神經網絡與深度學習技術
神經網絡模擬人腦神經元
神經網絡是人工智能技術的基石,它模擬人腦神經元的工作原理,通過深度學習等訓練方法,調整神經元之間的聯系權重,模擬人腦的處理機制,實現近似效果。
深度學習是訓練神經網絡的一種方法。
早期的訓練方法,需要人類去建立大量樣本庫,比如手寫數字0-9的圖片與標簽,告訴機器輸入的圖片、圖片的樣本特征、圖片的識別結果。最難也最重要的是定義樣本特征。
深度學習通過多層網絡等技術,自動提取樣本特征,效果遠好于早期算法。
交互語料庫與自然語言處理技術

預先建立人類說話的常用表達、詞槽、詞典、前置語境、后置語境等,形成交互語料庫。
自然語言處理(NLP)是把人類語言的文本段落、句子,依靠知識圖譜,按照聯合概率,分解成詞,判斷詞性、語氣、情緒。
通過語料庫與自然語言處理技術,機器人識別出另一個機器人說話的意圖,結構化分解成多個關鍵詞,再從話術庫里提取最正確的作答信息,組建出反饋的話。最后通過語音合成技術播放出去。
計算機視覺
計算機視覺
最后提一提計算機視覺。
計算機視覺是通過機器人的前置攝像頭,實時采集前方畫面,并對畫面內容進行分析,做出合理的反饋。這也是“自動駕駛汽車”等應用的最核心部件。
圖書館這“二位”,一邊像人類那樣去“拌嘴”,一邊根據吵架內容去調整自己的屏幕朝向!的確彰顯出人工智能產業與技術比較成熟的信號。
每個科學家都有自己的夢想。以往,我夢想的代表是任天堂卡帶游戲機、電腦臺式機、集成電路主板。未來,我夢想的代表是人工智能、機器人、高科技帶來的巨大生產力與變革。愿人工智能技術可以解決人類面臨的饑荒、環境、爭端等諸多問題!