久久久久亚洲精品无码网站,久久国产精品成人影院,国产高清av在线播放,亚洲一区二区三区在线观看蜜桃,日韩av二区三区一区,91久久国产成人免费观看,亚洲男人的天堂久久精品,亚洲成AⅤ人在线观看无码
ENGLISH 中文(簡(jiǎn)體)
設(shè)為首頁(yè) 加入收藏
新聞中心
 
 當(dāng)前位置: 首頁(yè) > 新聞中心 > 行業(yè)快訊 > 【行業(yè)資訊】專(zhuān)訪中科院自動(dòng)化所所長(zhǎng)徐波:構(gòu)建紫東太初——全球首個(gè)三模態(tài)大模型,類(lèi)人智能的大門(mén)正在打開(kāi)
【行業(yè)資訊】專(zhuān)訪中科院自動(dòng)化所所長(zhǎng)徐波:構(gòu)建紫東太初——全球首個(gè)三模態(tài)大模型,類(lèi)人智能的大門(mén)正在打開(kāi)

以下是專(zhuān)訪實(shí)錄:

觀察者網(wǎng):我們看到,中國(guó)目前在人工智能技術(shù)研發(fā)投入上可謂是不遺余力,作為人工智能行業(yè)專(zhuān)家,您認(rèn)為持續(xù)探索人工智能技術(shù)創(chuàng)新之路,對(duì)整個(gè)產(chǎn)業(yè)和社會(huì)發(fā)展的意義是什么?

徐波:人工智能在本質(zhì)上是一種賦能技術(shù)。隨著社會(huì)的持續(xù)發(fā)展和進(jìn)步,人工智能作為社會(huì)經(jīng)濟(jì)生活的“發(fā)動(dòng)機(jī)”,無(wú)處不在的推動(dòng)著多個(gè)行業(yè)的智能化發(fā)展。人工智能在不斷與行業(yè)進(jìn)行融合創(chuàng)新的同時(shí),會(huì)出現(xiàn)多種形態(tài)的變化,呈現(xiàn)出百花齊放的現(xiàn)象。

人工智能作為新一輪技術(shù)革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力,已經(jīng)改變很多現(xiàn)有的流程、理念、生產(chǎn)方式、組織形式,將進(jìn)一步解放和發(fā)展社會(huì)生產(chǎn)力,深度改變?nèi)藗兊乃枷胗^念。當(dāng)前,人工智能正在全方位賦能商業(yè)、教育、醫(yī)療、制造、交通和社會(huì)治理,成為不可或缺的發(fā)展引擎。但人工智能發(fā)展創(chuàng)新絕非一帆風(fēng)順,短時(shí)間內(nèi),相關(guān)技術(shù)還將經(jīng)歷一個(gè)艱難爬坡、臨界點(diǎn)突破、再遇到新的瓶頸這樣螺旋式的發(fā)展上升過(guò)程。

觀察者網(wǎng):自從國(guó)外OpenAI公司的GPT3、華為公司的盤(pán)古等人工智能模型出現(xiàn)以來(lái),無(wú)監(jiān)督學(xué)習(xí)迅速發(fā)展,目前預(yù)訓(xùn)練大模型已經(jīng)發(fā)展到了什么階段?

徐波:圖靈獎(jiǎng)獲得者Yann Lecun曾經(jīng)說(shuō)過(guò),如果智能是一塊蛋糕,那么蛋糕的主體是無(wú)監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。人類(lèi)對(duì)世界的理解主要來(lái)自于大量未標(biāo)記的信息。

“蛋糕主體”指的是無(wú)監(jiān)督學(xué)習(xí),現(xiàn)在很多人工智能碰到的落地上的可信和魯棒性難題,其本質(zhì)問(wèn)題是現(xiàn)有AI缺乏語(yǔ)義級(jí)的認(rèn)知。認(rèn)知如同浮在海平面上的冰山。自然語(yǔ)言是冰山浮出水面的部分,而理解自然語(yǔ)言的基礎(chǔ)是大量的人類(lèi)常識(shí)、背景知識(shí)、領(lǐng)域知識(shí)等世界知識(shí),這是冰山水面以下看不到的部分。把這些合起來(lái)統(tǒng)稱為“語(yǔ)義空間”?,F(xiàn)有的AI系統(tǒng)很難把這些語(yǔ)義空間加以全面準(zhǔn)確的表達(dá)。

例如,“張三吃大碗”、“張三吃食堂”、“張三吃面條”這三句話?!皬埲源笸搿辈⒉皇钦f(shuō)張三把大碗吃掉,“張三吃食堂”也不是要把食堂吃掉,這種表述背后的邏輯可能是食堂是吃飯的地方,很多人都在食堂吃飯,張三家里可能沒(méi)做飯,所以在食堂吃飯。對(duì)人工智能來(lái)說(shuō),必須有這些相關(guān)的背景知識(shí),才能理解“張三吃食堂”這句對(duì)人來(lái)講很容易理解的話。

人工智能需要學(xué)習(xí)很多背景知識(shí)才能理解自然語(yǔ)言。這就是“認(rèn)知冰山”問(wèn)題,冰山海平面之下才是獲得認(rèn)知的關(guān)鍵。有的人工智能專(zhuān)家把這些大量的背景知識(shí)稱作人工智能的“暗物質(zhì)”。怎么把這些“暗物質(zhì)”挖掘出來(lái)放在一個(gè)系統(tǒng)里?無(wú)監(jiān)督學(xué)習(xí)是一條路徑。

這些“暗物質(zhì)”隱含存在于我們的圖片、日常對(duì)話和海量文本中。但是,目前的預(yù)訓(xùn)練大多數(shù)還是單模態(tài)。“百聞不如一見(jiàn)”,可能很復(fù)雜的語(yǔ)義表述只需要看一張圖片就能理解。

同時(shí),人類(lèi)的聲音還蘊(yùn)藏著情緒和感情,只有準(zhǔn)確捕獲這些細(xì)節(jié)信息,才有可能懂得語(yǔ)言背后真正的含義,而不僅僅是文字表面的意思。那么,我們?nèi)绾尾拍芡瑫r(shí)有效把聲音、圖片和文字這些信息都整合起來(lái)呢?

這次,我們?cè)谖錆h人工智能計(jì)算中心算力支持下研發(fā)的全球首個(gè)三模態(tài)大模型“紫東太初”,在實(shí)現(xiàn)圖、文、音的統(tǒng)一表達(dá)方面取得重要進(jìn)展。已有多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個(gè)模態(tài),如圖像和文本,或者視頻和文本,不但忽視了周?chē)h(huán)境中普遍存在的語(yǔ)音信息,并且模型不好兼具理解與生成能力,難以在生成任務(wù)與理解類(lèi)任務(wù)中同時(shí)取得良好表現(xiàn)。

我們首次將語(yǔ)音信息引入,并通過(guò)一個(gè)統(tǒng)一語(yǔ)義空間網(wǎng)絡(luò)表達(dá)生成三模態(tài)模型,可以把剛才提到的“認(rèn)知冰山”或“暗物質(zhì)”的龐大語(yǔ)義空間學(xué)習(xí)出來(lái),能更加接近人類(lèi)真正的感情和思考。特別地,由于側(cè)重交互功能的語(yǔ)音的加入,使我們的大模型一下子變“活”了,使人工智能邁向更高層次的通用型人工智能方向發(fā)展。

“紫東太初”三模態(tài)訓(xùn)練模型采用了多層次、多任務(wù)、自監(jiān)督、預(yù)訓(xùn)練的學(xué)習(xí)方式,論文已經(jīng)公開(kāi)發(fā)表。最重要的是提出來(lái)三模態(tài)數(shù)據(jù)的語(yǔ)義統(tǒng)一表達(dá),可同時(shí)支持三種或者任兩種模態(tài)的若干數(shù)據(jù)預(yù)訓(xùn)練。這個(gè)模型不僅可以實(shí)現(xiàn)跨模態(tài)理解,還能實(shí)現(xiàn)跨模態(tài)生成,做到理解和生成兩個(gè)最重要的認(rèn)知能力的平衡,首次實(shí)現(xiàn)以圖生音,以音來(lái)生圖的功能。

三模態(tài)大模型可能把更多人類(lèi)許多與生俱來(lái)的東西學(xué)習(xí)出來(lái),把“認(rèn)知冰山”水面以下的東西能進(jìn)行挖掘和表達(dá)。另外,單模態(tài)預(yù)訓(xùn)練模型無(wú)疑越大越好,但三模態(tài)模型的重點(diǎn)更在于探索如何讓它更“巧”。三模態(tài)大模型要做好還要下很多功夫,但我們已經(jīng)在正確的方向上邁出了重要的一步。

觀察者網(wǎng):多模態(tài)大模型“紫東太初”名稱的內(nèi)涵,是不是包涵了某種開(kāi)天辟地的意義?

徐波:可以這么理解,就是相當(dāng)于人工智能走向類(lèi)人智能的一個(gè)混沌初開(kāi)之際,也是感知智能走向通用智能重要的第一步。

一個(gè)比較有意思的話題是,人工智能領(lǐng)域之外的人,比如哲學(xué)、科幻領(lǐng)域,特別喜歡討論人工智能的一些終極問(wèn)題,例如機(jī)器人可能統(tǒng)治人類(lèi),同時(shí)涉及一些更高層面的倫理問(wèn)題。但絕大多數(shù)人工智能領(lǐng)域的科學(xué)家非常清楚地認(rèn)知到現(xiàn)有人工智能距離真正的人類(lèi)智能相差甚遠(yuǎn)。

在成功研發(fā)“紫東太初”三模態(tài)模型后,我們似乎感受到比現(xiàn)有人工智能更為強(qiáng)大的通用型人工智能大門(mén)正在打開(kāi)。有時(shí)候,我們甚至在思考怎么讓人工智能依附一個(gè)好的軀體,更好地感知到自然和社會(huì)環(huán)境中的信息,把類(lèi)似情緒和情感的信息做進(jìn)一步的處理,AI將會(huì)有更大的發(fā)展和比較好的靈活性。這種門(mén)檻一旦突破,人工智能的發(fā)展很可能會(huì)出現(xiàn)指數(shù)型的增長(zhǎng)。這是一個(gè)即將呈現(xiàn)爆發(fā)式增長(zhǎng)的領(lǐng)域。

觀察者網(wǎng):這個(gè)多模態(tài)大模型的技術(shù)水平,跟國(guó)外同行相比怎么樣?

徐波: “紫東太初”是全球首個(gè)三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語(yǔ)音大模型的相對(duì)少一些。我們是少有的同時(shí)具備圖、文、音研究?jī)?chǔ)備和基礎(chǔ)的研究機(jī)構(gòu)。這次自動(dòng)化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫(kù),并把圖、文、音三個(gè)模態(tài)統(tǒng)一起來(lái),在一個(gè)共同的語(yǔ)義空間去做相互的轉(zhuǎn)換和統(tǒng)一表述,這在全球是首次。

通過(guò)巧妙地構(gòu)建一個(gè)多模態(tài)大模型,我們的圖像技術(shù)、語(yǔ)音技術(shù)和文本技術(shù)都超越了現(xiàn)有最好水平。過(guò)去業(yè)界習(xí)慣用有監(jiān)督的學(xué)習(xí),而我們的技術(shù)對(duì)有標(biāo)注數(shù)據(jù)的依賴性較小,改變了人工智能訓(xùn)練需要標(biāo)注好的大數(shù)據(jù)的固有模式。

首先,性能業(yè)界領(lǐng)先的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型是我們?nèi)B(tài)模型的基礎(chǔ)。比如,視覺(jué)的預(yù)訓(xùn)練模型,首次實(shí)現(xiàn)超越有監(jiān)督學(xué)習(xí)的性能,速度比其他的方法提高8倍,在語(yǔ)義分割的結(jié)果上,也超越了有監(jiān)督學(xué)習(xí)的水平。在中文預(yù)訓(xùn)練模型里面提出來(lái)任務(wù)感知和推理增強(qiáng)的模型,性能相比比GPT-3明顯提升。語(yǔ)音預(yù)訓(xùn)練模型,針對(duì)語(yǔ)音領(lǐng)域語(yǔ)種多樣、標(biāo)注成本高的問(wèn)題,實(shí)現(xiàn)了基于語(yǔ)音預(yù)訓(xùn)練的多語(yǔ)言、多任務(wù)、低資源關(guān)鍵技術(shù)的突破,使我們用很少的有標(biāo)注數(shù)據(jù)就可以實(shí)現(xiàn)語(yǔ)音識(shí)別的性能大幅度提升。

然后,我們?cè)诮y(tǒng)一的語(yǔ)義空間網(wǎng)絡(luò)表達(dá)上實(shí)現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉(zhuǎn)換,在多任務(wù)上取得了更卓越的性能。在跨模態(tài)檢索和圖文語(yǔ)義轉(zhuǎn)換方面,都比兩個(gè)模態(tài)具有更豐富的表達(dá)跟生成能力。語(yǔ)音加速加入后,使得我們的大模型可以跟人類(lèi)做自然流暢的交互。這意味著,我們?nèi)斯ぶ悄芗夹g(shù)在共性的語(yǔ)義空間表征方面取得了重要進(jìn)展。

觀察者網(wǎng):AI應(yīng)用場(chǎng)景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠?qū)崿F(xiàn)多模態(tài)對(duì)話,視頻播報(bào),以音生圖,以圖生音,非常有意思,未來(lái)是否有可能所有問(wèn)題都會(huì)通過(guò)統(tǒng)一的大模型來(lái)解決?

徐波:我覺(jué)得非常有可能。我們?nèi)祟?lèi)主要有兩種能力,一種是與生俱來(lái)的能力,到了一定的年齡,通過(guò)基本的學(xué)習(xí)就能自然地學(xué)會(huì)說(shuō)話、走路。另外一種是專(zhuān)業(yè)技能,如果要學(xué)會(huì)彈鋼琴、水墨畫(huà)等,仍然需要長(zhǎng)時(shí)間的專(zhuān)業(yè)訓(xùn)練才能實(shí)現(xiàn),因?yàn)檫@改變了人的特定知識(shí)結(jié)構(gòu)。

多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類(lèi)基本的知識(shí)、常識(shí),看到的一些場(chǎng)景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個(gè)大模型里面。比如要做語(yǔ)音識(shí)別,現(xiàn)在用很小的數(shù)據(jù)量可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學(xué)習(xí)。

預(yù)訓(xùn)練模型作為基座模型雖然不是萬(wàn)能的,但是人工智能的研究范式和產(chǎn)業(yè)范式也會(huì)出現(xiàn)一些變化。比如說(shuō),現(xiàn)在產(chǎn)業(yè)都在講算法開(kāi)源,但算法的維護(hù)成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來(lái)人工智能領(lǐng)域開(kāi)放的可能是模型,客戶獲得大模型的接口再稍微加一點(diǎn)數(shù)據(jù)就能解決問(wèn)題,即“大模型+小數(shù)據(jù)”,這是我們未來(lái)希望看到的大模型對(duì)產(chǎn)業(yè)帶來(lái)的賦能。

這個(gè)大模型技術(shù)從學(xué)術(shù)成果向產(chǎn)業(yè)轉(zhuǎn)化可能還需要一個(gè)過(guò)程,但我認(rèn)為不會(huì)太久,未來(lái)2-4年之內(nèi)這些新技術(shù)都會(huì)逐漸得到應(yīng)用。

以下是專(zhuān)訪實(shí)錄:

觀察者網(wǎng):我們看到,中國(guó)目前在人工智能技術(shù)研發(fā)投入上可謂是不遺余力,作為人工智能行業(yè)專(zhuān)家,您認(rèn)為持續(xù)探索人工智能技術(shù)創(chuàng)新之路,對(duì)整個(gè)產(chǎn)業(yè)和社會(huì)發(fā)展的意義是什么?

徐波:人工智能在本質(zhì)上是一種賦能技術(shù)。隨著社會(huì)的持續(xù)發(fā)展和進(jìn)步,人工智能作為社會(huì)經(jīng)濟(jì)生活的“發(fā)動(dòng)機(jī)”,無(wú)處不在的推動(dòng)著多個(gè)行業(yè)的智能化發(fā)展。人工智能在不斷與行業(yè)進(jìn)行融合創(chuàng)新的同時(shí),會(huì)出現(xiàn)多種形態(tài)的變化,呈現(xiàn)出百花齊放的現(xiàn)象。

人工智能作為新一輪技術(shù)革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力,已經(jīng)改變很多現(xiàn)有的流程、理念、生產(chǎn)方式、組織形式,將進(jìn)一步解放和發(fā)展社會(huì)生產(chǎn)力,深度改變?nèi)藗兊乃枷胗^念。當(dāng)前,人工智能正在全方位賦能商業(yè)、教育、醫(yī)療、制造、交通和社會(huì)治理,成為不可或缺的發(fā)展引擎。但人工智能發(fā)展創(chuàng)新絕非一帆風(fēng)順,短時(shí)間內(nèi),相關(guān)技術(shù)還將經(jīng)歷一個(gè)艱難爬坡、臨界點(diǎn)突破、再遇到新的瓶頸這樣螺旋式的發(fā)展上升過(guò)程。

觀察者網(wǎng):自從國(guó)外OpenAI公司的GPT3、華為公司的盤(pán)古等人工智能模型出現(xiàn)以來(lái),無(wú)監(jiān)督學(xué)習(xí)迅速發(fā)展,目前預(yù)訓(xùn)練大模型已經(jīng)發(fā)展到了什么階段?

徐波:圖靈獎(jiǎng)獲得者Yann Lecun曾經(jīng)說(shuō)過(guò),如果智能是一塊蛋糕,那么蛋糕的主體是無(wú)監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。人類(lèi)對(duì)世界的理解主要來(lái)自于大量未標(biāo)記的信息。

“蛋糕主體”指的是無(wú)監(jiān)督學(xué)習(xí),現(xiàn)在很多人工智能碰到的落地上的可信和魯棒性難題,其本質(zhì)問(wèn)題是現(xiàn)有AI缺乏語(yǔ)義級(jí)的認(rèn)知。認(rèn)知如同浮在海平面上的冰山。自然語(yǔ)言是冰山浮出水面的部分,而理解自然語(yǔ)言的基礎(chǔ)是大量的人類(lèi)常識(shí)、背景知識(shí)、領(lǐng)域知識(shí)等世界知識(shí),這是冰山水面以下看不到的部分。把這些合起來(lái)統(tǒng)稱為“語(yǔ)義空間”。現(xiàn)有的AI系統(tǒng)很難把這些語(yǔ)義空間加以全面準(zhǔn)確的表達(dá)。

例如,“張三吃大碗”、“張三吃食堂”、“張三吃面條”這三句話。“張三吃大碗”并不是說(shuō)張三把大碗吃掉,“張三吃食堂”也不是要把食堂吃掉,這種表述背后的邏輯可能是食堂是吃飯的地方,很多人都在食堂吃飯,張三家里可能沒(méi)做飯,所以在食堂吃飯。對(duì)人工智能來(lái)說(shuō),必須有這些相關(guān)的背景知識(shí),才能理解“張三吃食堂”這句對(duì)人來(lái)講很容易理解的話。

人工智能需要學(xué)習(xí)很多背景知識(shí)才能理解自然語(yǔ)言。這就是“認(rèn)知冰山”問(wèn)題,冰山海平面之下才是獲得認(rèn)知的關(guān)鍵。有的人工智能專(zhuān)家把這些大量的背景知識(shí)稱作人工智能的“暗物質(zhì)”。怎么把這些“暗物質(zhì)”挖掘出來(lái)放在一個(gè)系統(tǒng)里?無(wú)監(jiān)督學(xué)習(xí)是一條路徑。

這些“暗物質(zhì)”隱含存在于我們的圖片、日常對(duì)話和海量文本中。但是,目前的預(yù)訓(xùn)練大多數(shù)還是單模態(tài)?!鞍俾劜蝗缫灰?jiàn)”,可能很復(fù)雜的語(yǔ)義表述只需要看一張圖片就能理解。

同時(shí),人類(lèi)的聲音還蘊(yùn)藏著情緒和感情,只有準(zhǔn)確捕獲這些細(xì)節(jié)信息,才有可能懂得語(yǔ)言背后真正的含義,而不僅僅是文字表面的意思。那么,我們?nèi)绾尾拍芡瑫r(shí)有效把聲音、圖片和文字這些信息都整合起來(lái)呢?

這次,我們?cè)谖錆h人工智能計(jì)算中心算力支持下研發(fā)的全球首個(gè)三模態(tài)大模型“紫東太初”,在實(shí)現(xiàn)圖、文、音的統(tǒng)一表達(dá)方面取得重要進(jìn)展。已有多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個(gè)模態(tài),如圖像和文本,或者視頻和文本,不但忽視了周?chē)h(huán)境中普遍存在的語(yǔ)音信息,并且模型不好兼具理解與生成能力,難以在生成任務(wù)與理解類(lèi)任務(wù)中同時(shí)取得良好表現(xiàn)。

我們首次將語(yǔ)音信息引入,并通過(guò)一個(gè)統(tǒng)一語(yǔ)義空間網(wǎng)絡(luò)表達(dá)生成三模態(tài)模型,可以把剛才提到的“認(rèn)知冰山”或“暗物質(zhì)”的龐大語(yǔ)義空間學(xué)習(xí)出來(lái),能更加接近人類(lèi)真正的感情和思考。特別地,由于側(cè)重交互功能的語(yǔ)音的加入,使我們的大模型一下子變“活”了,使人工智能邁向更高層次的通用型人工智能方向發(fā)展。

“紫東太初”三模態(tài)訓(xùn)練模型采用了多層次、多任務(wù)、自監(jiān)督、預(yù)訓(xùn)練的學(xué)習(xí)方式,論文已經(jīng)公開(kāi)發(fā)表。最重要的是提出來(lái)三模態(tài)數(shù)據(jù)的語(yǔ)義統(tǒng)一表達(dá),可同時(shí)支持三種或者任兩種模態(tài)的若干數(shù)據(jù)預(yù)訓(xùn)練。這個(gè)模型不僅可以實(shí)現(xiàn)跨模態(tài)理解,還能實(shí)現(xiàn)跨模態(tài)生成,做到理解和生成兩個(gè)最重要的認(rèn)知能力的平衡,首次實(shí)現(xiàn)以圖生音,以音來(lái)生圖的功能。

三模態(tài)大模型可能把更多人類(lèi)許多與生俱來(lái)的東西學(xué)習(xí)出來(lái),把“認(rèn)知冰山”水面以下的東西能進(jìn)行挖掘和表達(dá)。另外,單模態(tài)預(yù)訓(xùn)練模型無(wú)疑越大越好,但三模態(tài)模型的重點(diǎn)更在于探索如何讓它更“巧”。三模態(tài)大模型要做好還要下很多功夫,但我們已經(jīng)在正確的方向上邁出了重要的一步。

觀察者網(wǎng):多模態(tài)大模型“紫東太初”名稱的內(nèi)涵,是不是包涵了某種開(kāi)天辟地的意義?

徐波:可以這么理解,就是相當(dāng)于人工智能走向類(lèi)人智能的一個(gè)混沌初開(kāi)之際,也是感知智能走向通用智能重要的第一步。

一個(gè)比較有意思的話題是,人工智能領(lǐng)域之外的人,比如哲學(xué)、科幻領(lǐng)域,特別喜歡討論人工智能的一些終極問(wèn)題,例如機(jī)器人可能統(tǒng)治人類(lèi),同時(shí)涉及一些更高層面的倫理問(wèn)題。但絕大多數(shù)人工智能領(lǐng)域的科學(xué)家非常清楚地認(rèn)知到現(xiàn)有人工智能距離真正的人類(lèi)智能相差甚遠(yuǎn)。

在成功研發(fā)“紫東太初”三模態(tài)模型后,我們似乎感受到比現(xiàn)有人工智能更為強(qiáng)大的通用型人工智能大門(mén)正在打開(kāi)。有時(shí)候,我們甚至在思考怎么讓人工智能依附一個(gè)好的軀體,更好地感知到自然和社會(huì)環(huán)境中的信息,把類(lèi)似情緒和情感的信息做進(jìn)一步的處理,AI將會(huì)有更大的發(fā)展和比較好的靈活性。這種門(mén)檻一旦突破,人工智能的發(fā)展很可能會(huì)出現(xiàn)指數(shù)型的增長(zhǎng)。這是一個(gè)即將呈現(xiàn)爆發(fā)式增長(zhǎng)的領(lǐng)域。

觀察者網(wǎng):這個(gè)多模態(tài)大模型的技術(shù)水平,跟國(guó)外同行相比怎么樣?

徐波: “紫東太初”是全球首個(gè)三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語(yǔ)音大模型的相對(duì)少一些。我們是少有的同時(shí)具備圖、文、音研究?jī)?chǔ)備和基礎(chǔ)的研究機(jī)構(gòu)。這次自動(dòng)化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫(kù),并把圖、文、音三個(gè)模態(tài)統(tǒng)一起來(lái),在一個(gè)共同的語(yǔ)義空間去做相互的轉(zhuǎn)換和統(tǒng)一表述,這在全球是首次。

通過(guò)巧妙地構(gòu)建一個(gè)多模態(tài)大模型,我們的圖像技術(shù)、語(yǔ)音技術(shù)和文本技術(shù)都超越了現(xiàn)有最好水平。過(guò)去業(yè)界習(xí)慣用有監(jiān)督的學(xué)習(xí),而我們的技術(shù)對(duì)有標(biāo)注數(shù)據(jù)的依賴性較小,改變了人工智能訓(xùn)練需要標(biāo)注好的大數(shù)據(jù)的固有模式。

首先,性能業(yè)界領(lǐng)先的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型是我們?nèi)B(tài)模型的基礎(chǔ)。比如,視覺(jué)的預(yù)訓(xùn)練模型,首次實(shí)現(xiàn)超越有監(jiān)督學(xué)習(xí)的性能,速度比其他的方法提高8倍,在語(yǔ)義分割的結(jié)果上,也超越了有監(jiān)督學(xué)習(xí)的水平。在中文預(yù)訓(xùn)練模型里面提出來(lái)任務(wù)感知和推理增強(qiáng)的模型,性能相比比GPT-3明顯提升。語(yǔ)音預(yù)訓(xùn)練模型,針對(duì)語(yǔ)音領(lǐng)域語(yǔ)種多樣、標(biāo)注成本高的問(wèn)題,實(shí)現(xiàn)了基于語(yǔ)音預(yù)訓(xùn)練的多語(yǔ)言、多任務(wù)、低資源關(guān)鍵技術(shù)的突破,使我們用很少的有標(biāo)注數(shù)據(jù)就可以實(shí)現(xiàn)語(yǔ)音識(shí)別的性能大幅度提升。

然后,我們?cè)诮y(tǒng)一的語(yǔ)義空間網(wǎng)絡(luò)表達(dá)上實(shí)現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉(zhuǎn)換,在多任務(wù)上取得了更卓越的性能。在跨模態(tài)檢索和圖文語(yǔ)義轉(zhuǎn)換方面,都比兩個(gè)模態(tài)具有更豐富的表達(dá)跟生成能力。語(yǔ)音加速加入后,使得我們的大模型可以跟人類(lèi)做自然流暢的交互。這意味著,我們?nèi)斯ぶ悄芗夹g(shù)在共性的語(yǔ)義空間表征方面取得了重要進(jìn)展。

觀察者網(wǎng):AI應(yīng)用場(chǎng)景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠?qū)崿F(xiàn)多模態(tài)對(duì)話,視頻播報(bào),以音生圖,以圖生音,非常有意思,未來(lái)是否有可能所有問(wèn)題都會(huì)通過(guò)統(tǒng)一的大模型來(lái)解決?

徐波:我覺(jué)得非常有可能。我們?nèi)祟?lèi)主要有兩種能力,一種是與生俱來(lái)的能力,到了一定的年齡,通過(guò)基本的學(xué)習(xí)就能自然地學(xué)會(huì)說(shuō)話、走路。另外一種是專(zhuān)業(yè)技能,如果要學(xué)會(huì)彈鋼琴、水墨畫(huà)等,仍然需要長(zhǎng)時(shí)間的專(zhuān)業(yè)訓(xùn)練才能實(shí)現(xiàn),因?yàn)檫@改變了人的特定知識(shí)結(jié)構(gòu)。

多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類(lèi)基本的知識(shí)、常識(shí),看到的一些場(chǎng)景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個(gè)大模型里面。比如要做語(yǔ)音識(shí)別,現(xiàn)在用很小的數(shù)據(jù)量可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學(xué)習(xí)。

預(yù)訓(xùn)練模型作為基座模型雖然不是萬(wàn)能的,但是人工智能的研究范式和產(chǎn)業(yè)范式也會(huì)出現(xiàn)一些變化。比如說(shuō),現(xiàn)在產(chǎn)業(yè)都在講算法開(kāi)源,但算法的維護(hù)成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來(lái)人工智能領(lǐng)域開(kāi)放的可能是模型,客戶獲得大模型的接口再稍微加一點(diǎn)數(shù)據(jù)就能解決問(wèn)題,即“大模型+小數(shù)據(jù)”,這是我們未來(lái)希望看到的大模型對(duì)產(chǎn)業(yè)帶來(lái)的賦能。

這個(gè)大模型技術(shù)從學(xué)術(shù)成果向產(chǎn)業(yè)轉(zhuǎn)化可能還需要一個(gè)過(guò)程,但我認(rèn)為不會(huì)太久,未來(lái)2-4年之內(nèi)這些新技術(shù)都會(huì)逐漸得到應(yīng)用。

以下是專(zhuān)訪實(shí)錄:

觀察者網(wǎng):我們看到,中國(guó)目前在人工智能技術(shù)研發(fā)投入上可謂是不遺余力,作為人工智能行業(yè)專(zhuān)家,您認(rèn)為持續(xù)探索人工智能技術(shù)創(chuàng)新之路,對(duì)整個(gè)產(chǎn)業(yè)和社會(huì)發(fā)展的意義是什么?

徐波:人工智能在本質(zhì)上是一種賦能技術(shù)。隨著社會(huì)的持續(xù)發(fā)展和進(jìn)步,人工智能作為社會(huì)經(jīng)濟(jì)生活的“發(fā)動(dòng)機(jī)”,無(wú)處不在的推動(dòng)著多個(gè)行業(yè)的智能化發(fā)展。人工智能在不斷與行業(yè)進(jìn)行融合創(chuàng)新的同時(shí),會(huì)出現(xiàn)多種形態(tài)的變化,呈現(xiàn)出百花齊放的現(xiàn)象。

人工智能作為新一輪技術(shù)革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力,已經(jīng)改變很多現(xiàn)有的流程、理念、生產(chǎn)方式、組織形式,將進(jìn)一步解放和發(fā)展社會(huì)生產(chǎn)力,深度改變?nèi)藗兊乃枷胗^念。當(dāng)前,人工智能正在全方位賦能商業(yè)、教育、醫(yī)療、制造、交通和社會(huì)治理,成為不可或缺的發(fā)展引擎。但人工智能發(fā)展創(chuàng)新絕非一帆風(fēng)順,短時(shí)間內(nèi),相關(guān)技術(shù)還將經(jīng)歷一個(gè)艱難爬坡、臨界點(diǎn)突破、再遇到新的瓶頸這樣螺旋式的發(fā)展上升過(guò)程。

觀察者網(wǎng):自從國(guó)外OpenAI公司的GPT3、華為公司的盤(pán)古等人工智能模型出現(xiàn)以來(lái),無(wú)監(jiān)督學(xué)習(xí)迅速發(fā)展,目前預(yù)訓(xùn)練大模型已經(jīng)發(fā)展到了什么階段?

徐波:圖靈獎(jiǎng)獲得者Yann Lecun曾經(jīng)說(shuō)過(guò),如果智能是一塊蛋糕,那么蛋糕的主體是無(wú)監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。人類(lèi)對(duì)世界的理解主要來(lái)自于大量未標(biāo)記的信息。

“蛋糕主體”指的是無(wú)監(jiān)督學(xué)習(xí),現(xiàn)在很多人工智能碰到的落地上的可信和魯棒性難題,其本質(zhì)問(wèn)題是現(xiàn)有AI缺乏語(yǔ)義級(jí)的認(rèn)知。認(rèn)知如同浮在海平面上的冰山。自然語(yǔ)言是冰山浮出水面的部分,而理解自然語(yǔ)言的基礎(chǔ)是大量的人類(lèi)常識(shí)、背景知識(shí)、領(lǐng)域知識(shí)等世界知識(shí),這是冰山水面以下看不到的部分。把這些合起來(lái)統(tǒng)稱為“語(yǔ)義空間”?,F(xiàn)有的AI系統(tǒng)很難把這些語(yǔ)義空間加以全面準(zhǔn)確的表達(dá)。

例如,“張三吃大碗”、“張三吃食堂”、“張三吃面條”這三句話。“張三吃大碗”并不是說(shuō)張三把大碗吃掉,“張三吃食堂”也不是要把食堂吃掉,這種表述背后的邏輯可能是食堂是吃飯的地方,很多人都在食堂吃飯,張三家里可能沒(méi)做飯,所以在食堂吃飯。對(duì)人工智能來(lái)說(shuō),必須有這些相關(guān)的背景知識(shí),才能理解“張三吃食堂”這句對(duì)人來(lái)講很容易理解的話。

人工智能需要學(xué)習(xí)很多背景知識(shí)才能理解自然語(yǔ)言。這就是“認(rèn)知冰山”問(wèn)題,冰山海平面之下才是獲得認(rèn)知的關(guān)鍵。有的人工智能專(zhuān)家把這些大量的背景知識(shí)稱作人工智能的“暗物質(zhì)”。怎么把這些“暗物質(zhì)”挖掘出來(lái)放在一個(gè)系統(tǒng)里?無(wú)監(jiān)督學(xué)習(xí)是一條路徑。

這些“暗物質(zhì)”隱含存在于我們的圖片、日常對(duì)話和海量文本中。但是,目前的預(yù)訓(xùn)練大多數(shù)還是單模態(tài)?!鞍俾劜蝗缫灰?jiàn)”,可能很復(fù)雜的語(yǔ)義表述只需要看一張圖片就能理解。

同時(shí),人類(lèi)的聲音還蘊(yùn)藏著情緒和感情,只有準(zhǔn)確捕獲這些細(xì)節(jié)信息,才有可能懂得語(yǔ)言背后真正的含義,而不僅僅是文字表面的意思。那么,我們?nèi)绾尾拍芡瑫r(shí)有效把聲音、圖片和文字這些信息都整合起來(lái)呢?

這次,我們?cè)谖錆h人工智能計(jì)算中心算力支持下研發(fā)的全球首個(gè)三模態(tài)大模型“紫東太初”,在實(shí)現(xiàn)圖、文、音的統(tǒng)一表達(dá)方面取得重要進(jìn)展。已有多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個(gè)模態(tài),如圖像和文本,或者視頻和文本,不但忽視了周?chē)h(huán)境中普遍存在的語(yǔ)音信息,并且模型不好兼具理解與生成能力,難以在生成任務(wù)與理解類(lèi)任務(wù)中同時(shí)取得良好表現(xiàn)。

我們首次將語(yǔ)音信息引入,并通過(guò)一個(gè)統(tǒng)一語(yǔ)義空間網(wǎng)絡(luò)表達(dá)生成三模態(tài)模型,可以把剛才提到的“認(rèn)知冰山”或“暗物質(zhì)”的龐大語(yǔ)義空間學(xué)習(xí)出來(lái),能更加接近人類(lèi)真正的感情和思考。特別地,由于側(cè)重交互功能的語(yǔ)音的加入,使我們的大模型一下子變“活”了,使人工智能邁向更高層次的通用型人工智能方向發(fā)展。

“紫東太初”三模態(tài)訓(xùn)練模型采用了多層次、多任務(wù)、自監(jiān)督、預(yù)訓(xùn)練的學(xué)習(xí)方式,論文已經(jīng)公開(kāi)發(fā)表。最重要的是提出來(lái)三模態(tài)數(shù)據(jù)的語(yǔ)義統(tǒng)一表達(dá),可同時(shí)支持三種或者任兩種模態(tài)的若干數(shù)據(jù)預(yù)訓(xùn)練。這個(gè)模型不僅可以實(shí)現(xiàn)跨模態(tài)理解,還能實(shí)現(xiàn)跨模態(tài)生成,做到理解和生成兩個(gè)最重要的認(rèn)知能力的平衡,首次實(shí)現(xiàn)以圖生音,以音來(lái)生圖的功能。

三模態(tài)大模型可能把更多人類(lèi)許多與生俱來(lái)的東西學(xué)習(xí)出來(lái),把“認(rèn)知冰山”水面以下的東西能進(jìn)行挖掘和表達(dá)。另外,單模態(tài)預(yù)訓(xùn)練模型無(wú)疑越大越好,但三模態(tài)模型的重點(diǎn)更在于探索如何讓它更“巧”。三模態(tài)大模型要做好還要下很多功夫,但我們已經(jīng)在正確的方向上邁出了重要的一步。

觀察者網(wǎng):多模態(tài)大模型“紫東太初”名稱的內(nèi)涵,是不是包涵了某種開(kāi)天辟地的意義?

徐波:可以這么理解,就是相當(dāng)于人工智能走向類(lèi)人智能的一個(gè)混沌初開(kāi)之際,也是感知智能走向通用智能重要的第一步。

一個(gè)比較有意思的話題是,人工智能領(lǐng)域之外的人,比如哲學(xué)、科幻領(lǐng)域,特別喜歡討論人工智能的一些終極問(wèn)題,例如機(jī)器人可能統(tǒng)治人類(lèi),同時(shí)涉及一些更高層面的倫理問(wèn)題。但絕大多數(shù)人工智能領(lǐng)域的科學(xué)家非常清楚地認(rèn)知到現(xiàn)有人工智能距離真正的人類(lèi)智能相差甚遠(yuǎn)。

在成功研發(fā)“紫東太初”三模態(tài)模型后,我們似乎感受到比現(xiàn)有人工智能更為強(qiáng)大的通用型人工智能大門(mén)正在打開(kāi)。有時(shí)候,我們甚至在思考怎么讓人工智能依附一個(gè)好的軀體,更好地感知到自然和社會(huì)環(huán)境中的信息,把類(lèi)似情緒和情感的信息做進(jìn)一步的處理,AI將會(huì)有更大的發(fā)展和比較好的靈活性。這種門(mén)檻一旦突破,人工智能的發(fā)展很可能會(huì)出現(xiàn)指數(shù)型的增長(zhǎng)。這是一個(gè)即將呈現(xiàn)爆發(fā)式增長(zhǎng)的領(lǐng)域。

觀察者網(wǎng):這個(gè)多模態(tài)大模型的技術(shù)水平,跟國(guó)外同行相比怎么樣?

徐波: “紫東太初”是全球首個(gè)三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語(yǔ)音大模型的相對(duì)少一些。我們是少有的同時(shí)具備圖、文、音研究?jī)?chǔ)備和基礎(chǔ)的研究機(jī)構(gòu)。這次自動(dòng)化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫(kù),并把圖、文、音三個(gè)模態(tài)統(tǒng)一起來(lái),在一個(gè)共同的語(yǔ)義空間去做相互的轉(zhuǎn)換和統(tǒng)一表述,這在全球是首次。

通過(guò)巧妙地構(gòu)建一個(gè)多模態(tài)大模型,我們的圖像技術(shù)、語(yǔ)音技術(shù)和文本技術(shù)都超越了現(xiàn)有最好水平。過(guò)去業(yè)界習(xí)慣用有監(jiān)督的學(xué)習(xí),而我們的技術(shù)對(duì)有標(biāo)注數(shù)據(jù)的依賴性較小,改變了人工智能訓(xùn)練需要標(biāo)注好的大數(shù)據(jù)的固有模式。

首先,性能業(yè)界領(lǐng)先的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型是我們?nèi)B(tài)模型的基礎(chǔ)。比如,視覺(jué)的預(yù)訓(xùn)練模型,首次實(shí)現(xiàn)超越有監(jiān)督學(xué)習(xí)的性能,速度比其他的方法提高8倍,在語(yǔ)義分割的結(jié)果上,也超越了有監(jiān)督學(xué)習(xí)的水平。在中文預(yù)訓(xùn)練模型里面提出來(lái)任務(wù)感知和推理增強(qiáng)的模型,性能相比比GPT-3明顯提升。語(yǔ)音預(yù)訓(xùn)練模型,針對(duì)語(yǔ)音領(lǐng)域語(yǔ)種多樣、標(biāo)注成本高的問(wèn)題,實(shí)現(xiàn)了基于語(yǔ)音預(yù)訓(xùn)練的多語(yǔ)言、多任務(wù)、低資源關(guān)鍵技術(shù)的突破,使我們用很少的有標(biāo)注數(shù)據(jù)就可以實(shí)現(xiàn)語(yǔ)音識(shí)別的性能大幅度提升。

然后,我們?cè)诮y(tǒng)一的語(yǔ)義空間網(wǎng)絡(luò)表達(dá)上實(shí)現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉(zhuǎn)換,在多任務(wù)上取得了更卓越的性能。在跨模態(tài)檢索和圖文語(yǔ)義轉(zhuǎn)換方面,都比兩個(gè)模態(tài)具有更豐富的表達(dá)跟生成能力。語(yǔ)音加速加入后,使得我們的大模型可以跟人類(lèi)做自然流暢的交互。這意味著,我們?nèi)斯ぶ悄芗夹g(shù)在共性的語(yǔ)義空間表征方面取得了重要進(jìn)展。

觀察者網(wǎng):AI應(yīng)用場(chǎng)景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠?qū)崿F(xiàn)多模態(tài)對(duì)話,視頻播報(bào),以音生圖,以圖生音,非常有意思,未來(lái)是否有可能所有問(wèn)題都會(huì)通過(guò)統(tǒng)一的大模型來(lái)解決?

徐波:我覺(jué)得非常有可能。我們?nèi)祟?lèi)主要有兩種能力,一種是與生俱來(lái)的能力,到了一定的年齡,通過(guò)基本的學(xué)習(xí)就能自然地學(xué)會(huì)說(shuō)話、走路。另外一種是專(zhuān)業(yè)技能,如果要學(xué)會(huì)彈鋼琴、水墨畫(huà)等,仍然需要長(zhǎng)時(shí)間的專(zhuān)業(yè)訓(xùn)練才能實(shí)現(xiàn),因?yàn)檫@改變了人的特定知識(shí)結(jié)構(gòu)。

多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類(lèi)基本的知識(shí)、常識(shí),看到的一些場(chǎng)景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個(gè)大模型里面。比如要做語(yǔ)音識(shí)別,現(xiàn)在用很小的數(shù)據(jù)量可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學(xué)習(xí)。

預(yù)訓(xùn)練模型作為基座模型雖然不是萬(wàn)能的,但是人工智能的研究范式和產(chǎn)業(yè)范式也會(huì)出現(xiàn)一些變化。比如說(shuō),現(xiàn)在產(chǎn)業(yè)都在講算法開(kāi)源,但算法的維護(hù)成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來(lái)人工智能領(lǐng)域開(kāi)放的可能是模型,客戶獲得大模型的接口再稍微加一點(diǎn)數(shù)據(jù)就能解決問(wèn)題,即“大模型+小數(shù)據(jù)”,這是我們未來(lái)希望看到的大模型對(duì)產(chǎn)業(yè)帶來(lái)的賦能。

這個(gè)大模型技術(shù)從學(xué)術(shù)成果向產(chǎn)業(yè)轉(zhuǎn)化可能還需要一個(gè)過(guò)程,但我認(rèn)為不會(huì)太久,未來(lái)2-4年之內(nèi)這些新技術(shù)都會(huì)逐漸得到應(yīng)用。


文章來(lái)源:觀察者網(wǎng)


上海貿(mào)發(fā)展覽服務(wù)有限公司 深圳貿(mào)發(fā)會(huì)展服務(wù)有限公司
深圳市龍華區(qū)大浪街道陶元社區(qū)陶嚇錦華大廈703室
本站內(nèi)容歸 ?上海貿(mào)發(fā)會(huì)展服務(wù)有限公司 ?版權(quán)所有
滬ICP備17023807號(hào)-16

電話:張先生 18621271618(同微信)
傳真:021-37048779
 
主站蜘蛛池模板: 末发育娇小性色xxxxx| 欧美日韓性视頻在線| 国产一区国产二区在线精品| 一区二区免费高清观看国产丝瓜| 天天做日日做天天添天天欢公交车| 四虎国产精品亚洲一区久久特色 | 青青草av一区二区三区| 国产成人精品免费视频大全软件| 不卡一区二区视频日本| 少妇激情艳情综合小视频| 久久99精品这里精品6| 亚洲婷婷综合色香五月| 人人爽人人澡人人人妻、百度| 精品麻豆剧传媒av国产| 日产欧美国产日韩精品| 色一情一乱一伦麻豆| 亚洲中文字幕日本无线码| 亚洲日韩精品无码av海量| 免费无码午夜福利片| 好爽…又高潮了毛片免费看| 男女做爰高清无遮挡免费视频 | 亚洲一区二区无码影院| 成人欧美一区二区三区a片| 国产欧美日韩精品专区| 欧美交换配乱吟粗大免费看 | 亚洲人成在线观看网站无码| 综合激情亚洲丁香社区| 韩日美无码精品无码| 国产黑色丝袜在线播放| 国产剧情无码播放在线观看 | 午夜少妇性开放影院| 亚洲成av人无码综合在线| 777亚洲熟妇自拍无码区| 成人有色视频免费观看网址| 伊人久久大香线焦av综合影院 | 67194成在线观看免费| 亚洲色无码一区二区三区| 欧美精品a∨在线观看| 国产精品亚洲专区无码唯爱网| 首页 综合国产 亚洲 丝袜| 国内精品伊人久久久久av|