久久久久亚洲精品无码网站,久久国产精品成人影院,国产高清av在线播放,亚洲一区二区三区在线观看蜜桃,日韩av二区三区一区,91久久国产成人免费观看,亚洲男人的天堂久久精品,亚洲成AⅤ人在线观看无码
ENGLISH 中文(簡體)
設(shè)為首頁 加入收藏
新聞中心
 
 當(dāng)前位置: 首頁 > 新聞中心 > 行業(yè)快訊 > 【行業(yè)資訊】中科院自動化所基于MindSpore推出全球首個三模態(tài)預(yù)訓(xùn)練模型
【行業(yè)資訊】中科院自動化所基于MindSpore推出全球首個三模態(tài)預(yù)訓(xùn)練模型

日前,中國科學(xué)院自動化所(簡稱“自動化所”)基于全場景AI計算框架MindSpore訓(xùn)練完成全球首個圖文音(視覺-文本-語音)三模態(tài)預(yù)訓(xùn)練模型(OPT-Omni-Perception pre-Trainer),該模型同時具備跨模態(tài)理解與跨模態(tài)生成能力,標(biāo)志著預(yù)訓(xùn)練模型工作獲得突破性進(jìn)展。

自GPT/Bert模型提出后,預(yù)訓(xùn)練模型迎來了爆發(fā)式發(fā)展,其具有在無監(jiān)督情況下自動學(xué)習(xí)不同任務(wù)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力,而多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能的路徑探索。然而,互聯(lián)網(wǎng)音視頻數(shù)據(jù)呈高速增長,占比超過80%,純文本的預(yù)訓(xùn)練模型只涵蓋了互聯(lián)網(wǎng)數(shù)據(jù)中的較少部分,更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學(xué)習(xí),且人類的信息獲取、環(huán)境感知、知識學(xué)習(xí)與表達(dá),都是通過多模態(tài)信息方式來執(zhí)行的。OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 在推特上發(fā)文表示,“人工智能的長期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即AI能夠?qū)W習(xí)不同模態(tài)之間的概念,從而更好地理解世界”。為實現(xiàn)更加通用的人工智能模型,預(yù)訓(xùn)練模型必然由單模態(tài)往多模態(tài)方向發(fā)展,將文本、語音、圖像、視頻等多模態(tài)內(nèi)容聯(lián)合起來進(jìn)行學(xué)習(xí)。自動化所瞄準(zhǔn)這一方向,成功構(gòu)建視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型。

目前已有的多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個模態(tài)(如圖像和文本,或者視頻和文本),忽視了周圍環(huán)境中普遍存在的語音信息,并且模型極少兼具理解與生成能力,難以在生成任務(wù)與理解類任務(wù)中同時取得良好表現(xiàn)。針對這些問題,自動化此次提出的視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型采用分別基于詞條級別(Token-level)、模態(tài)級別(Modality-level)以及樣本級別(Sample-level)的多層次、多任務(wù)子監(jiān)督學(xué)習(xí)框架,更關(guān)注圖-文-音三模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)特性以及跨模態(tài)轉(zhuǎn)換問題,對更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。該模型不僅可實現(xiàn)跨模態(tài)理解(比如圖像識別、語音識別等任務(wù)),也能完成跨模態(tài)生成(比如從文本生成圖像、從圖像生成文本、語音生成圖像等任務(wù))。靈活的自監(jiān)督學(xué)習(xí)框架可同時支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。

三模態(tài)預(yù)訓(xùn)練模型基本原理

自動化所首次提出了視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型,實現(xiàn)了三模態(tài)間相互轉(zhuǎn)換和生成。其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間,然后通過多頭自注意力機(jī)制(Multi-head Self-attention)學(xué)習(xí)模態(tài)之間的語義關(guān)聯(lián)以及特征對齊,形成多模態(tài)統(tǒng)一知識表示,再利用編碼后的多模態(tài)特征,然后通過多頭自注意力機(jī)制進(jìn)行通過解碼器分別生成文本、圖像和語音。這里三模態(tài)互相轉(zhuǎn)化和相互生成示意如圖1所示:

圖文音三模態(tài)相互轉(zhuǎn)換與生成

多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)

自動化提出的三模態(tài)預(yù)訓(xùn)練模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構(gòu)成。針對圖文音三模態(tài)數(shù)據(jù),我們提出三級預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式:詞條級別 (Token-level,Modality-level),模態(tài)級(Modality-level masking)以及樣本級別(Sample-level masking) 。具體包括:

(1)詞條級別(Token-level)學(xué)習(xí):(a)文本掩碼建模(Masked Language Modeling):隨機(jī)掩蓋一些文本單詞,需要模型根據(jù)上下文預(yù)測被掩蓋的單詞是什么;(b)視覺掩碼建模(Masked Vision Modeling):隨機(jī)掩蓋一些圖像區(qū)域,讓模型預(yù)測被掩蓋的區(qū)域;(c)語音掩碼建模(Masked Audio Modeling):隨機(jī)掩蓋一些語音詞條(token),模型需要預(yù)測被掩蓋的詞條(token)是什么。

(2)模態(tài)級別(Modality-level)學(xué)習(xí):包括文本重構(gòu)和圖像重構(gòu)兩個任務(wù),分別學(xué)習(xí)重構(gòu)輸入文本和圖像。團(tuán)隊引入模態(tài)級別掩碼(Modality-Level Masking)機(jī)制隨機(jī)地掩蓋一個模態(tài)信息,使得模型需要根據(jù)其他模態(tài)信息對當(dāng)前模態(tài)進(jìn)行重構(gòu),從而能夠進(jìn)行下游的跨模態(tài)生成任務(wù)。這個機(jī)制也帶來另一個好處—它使模型不僅能夠處理三模態(tài)輸入,也能處理兩模態(tài)輸入,從而適應(yīng)下游的兩模態(tài)任務(wù)。

(3)樣本級別(Sample-level)學(xué)習(xí):該預(yù)訓(xùn)練任務(wù)是通過對每個樣本隨機(jī)地替換三種模態(tài)信息中的一種或兩種,讓模型來預(yù)測替換哪些模態(tài)。

多維度自動混合并行極簡訓(xùn)練

訓(xùn)練多模態(tài)大模型,用戶需綜合考慮模型參數(shù)量、計算量、計算類型、集群帶寬拓?fù)浜蜆颖緮?shù)量等才能設(shè)計出性能較優(yōu)的并行切分策略,在考慮模型編碼算法以外,還需要編寫大量并行切分和通信代碼。

MindSpore是業(yè)界首個支持全自動并行的AI計算框架,從如下維度進(jìn)行多模態(tài)模型的加速訓(xùn)練。(1)MindSpore同時使用數(shù)據(jù)并行、算子級模型并行、Pipeline模型并行、優(yōu)化器模型并行、異構(gòu)并行、重計算、高效內(nèi)存復(fù)用多維度、全種類的分布式并行策略;(2)依托多種類、多維度的并行策略,原創(chuàng)集群拓?fù)涓兄亩嗑S度自動混合并行,實現(xiàn)超大模型自動切分,取得了比人工編寫切分策略更優(yōu)的結(jié)果,顯著提升集群加速能力;(3)基于多維混合自動并行技術(shù),原創(chuàng)新的DNN分布式并行編程范式,實現(xiàn)一行代碼完成串行算法到并行算法的切換,使得開發(fā)者可以專注算法的研究;

基于上述優(yōu)勢,MindSpore為復(fù)雜的多模態(tài)大模型提供了極好的訓(xùn)練加速能力,同時也極大減少了系統(tǒng)性能優(yōu)化的代價,大大縮短了代碼開發(fā)、調(diào)試和訓(xùn)練的周期。

實驗結(jié)果

自動化所主要采用Open Images數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù),該數(shù)據(jù)包含圖像、文本與音頻數(shù)據(jù)。此外我們也額外地使用兩模態(tài)數(shù)據(jù),如Conceptual Caption圖文數(shù)據(jù)集,Visual Genome圖文數(shù)據(jù)集等。當(dāng)加入額外的兩模態(tài)數(shù)據(jù)時,這些兩模態(tài)與三模態(tài)數(shù)據(jù)則被隨機(jī)混合進(jìn)行訓(xùn)練。

自動化所主要進(jìn)行了以下兩方面的實驗驗證:

(1)圖文音三模態(tài)關(guān)聯(lián)編碼與相互生成性能:分別在多模態(tài)融合的圖像分類、任意兩模態(tài)的相互檢索以及語音識別任務(wù)中,與常規(guī)全監(jiān)督方法進(jìn)行了性能比較,均取得了性能上的顯著提升。其中在多模態(tài)融合的圖像分類任務(wù)中,與常規(guī)全監(jiān)督的Resnet101網(wǎng)絡(luò)模型相比,性能提升5%;加入語音模態(tài)信息能夠明顯提升以文搜圖的性能,驗證了聯(lián)合建模視覺-文本-語音三模態(tài)信息的必要性。

(2)多模態(tài)下游任務(wù)性能:分別在跨模態(tài)檢索、視覺問答與圖像語義描述任務(wù)中,與

當(dāng)前最新的圖文兩模態(tài)預(yù)訓(xùn)練模型進(jìn)行了性能比較,在補(bǔ)充了圖文兩模態(tài)數(shù)據(jù)參與預(yù)訓(xùn)練的模型上,取得了具有競爭力甚至更好的實驗性能。

以圖生音示例(短視頻)

以音生圖示例(短視頻)

總結(jié)

三模態(tài)預(yù)訓(xùn)練模型的提出將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智研發(fā)范式,三模態(tài)圖文音的統(tǒng)一語義表達(dá)將大幅提升文本、語音、圖像和視頻等領(lǐng)域的基礎(chǔ)任務(wù)性能,并在多模態(tài)內(nèi)容的理解、搜索、推薦和問答,語音識別和合成,人機(jī)交互和無人駕駛等商業(yè)應(yīng)用中具有潛力巨大的市場價值。

“大數(shù)據(jù)+大模型+多模態(tài)”多任務(wù)統(tǒng)一學(xué)習(xí)將引領(lǐng)就技術(shù)發(fā)展的潮流,中科院自動化所所長徐波將在2021世界人工智能大會(WAIC)昇騰人工智能高峰論壇上介紹跨模態(tài)通用人工智能平臺,更多信息敬請關(guān)注。


文章來源:科學(xué)放大鏡


上海貿(mào)發(fā)展覽服務(wù)有限公司 深圳貿(mào)發(fā)會展服務(wù)有限公司
深圳市龍華區(qū)大浪街道陶元社區(qū)陶嚇錦華大廈703室
本站內(nèi)容歸 ?上海貿(mào)發(fā)會展服務(wù)有限公司 ?版權(quán)所有
滬ICP備17023807號-16

電話:張先生 18621271618(同微信)
傳真:021-37048779
 
主站蜘蛛池模板: 动漫啪啪高清区一区二网站| 四虎成人欧美精品在永久在线| 护士av无码在线观看| 亚洲精品国产乱码av在线观看 | 热99re久久精品这里都是精品免费| 免费国产在线一区二区| 国产综合精品久久丫| 国产未成女一区二区| 国产精品视频一区二区亚瑟| 狠狠色噜噜狠狠色综合久| 久久香蕉国产线看观看怡红院妓院| 成年男人午夜片| 无码国产午夜福利| 国产麻豆md传媒视频| 麻豆国产成人av在线播放| 在线看免费无码av天堂的| 日本二区三区欧美亚洲国产| 午夜成人影片av| 中文字幕av日韩精品一区二区| 无码人妻出轨黑人中文字幕| 曰本大码熟中文字幕| 久久人妻无码中文字幕| 亚洲日韩乱码中文无码蜜桃| 国产三级久久精品三级| 高清破外女出血av毛片| 久久精品人人做人人爽电影| 狠狠色狠狠色狠狠五月| 亚洲色欲网熟女少妇| 无码国产精品一区二区av| 国产又色又爽又黄的在线观看视频| 亚洲综合久久成人av| 亚洲欧美日韩综合久久久久 | 香蕉久久夜色精品国产尤物 | 色欲香天天综合网站| 西西大胆午夜视频无码 | 一区二区高清国产在线视频| 亚洲另类伦春色综合| 在线观看潮喷失禁大喷水无码 | 亚洲精品久久久www小说| 国产亚洲精品一区二区在线观看| 丝袜熟女国偷自产中文字幕亚洲 |