日前,中國科學(xué)院自動化所(簡稱“自動化所”)基于全場景AI計算框架MindSpore訓(xùn)練完成全球首個圖文音(視覺-文本-語音)三模態(tài)預(yù)訓(xùn)練模型(OPT-Omni-Perception pre-Trainer),該模型同時具備跨模態(tài)理解與跨模態(tài)生成能力,標(biāo)志著預(yù)訓(xùn)練模型工作獲得突破性進(jìn)展。
自GPT/Bert模型提出后,預(yù)訓(xùn)練模型迎來了爆發(fā)式發(fā)展,其具有在無監(jiān)督情況下自動學(xué)習(xí)不同任務(wù)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力,而多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能的路徑探索。然而,互聯(lián)網(wǎng)音視頻數(shù)據(jù)呈高速增長,占比超過80%,純文本的預(yù)訓(xùn)練模型只涵蓋了互聯(lián)網(wǎng)數(shù)據(jù)中的較少部分,更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學(xué)習(xí),且人類的信息獲取、環(huán)境感知、知識學(xué)習(xí)與表達(dá),都是通過多模態(tài)信息方式來執(zhí)行的。OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 在推特上發(fā)文表示,“人工智能的長期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即AI能夠?qū)W習(xí)不同模態(tài)之間的概念,從而更好地理解世界”。為實現(xiàn)更加通用的人工智能模型,預(yù)訓(xùn)練模型必然由單模態(tài)往多模態(tài)方向發(fā)展,將文本、語音、圖像、視頻等多模態(tài)內(nèi)容聯(lián)合起來進(jìn)行學(xué)習(xí)。自動化所瞄準(zhǔn)這一方向,成功構(gòu)建視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型。
目前已有的多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個模態(tài)(如圖像和文本,或者視頻和文本),忽視了周圍環(huán)境中普遍存在的語音信息,并且模型極少兼具理解與生成能力,難以在生成任務(wù)與理解類任務(wù)中同時取得良好表現(xiàn)。針對這些問題,自動化此次提出的視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型采用分別基于詞條級別(Token-level)、模態(tài)級別(Modality-level)以及樣本級別(Sample-level)的多層次、多任務(wù)子監(jiān)督學(xué)習(xí)框架,更關(guān)注圖-文-音三模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)特性以及跨模態(tài)轉(zhuǎn)換問題,對更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。該模型不僅可實現(xiàn)跨模態(tài)理解(比如圖像識別、語音識別等任務(wù)),也能完成跨模態(tài)生成(比如從文本生成圖像、從圖像生成文本、語音生成圖像等任務(wù))。靈活的自監(jiān)督學(xué)習(xí)框架可同時支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。
三模態(tài)預(yù)訓(xùn)練模型基本原理
自動化所首次提出了視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型,實現(xiàn)了三模態(tài)間相互轉(zhuǎn)換和生成。其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間,然后通過多頭自注意力機(jī)制(Multi-head Self-attention)學(xué)習(xí)模態(tài)之間的語義關(guān)聯(lián)以及特征對齊,形成多模態(tài)統(tǒng)一知識表示,再利用編碼后的多模態(tài)特征,然后通過多頭自注意力機(jī)制進(jìn)行通過解碼器分別生成文本、圖像和語音。這里三模態(tài)互相轉(zhuǎn)化和相互生成示意如圖1所示:
圖文音三模態(tài)相互轉(zhuǎn)換與生成
多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)
自動化提出的三模態(tài)預(yù)訓(xùn)練模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構(gòu)成。針對圖文音三模態(tài)數(shù)據(jù),我們提出三級預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式:詞條級別 (Token-level,Modality-level),模態(tài)級(Modality-level masking)以及樣本級別(Sample-level masking) 。具體包括:
(1)詞條級別(Token-level)學(xué)習(xí):(a)文本掩碼建模(Masked Language Modeling):隨機(jī)掩蓋一些文本單詞,需要模型根據(jù)上下文預(yù)測被掩蓋的單詞是什么;(b)視覺掩碼建模(Masked Vision Modeling):隨機(jī)掩蓋一些圖像區(qū)域,讓模型預(yù)測被掩蓋的區(qū)域;(c)語音掩碼建模(Masked Audio Modeling):隨機(jī)掩蓋一些語音詞條(token),模型需要預(yù)測被掩蓋的詞條(token)是什么。
(2)模態(tài)級別(Modality-level)學(xué)習(xí):包括文本重構(gòu)和圖像重構(gòu)兩個任務(wù),分別學(xué)習(xí)重構(gòu)輸入文本和圖像。團(tuán)隊引入模態(tài)級別掩碼(Modality-Level Masking)機(jī)制隨機(jī)地掩蓋一個模態(tài)信息,使得模型需要根據(jù)其他模態(tài)信息對當(dāng)前模態(tài)進(jìn)行重構(gòu),從而能夠進(jìn)行下游的跨模態(tài)生成任務(wù)。這個機(jī)制也帶來另一個好處—它使模型不僅能夠處理三模態(tài)輸入,也能處理兩模態(tài)輸入,從而適應(yīng)下游的兩模態(tài)任務(wù)。
(3)樣本級別(Sample-level)學(xué)習(xí):該預(yù)訓(xùn)練任務(wù)是通過對每個樣本隨機(jī)地替換三種模態(tài)信息中的一種或兩種,讓模型來預(yù)測替換哪些模態(tài)。
多維度自動混合并行極簡訓(xùn)練
訓(xùn)練多模態(tài)大模型,用戶需綜合考慮模型參數(shù)量、計算量、計算類型、集群帶寬拓?fù)浜蜆颖緮?shù)量等才能設(shè)計出性能較優(yōu)的并行切分策略,在考慮模型編碼算法以外,還需要編寫大量并行切分和通信代碼。
MindSpore是業(yè)界首個支持全自動并行的AI計算框架,從如下維度進(jìn)行多模態(tài)模型的加速訓(xùn)練。(1)MindSpore同時使用數(shù)據(jù)并行、算子級模型并行、Pipeline模型并行、優(yōu)化器模型并行、異構(gòu)并行、重計算、高效內(nèi)存復(fù)用多維度、全種類的分布式并行策略;(2)依托多種類、多維度的并行策略,原創(chuàng)集群拓?fù)涓兄亩嗑S度自動混合并行,實現(xiàn)超大模型自動切分,取得了比人工編寫切分策略更優(yōu)的結(jié)果,顯著提升集群加速能力;(3)基于多維混合自動并行技術(shù),原創(chuàng)新的DNN分布式并行編程范式,實現(xiàn)一行代碼完成串行算法到并行算法的切換,使得開發(fā)者可以專注算法的研究;
基于上述優(yōu)勢,MindSpore為復(fù)雜的多模態(tài)大模型提供了極好的訓(xùn)練加速能力,同時也極大減少了系統(tǒng)性能優(yōu)化的代價,大大縮短了代碼開發(fā)、調(diào)試和訓(xùn)練的周期。
實驗結(jié)果
自動化所主要采用Open Images數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù),該數(shù)據(jù)包含圖像、文本與音頻數(shù)據(jù)。此外我們也額外地使用兩模態(tài)數(shù)據(jù),如Conceptual Caption圖文數(shù)據(jù)集,Visual Genome圖文數(shù)據(jù)集等。當(dāng)加入額外的兩模態(tài)數(shù)據(jù)時,這些兩模態(tài)與三模態(tài)數(shù)據(jù)則被隨機(jī)混合進(jìn)行訓(xùn)練。
自動化所主要進(jìn)行了以下兩方面的實驗驗證:
(1)圖文音三模態(tài)關(guān)聯(lián)編碼與相互生成性能:分別在多模態(tài)融合的圖像分類、任意兩模態(tài)的相互檢索以及語音識別任務(wù)中,與常規(guī)全監(jiān)督方法進(jìn)行了性能比較,均取得了性能上的顯著提升。其中在多模態(tài)融合的圖像分類任務(wù)中,與常規(guī)全監(jiān)督的Resnet101網(wǎng)絡(luò)模型相比,性能提升5%;加入語音模態(tài)信息能夠明顯提升以文搜圖的性能,驗證了聯(lián)合建模視覺-文本-語音三模態(tài)信息的必要性。
(2)多模態(tài)下游任務(wù)性能:分別在跨模態(tài)檢索、視覺問答與圖像語義描述任務(wù)中,與
當(dāng)前最新的圖文兩模態(tài)預(yù)訓(xùn)練模型進(jìn)行了性能比較,在補(bǔ)充了圖文兩模態(tài)數(shù)據(jù)參與預(yù)訓(xùn)練的模型上,取得了具有競爭力甚至更好的實驗性能。
以圖生音示例(短視頻)
以音生圖示例(短視頻)
總結(jié)
三模態(tài)預(yù)訓(xùn)練模型的提出將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智研發(fā)范式,三模態(tài)圖文音的統(tǒng)一語義表達(dá)將大幅提升文本、語音、圖像和視頻等領(lǐng)域的基礎(chǔ)任務(wù)性能,并在多模態(tài)內(nèi)容的理解、搜索、推薦和問答,語音識別和合成,人機(jī)交互和無人駕駛等商業(yè)應(yīng)用中具有潛力巨大的市場價值。
“大數(shù)據(jù)+大模型+多模態(tài)”多任務(wù)統(tǒng)一學(xué)習(xí)將引領(lǐng)就技術(shù)發(fā)展的潮流,中科院自動化所所長徐波將在2021世界人工智能大會(WAIC)昇騰人工智能高峰論壇上介紹跨模態(tài)通用人工智能平臺,更多信息敬請關(guān)注。
文章來源:科學(xué)放大鏡