亚洲码国产精品高潮在线,欧美三根一起进三p,亚洲性爱区免费视频一区,激情一区二区三区视频,中文日产幕无线码一区中文

日前，中國科學(xué)院自動化所（簡稱“自動化所”）基于全場景AI計算框架MindSpore訓(xùn)練完成全球首個圖文音（視覺-文本-語音）三模態(tài)預(yù)訓(xùn)練模型（OPT-Omni-Perception pre-Trainer），該模型同時具備跨模態(tài)理解與跨模態(tài)生成能力，標(biāo)志著預(yù)訓(xùn)練模型工作獲得突破性進(jìn)展。

自GPT/Bert模型提出后，預(yù)訓(xùn)練模型迎來了爆發(fā)式發(fā)展，其具有在無監(jiān)督情況下自動學(xué)習(xí)不同任務(wù)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力，而多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能的路徑探索。然而，互聯(lián)網(wǎng)音視頻數(shù)據(jù)呈高速增長，占比超過80%，純文本的預(yù)訓(xùn)練模型只涵蓋了互聯(lián)網(wǎng)數(shù)據(jù)中的較少部分，更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學(xué)習(xí)，且人類的信息獲取、環(huán)境感知、知識學(xué)習(xí)與表達(dá)，都是通過多模態(tài)信息方式來執(zhí)行的。OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 在推特上發(fā)文表示，“人工智能的長期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò)，即AI能夠?qū)W習(xí)不同模態(tài)之間的概念，從而更好地理解世界”。為實現(xiàn)更加通用的人工智能模型，預(yù)訓(xùn)練模型必然由單模態(tài)往多模態(tài)方向發(fā)展，將文本、語音、圖像、視頻等多模態(tài)內(nèi)容聯(lián)合起來進(jìn)行學(xué)習(xí)。自動化所瞄準(zhǔn)這一方向，成功構(gòu)建視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型。

目前已有的多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個模態(tài)（如圖像和文本，或者視頻和文本），忽視了周圍環(huán)境中普遍存在的語音信息，并且模型極少兼具理解與生成能力，難以在生成任務(wù)與理解類任務(wù)中同時取得良好表現(xiàn)。針對這些問題，自動化此次提出的視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型采用分別基于詞條級別(Token-level)、模態(tài)級別(Modality-level)以及樣本級別(Sample-level)的多層次、多任務(wù)子監(jiān)督學(xué)習(xí)框架，更關(guān)注圖-文-音三模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)特性以及跨模態(tài)轉(zhuǎn)換問題，對更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。該模型不僅可實現(xiàn)跨模態(tài)理解（比如圖像識別、語音識別等任務(wù)），也能完成跨模態(tài)生成（比如從文本生成圖像、從圖像生成文本、語音生成圖像等任務(wù)）。靈活的自監(jiān)督學(xué)習(xí)框架可同時支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。

三模態(tài)預(yù)訓(xùn)練模型基本原理

自動化所首次提出了視覺-文本-語音三模態(tài)預(yù)訓(xùn)練模型，實現(xiàn)了三模態(tài)間相互轉(zhuǎn)換和生成。其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間，然后通過多頭自注意力機(jī)制（Multi-head Self-attention）學(xué)習(xí)模態(tài)之間的語義關(guān)聯(lián)以及特征對齊，形成多模態(tài)統(tǒng)一知識表示，再利用編碼后的多模態(tài)特征，然后通過多頭自注意力機(jī)制進(jìn)行通過解碼器分別生成文本、圖像和語音。這里三模態(tài)互相轉(zhuǎn)化和相互生成示意如圖1所示：

圖文音三模態(tài)相互轉(zhuǎn)換與生成

多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)

自動化提出的三模態(tài)預(yù)訓(xùn)練模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構(gòu)成。針對圖文音三模態(tài)數(shù)據(jù)，我們提出三級預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式：詞條級別 (Token-level,Modality-level)，模態(tài)級（Modality-level masking）以及樣本級別（Sample-level masking) 。具體包括：

（1）詞條級別(Token-level)學(xué)習(xí)：（a）文本掩碼建模(Masked Language Modeling)：隨機(jī)掩蓋一些文本單詞，需要模型根據(jù)上下文預(yù)測被掩蓋的單詞是什么；（b）視覺掩碼建模(Masked Vision Modeling)：隨機(jī)掩蓋一些圖像區(qū)域，讓模型預(yù)測被掩蓋的區(qū)域；（c）語音掩碼建模(Masked Audio Modeling)：隨機(jī)掩蓋一些語音詞條(token)，模型需要預(yù)測被掩蓋的詞條(token)是什么。

（2）模態(tài)級別(Modality-level)學(xué)習(xí)：包括文本重構(gòu)和圖像重構(gòu)兩個任務(wù)，分別學(xué)習(xí)重構(gòu)輸入文本和圖像。團(tuán)隊引入模態(tài)級別掩碼(Modality-Level Masking)機(jī)制隨機(jī)地掩蓋一個模態(tài)信息，使得模型需要根據(jù)其他模態(tài)信息對當(dāng)前模態(tài)進(jìn)行重構(gòu)，從而能夠進(jìn)行下游的跨模態(tài)生成任務(wù)。這個機(jī)制也帶來另一個好處—它使模型不僅能夠處理三模態(tài)輸入，也能處理兩模態(tài)輸入，從而適應(yīng)下游的兩模態(tài)任務(wù)。

（3）樣本級別(Sample-level)學(xué)習(xí)：該預(yù)訓(xùn)練任務(wù)是通過對每個樣本隨機(jī)地替換三種模態(tài)信息中的一種或兩種，讓模型來預(yù)測替換哪些模態(tài)。

多維度自動混合并行極簡訓(xùn)練

訓(xùn)練多模態(tài)大模型，用戶需綜合考慮模型參數(shù)量、計算量、計算類型、集群帶寬拓?fù)浜蜆颖緮?shù)量等才能設(shè)計出性能較優(yōu)的并行切分策略，在考慮模型編碼算法以外，還需要編寫大量并行切分和通信代碼。

MindSpore是業(yè)界首個支持全自動并行的AI計算框架，從如下維度進(jìn)行多模態(tài)模型的加速訓(xùn)練。（1）MindSpore同時使用數(shù)據(jù)并行、算子級模型并行、Pipeline模型并行、優(yōu)化器模型并行、異構(gòu)并行、重計算、高效內(nèi)存復(fù)用多維度、全種類的分布式并行策略；（2）依托多種類、多維度的并行策略，原創(chuàng)集群拓?fù)涓兄亩嗑S度自動混合并行，實現(xiàn)超大模型自動切分，取得了比人工編寫切分策略更優(yōu)的結(jié)果，顯著提升集群加速能力；（3）基于多維混合自動并行技術(shù)，原創(chuàng)新的DNN分布式并行編程范式，實現(xiàn)一行代碼完成串行算法到并行算法的切換，使得開發(fā)者可以專注算法的研究；

基于上述優(yōu)勢，MindSpore為復(fù)雜的多模態(tài)大模型提供了極好的訓(xùn)練加速能力，同時也極大減少了系統(tǒng)性能優(yōu)化的代價，大大縮短了代碼開發(fā)、調(diào)試和訓(xùn)練的周期。

實驗結(jié)果

自動化所主要采用Open Images數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)，該數(shù)據(jù)包含圖像、文本與音頻數(shù)據(jù)。此外我們也額外地使用兩模態(tài)數(shù)據(jù)，如Conceptual Caption圖文數(shù)據(jù)集，Visual Genome圖文數(shù)據(jù)集等。當(dāng)加入額外的兩模態(tài)數(shù)據(jù)時，這些兩模態(tài)與三模態(tài)數(shù)據(jù)則被隨機(jī)混合進(jìn)行訓(xùn)練。

自動化所主要進(jìn)行了以下兩方面的實驗驗證：

（1）圖文音三模態(tài)關(guān)聯(lián)編碼與相互生成性能：分別在多模態(tài)融合的圖像分類、任意兩模態(tài)的相互檢索以及語音識別任務(wù)中，與常規(guī)全監(jiān)督方法進(jìn)行了性能比較，均取得了性能上的顯著提升。其中在多模態(tài)融合的圖像分類任務(wù)中，與常規(guī)全監(jiān)督的Resnet101網(wǎng)絡(luò)模型相比，性能提升5%；加入語音模態(tài)信息能夠明顯提升以文搜圖的性能，驗證了聯(lián)合建模視覺-文本-語音三模態(tài)信息的必要性。

（2）多模態(tài)下游任務(wù)性能：分別在跨模態(tài)檢索、視覺問答與圖像語義描述任務(wù)中，與

當(dāng)前最新的圖文兩模態(tài)預(yù)訓(xùn)練模型進(jìn)行了性能比較，在補(bǔ)充了圖文兩模態(tài)數(shù)據(jù)參與預(yù)訓(xùn)練的模型上，取得了具有競爭力甚至更好的實驗性能。

以圖生音示例（短視頻）

以音生圖示例（短視頻）

總結(jié)

三模態(tài)預(yù)訓(xùn)練模型的提出將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智研發(fā)范式，三模態(tài)圖文音的統(tǒng)一語義表達(dá)將大幅提升文本、語音、圖像和視頻等領(lǐng)域的基礎(chǔ)任務(wù)性能，并在多模態(tài)內(nèi)容的理解、搜索、推薦和問答，語音識別和合成，人機(jī)交互和無人駕駛等商業(yè)應(yīng)用中具有潛力巨大的市場價值。

“大數(shù)據(jù)+大模型+多模態(tài)”多任務(wù)統(tǒng)一學(xué)習(xí)將引領(lǐng)就技術(shù)發(fā)展的潮流，中科院自動化所所長徐波將在2021世界人工智能大會（WAIC）昇騰人工智能高峰論壇上介紹跨模態(tài)通用人工智能平臺，更多信息敬請關(guān)注。

文章來源：科學(xué)放大鏡