2021年8月16日,Nature Chemistry雜志發(fā)表了一篇南安普頓大學(xué)物理化學(xué)教授、AI3SD Network+首席研究員Jeremy Frey的專訪文章。在這篇文章中,Jeremy Frey談?wù)摿藱C(jī)器學(xué)習(xí)數(shù)據(jù)質(zhì)量不確定性的危險(xiǎn)以及人工智能與其他技術(shù)的協(xié)同作用。
以下是全文內(nèi)容。
您是AI3SD Network+的主要研究者,能解釋一下什么是AI3SD Network+嗎?
這個(gè)Network的成功要?dú)w功于我的合作研究者M(jìn)ahesan Niranjan、我們非常有效的網(wǎng)絡(luò)協(xié)調(diào)人Samantha Kanza以及由John Overington教授主持的積極和支持性的咨詢委員會(huì)。在我們的第一個(gè)咨詢委員會(huì)上,有人指出,我們應(yīng)該再加一個(gè)"AI",然后我們就可以有AI4ScienceDiscovery的縮寫了。不幸的是,ai4science.org這個(gè)地址已經(jīng)被占用了,但我們確實(shí)計(jì)劃在未來使用ai4science.network。然而,我們一直在爭(zhēng)論第四個(gè)"AI"到底應(yīng)該是什么。
Network想要實(shí)現(xiàn)的是什么?你們又選擇了哪些化學(xué)領(lǐng)域作為重點(diǎn)?
Jeremy Frey:EPSRC呼吁建立一個(gè)網(wǎng)絡(luò),將前沿科學(xué)與前沿的人工智能計(jì)算結(jié)合起來。雖然有合理的資金,但肯定不足以覆蓋所有的科學(xué),所以我們的申請(qǐng)集中在化學(xué)和材料的相關(guān)領(lǐng)域。我們的目標(biāo)是將參與人工智能前沿的研究人員,包括傳統(tǒng)的知識(shí)工程方面和最近的機(jī)器學(xué)習(xí)方面的,與參與實(shí)驗(yàn)和理論化學(xué)的研究人員結(jié)合起來。我們一直試圖保持對(duì)化學(xué)的廣泛關(guān)注。我們資助的許多項(xiàng)目都來自藥物發(fā)現(xiàn)或材料設(shè)計(jì),并有化學(xué)家、計(jì)算機(jī)科學(xué)家和數(shù)學(xué)家參與。在我們的研討會(huì)主題中,我們確保對(duì)分子和材料特性有更廣泛的見解。
因?yàn)榭茖W(xué)發(fā)現(xiàn)是這個(gè)Network的重點(diǎn),我們不僅希望找出相關(guān)模式(就像在使用機(jī)器學(xué)習(xí)方法時(shí)經(jīng)常做的那樣),我們還質(zhì)疑傳統(tǒng)的發(fā)現(xiàn)意味著什么,以及未來在人工智能的協(xié)助下它將意味著什么,因此我們讓科學(xué)哲學(xué)家Will McNeill成為聯(lián)盟的一員。
就個(gè)人而言,這個(gè)Network提供了一個(gè)絕佳的機(jī)會(huì),讓我們能夠認(rèn)識(shí)、欣賞并學(xué)習(xí)計(jì)算機(jī)科學(xué)和化學(xué)領(lǐng)域的同事們的經(jīng)驗(yàn)和研究,包括來自國(guó)內(nèi)和國(guó)際的學(xué)術(shù)界、工業(yè)界和政府的。
是什么讓這些科學(xué)領(lǐng)域適合使用人工智能和機(jī)器學(xué)習(xí)的方法?是否有任何你認(rèn)為不適合這些方法的化學(xué)領(lǐng)域或方面?
Jeremy Frey:在我們所有的研討會(huì)、會(huì)談和討論中,出現(xiàn)的一個(gè)一致的主題是對(duì)數(shù)據(jù)的需求;很少有足夠的數(shù)據(jù),而且現(xiàn)有的數(shù)據(jù)往往是質(zhì)量不確定的(質(zhì)量不確定的問題,比質(zhì)量差的問題多)。因此,有可用數(shù)據(jù)的領(lǐng)域(例如高通量合成和表征)是機(jī)器學(xué)習(xí)的明確應(yīng)用領(lǐng)域,甚至有可能支持深度學(xué)習(xí)方法。然而,在極少數(shù)情況下,將AI/ML應(yīng)用中的深度學(xué)習(xí)類型,應(yīng)用到使用計(jì)算機(jī)生成數(shù)據(jù)的工作中(即一個(gè)程序與自己的“游戲”),是有機(jī)會(huì)的。
在訓(xùn)練和測(cè)試數(shù)據(jù)集上進(jìn)行高水平的量子力學(xué)/量子化學(xué)(QM/QC)計(jì)算時(shí),會(huì)出現(xiàn)可用計(jì)算機(jī)功率的問題。這種問題甚至限制了AI/ML在量子化學(xué)中的應(yīng)用。在這種情況下,ML被用來提高低級(jí)量子力學(xué)計(jì)算的準(zhǔn)確性。類似的考慮也適用于分子動(dòng)力學(xué)模擬,其中ML技術(shù)被用來加速整合。
人工智能常常需要大量的數(shù)據(jù),然而在測(cè)量化學(xué)實(shí)驗(yàn)的結(jié)果(如反應(yīng)產(chǎn)量或速率)時(shí)通常會(huì)有誤差,而且通常這些特性的測(cè)量精度有限。業(yè)界如何解決這個(gè)問題?你認(rèn)為這主要是一個(gè)實(shí)驗(yàn)問題還是軟件問題?
Jeremy Frey:正如我在回答前一個(gè)問題時(shí)所說,數(shù)據(jù)是至關(guān)重要的。目前的ML方法當(dāng)然需要大量高質(zhì)量的數(shù)據(jù)(當(dāng)不確定性被理解后,ML方法會(huì)利用差的數(shù)據(jù)。使用ML方法過濾掉質(zhì)量差的數(shù)據(jù)也是可能的,但那樣就限制了可用數(shù)據(jù)的廣度)。原則上,只要我們有合成和表征的高通量技術(shù)(不需要很多物質(zhì)本身),許多化學(xué)特性都有足夠的數(shù)據(jù)。對(duì)于更多變量的數(shù)據(jù)來說,獲得高質(zhì)量的數(shù)據(jù)要困難得多,如反應(yīng)產(chǎn)率,它可能嚴(yán)重依賴于條件。所以有一個(gè)更大的實(shí)驗(yàn)空間需要覆蓋。當(dāng)涉及到生物反應(yīng)時(shí),就會(huì)有更大的可變性,因此也就有更大的難度。我們需要規(guī)模化的工作,并提高可靠性,因此硬件和軟件/數(shù)據(jù)問題都會(huì)存在。
看待這個(gè)問題的一個(gè)相關(guān)方式是,這與經(jīng)典的模式識(shí)別系統(tǒng)不同(例如用于自動(dòng)駕駛汽車的計(jì)算機(jī)視覺,收集大量的數(shù)據(jù)是可行的和可取的)。科學(xué)發(fā)現(xiàn)作為一個(gè)問題領(lǐng)域,帶有在更經(jīng)典的物理模型中捕獲的廣泛的先驗(yàn)知識(shí)。在不太龐大的數(shù)據(jù)體系中,面臨的挑戰(zhàn)是如何結(jié)合數(shù)據(jù)驅(qū)動(dòng)的模型來利用這些知識(shí)。在我們的研討會(huì)上,我們已經(jīng)研究了許多這樣的方法論。
您認(rèn)為人工智能的哪些方面最容易被廣大科學(xué)界誤解?又能做些什么來解決這個(gè)問題?
Jeremy Frey:人工智能究竟能實(shí)現(xiàn)什么?業(yè)界可能希望AI能對(duì)預(yù)測(cè)分子特性做些什么。然而,與業(yè)界許多人更廣泛的想象(預(yù)測(cè)復(fù)雜成分的特性,如用于藥物輸送、材料涂層、功能材料和生物相互作用的預(yù)測(cè))相比,AI仍然是有限的。即使是那些認(rèn)識(shí)到現(xiàn)有數(shù)據(jù)的局限性阻礙了ML的應(yīng)用的人,也可能認(rèn)為只要我們有大量的數(shù)據(jù),那么天空就是極限。現(xiàn)實(shí)是,化學(xué)的異質(zhì)性和復(fù)雜性仍然超過了計(jì)算能力。需要將ML和計(jì)算化學(xué)和新的洞察力結(jié)合起來。
偏見的問題存在于AI/ML在化學(xué)的應(yīng)用中。也許并不像其他一些領(lǐng)域那樣嚴(yán)重。由于訓(xùn)練集的選擇沒有通過測(cè)試集進(jìn)行,因而產(chǎn)生了意外偏差,這是眾所周知的,但很容易被遺忘。這與化學(xué)的多樣性密切相關(guān),并促使人們對(duì)相似/不相似的化合物集開展了大量的工作。擴(kuò)大一些視野,例如藥物設(shè)計(jì)中的應(yīng)用也會(huì)陷入同樣的陷阱,即訓(xùn)練集如何影響可能的結(jié)果,以及訓(xùn)練集對(duì)全球業(yè)界的不同單位多大程度上合適。在極限的情況下,我們?nèi)绾翁幚韨€(gè)性化的醫(yī)學(xué),難道為我們每個(gè)人建立一個(gè)ML模型?
基于人工智能的技術(shù)可以是強(qiáng)大的方法,但有時(shí)該領(lǐng)域的成就是否被過度炒作?對(duì)于試圖評(píng)估獲益是否超出數(shù)據(jù)和結(jié)果支持范圍的非專業(yè)人士,您有什么建議嗎?或者有什么非專家應(yīng)該注意的化學(xué)論文中的常見問題?
Jeremy Frey:一定要仔細(xì)研究化學(xué)問題。使用的是什么數(shù)據(jù)?分子或材料是什么樣子的?模型的輸出與輸入有什么不同?推薦的分子是否真的能解決問題?它們是潛在的藥物還是經(jīng)過測(cè)試的藥物?是建議的材料還是在設(shè)備中測(cè)試過的材料?是否提供了輸入數(shù)據(jù)和模型的解釋?這些都是無意中出現(xiàn)偏差的地方。
這個(gè)Network關(guān)注的關(guān)鍵問題是 "為什么該模型給出了這些預(yù)測(cè)?",建議的藥物或材料是否照亮了化學(xué)的新思路或?yàn)榛瘜W(xué)服務(wù)?這些模型的可解釋性,對(duì)于理解AI/ML為化學(xué)帶來的改變是非常重要的。這些問題也有助于Network從哲學(xué)角度思考AI如何改變化學(xué)發(fā)現(xiàn)的本質(zhì)。
對(duì)于方法、數(shù)據(jù)或定制軟件,您是否希望業(yè)界采用任何報(bào)告標(biāo)準(zhǔn),以促進(jìn)工作的重復(fù)使用和復(fù)制?
Jeremy Frey:數(shù)據(jù)的標(biāo)準(zhǔn)化還遠(yuǎn)未完成或達(dá)成一致,但事情正在變得更好。在描述ML模型的標(biāo)準(zhǔn)方面,業(yè)界還有很長(zhǎng)的路要走。我們確實(shí)有整體的FAIR原則,它同樣適用于數(shù)據(jù)和工作的所有方面。像Jupyter notebooks這樣的工具和能讀寫的編程非常適用于化學(xué)中的ML工作。總的來說,我支持使用盡可能多的開源和開放科學(xué)工具,但也要充分認(rèn)識(shí)到優(yōu)質(zhì)商業(yè)軟件的范圍越來越大。即使在使用商業(yè)代碼時(shí),也必須能夠描述數(shù)據(jù)是如何被操作的,并確保數(shù)據(jù)模型可以使用開放格式進(jìn)行交換。
這些想法與解釋ML模型的能力也是相輔相成的。Network的主旨在于科學(xué)發(fā)現(xiàn)。獲得一個(gè)問題的解決方案(例如,下一種藥物、下一種材料的制造、如何優(yōu)化設(shè)計(jì))只是發(fā)現(xiàn)之旅的一部分。需要理解 "為什么"。為什么ML系統(tǒng)得出了這個(gè)答案?這是一個(gè)偏見的例子嗎?我們能說明和解釋這個(gè)結(jié)果嗎(即使是后見之明)?我們學(xué)到了什么?我們能從這些模型中提取新的理論和想法嗎?這顯然是發(fā)現(xiàn)的關(guān)鍵(ML成為實(shí)驗(yàn)的一部分)。
我們可以進(jìn)一步展望未來,詢問AI/ML方法是否不僅可以提供一個(gè)結(jié)果,提供一個(gè)理解 "為什么"的途徑,還可以開始幫助問 "什么"。增強(qiáng)的智能系統(tǒng)是否也能幫助提出假說?在復(fù)雜化學(xué)的某些領(lǐng)域,如功能材料和與生物學(xué)的相互作用,系統(tǒng)的復(fù)雜性使AI可以通過這種方式產(chǎn)生重大影響。
基于AI的技術(shù)與機(jī)器人技術(shù)和自動(dòng)檢測(cè)分析有一些明顯的協(xié)同作用。你認(rèn)為目前有哪些瓶頸限制了向更自主的綜合系統(tǒng)的發(fā)展?
Jeremy Frey:人工智能和機(jī)器人技術(shù)之間的協(xié)同作用是非常有趣的。這些想法可能在自主汽車/駕駛和機(jī)器人手術(shù)中最清楚。在化學(xué)領(lǐng)域,實(shí)驗(yàn)室機(jī)器人有很大的潛力,我懷疑目前主要是在工業(yè)實(shí)驗(yàn)室(由于成本原因),但隨著我們看到機(jī)器人在幾乎消費(fèi)者級(jí)別上的采用,我們可以期待在實(shí)驗(yàn)室看到更多的機(jī)器人。現(xiàn)在有許多黑暗的實(shí)驗(yàn)室,實(shí)際上是完全自動(dòng)化的,可供研究人員使用。當(dāng)然,外包合成和測(cè)量已經(jīng)有很長(zhǎng)一段時(shí)間了,對(duì)于用戶來說,也許該實(shí)驗(yàn)室是由機(jī)器人還是由人操作并不重要,盡管成本和產(chǎn)量可能有所不同。
我認(rèn)為許多化學(xué)過程的復(fù)雜性是對(duì)機(jī)器人作用的一種限制。研究人員在簡(jiǎn)化過程和標(biāo)準(zhǔn)化合成方面已經(jīng)做了很多工作,例如利用流動(dòng)技術(shù),在這些領(lǐng)域,機(jī)器人技術(shù)的使用已經(jīng)很先進(jìn)。也許在另一個(gè)極端,定制的物理化學(xué)實(shí)驗(yàn)以一種不同的,但仍然非常重要的方式受益于自動(dòng)化和計(jì)算機(jī)控制,這是已經(jīng)推動(dòng)了多年的實(shí)驗(yàn)。然而,人工智能技術(shù)的興起有可能徹底改變從原始實(shí)驗(yàn)數(shù)據(jù)中提取信息(和知識(shí))的方式,從而改變哪些實(shí)驗(yàn)可能需要進(jìn)行這個(gè)問題的本質(zhì)。
有什么具體的技術(shù)是你希望看到的,可以擴(kuò)大人工智能和機(jī)器學(xué)習(xí)方法的效用?
Jeremy Frey:我們需要了解如何基于比最近許多ML工作所需的更小的數(shù)據(jù)量來進(jìn)行預(yù)測(cè)。我們可以把這稱為小型深度學(xué)習(xí)。這項(xiàng)研究超越了化學(xué)應(yīng)用,當(dāng)然在AI/ML遇到人類學(xué)習(xí)的地方非常重要。具體到化學(xué),我們需要開發(fā)處理能量/結(jié)構(gòu)“地形圖”的方法,也就是三維結(jié)構(gòu)/構(gòu)型,因?yàn)檫@在分子之間的相互作用中至關(guān)重要,無論是復(fù)雜的混合物、材料還是生物相互作用。
ML中經(jīng)常出現(xiàn)的問題是處理高維空間,數(shù)據(jù)相對(duì)稀疏,因此需要降維。雖然這是深度學(xué)習(xí)經(jīng)常遇到的問題,但考慮到化學(xué)數(shù)據(jù)的性質(zhì),在算法和數(shù)學(xué)基礎(chǔ)上的持續(xù)工作將對(duì)化學(xué)應(yīng)用非常有用。對(duì) "不確定性"的更好理解、量化和建模將是有用的。正如上面提到的對(duì)高質(zhì)量數(shù)據(jù)的需求,當(dāng)我們部署人工智能系統(tǒng)時(shí),它的局限性當(dāng)然是"垃圾進(jìn)-垃圾出"問題。也就是說,一個(gè)經(jīng)過訓(xùn)練的人工智能模型總是會(huì)產(chǎn)生一個(gè)輸出,即使是在它沒有被訓(xùn)練過的環(huán)境中也是如此。適當(dāng)?shù)亓炕淮_定性,并對(duì)這些預(yù)測(cè)的信心水平進(jìn)行預(yù)測(cè),這往往是至關(guān)重要的。建立在貝葉斯推理原則基礎(chǔ)上的方法有助于做到這一點(diǎn),但將它們擴(kuò)展到非常大和復(fù)雜的模型仍然具有挑戰(zhàn)性。
考慮到化學(xué)空間,我們確實(shí)需要對(duì)這個(gè)概念有更好的理解,當(dāng)然最理想的是,我們?nèi)匀恍枰粡埢瘜W(xué)空間的地圖。我們可以期望這樣的地圖是什么樣子的,這可能是一個(gè)不同的討論主題,并導(dǎo)致對(duì)化學(xué)作為導(dǎo)航與發(fā)現(xiàn)的思考。一個(gè)靜態(tài)的化學(xué)地圖的概念永遠(yuǎn)不會(huì)反映這個(gè)學(xué)科的多樣性和靈活性。分子或材料結(jié)構(gòu)的概念隱含地涉及時(shí)間和能量,并取決于分子的環(huán)境或它的用途。物種之間的轉(zhuǎn)化也同樣重要,所以在很多方面,我們要尋找的不僅僅是一張地圖,甚至不是一張疊加了路徑的地圖,而是對(duì)化學(xué)時(shí)空的真實(shí)描述。我希望,通過可解釋的人工智能模型,我們可以開始建立化學(xué)時(shí)空的區(qū)域,并獲得真正的洞察力和實(shí)際應(yīng)用。
任何有助于理解化學(xué)與生物學(xué)互動(dòng)的技術(shù)都將支持對(duì)藥物、農(nóng)業(yè)化學(xué)品和環(huán)境可持續(xù)材料的更好預(yù)測(cè)。
量子計(jì)算機(jī)是新技術(shù)的一個(gè)例子,它將成為能夠?qū)瘜W(xué)產(chǎn)生重大影響的技術(shù),因?yàn)榭捎玫牧孔颖忍氐臄?shù)量正在迅速增加。在我看來,它們將不僅僅被用來進(jìn)行量子化學(xué)計(jì)算,還可以做一些事情,比如處理龐大的化學(xué)空間的有效搜索。但是,由于在傳統(tǒng)計(jì)算機(jī)的化學(xué)編程方面投入了大量的精力,量子計(jì)算機(jī)在解決化學(xué)問題方面的速度還需要一些時(shí)間。展望未來,Network正計(jì)劃舉辦一些關(guān)于量子計(jì)算機(jī)化學(xué)編程的研討會(huì)。
您希望看到數(shù)字基礎(chǔ)設(shè)施的哪些改進(jìn),以幫助和支持化學(xué)界更廣泛地使用人工智能和機(jī)器學(xué)習(xí)技術(shù)?
Jeremy Frey:我們當(dāng)然需要一個(gè)更先進(jìn)的全球基礎(chǔ)設(shè)施。鼓勵(lì)帶有盡可能多的元數(shù)據(jù)(語義信息)的存儲(chǔ)庫(kù)。理想情況下,元數(shù)據(jù)應(yīng)該是機(jī)器和人類可讀的,有背景故事,以使業(yè)界能夠最好地利用我們擁有的數(shù)據(jù)。我們有這個(gè)故事的元素,但它們遠(yuǎn)遠(yuǎn)不夠完整或易于使用。
基于云的系統(tǒng)正在使定制的硬件可用,以滿足ML和QC的對(duì)比需求,甚至量子計(jì)算機(jī)也可以通過這種方式獲得。我們需要開始培訓(xùn)化學(xué)家來使用這些系統(tǒng)。本科化學(xué)課程的重新設(shè)計(jì)正在進(jìn)行中,但高素質(zhì)化學(xué)家的再培訓(xùn)機(jī)會(huì)也將非常重要。同樣重要的是把化學(xué)的新能力帶給年輕的觀眾,親身體驗(yàn)化學(xué)和人工智能的推廣是必須的。
文章來源:智藥邦