瑜伽常識 /MANUAL
JN江南·體育最新官網(wǎng)入口AlphaFold3深度評論:提升的、能做的和做不到的
JN江南·體育最新官網(wǎng)入口AlphaFold3深度評論:提升的、能做的和做不到的AlphaFold3發(fā)布后,盡管對于生物醫(yī)藥界意義深遠,但對于業(yè)內的震撼似乎遠遠小于AlphaFold2。
AlphaFold2當時在CASP14上進行盲測,打敗其他對手而名聲大噪;而AlphaFold3則使用了基準測試數(shù)據(jù)集,這些數(shù)據(jù)集通常被精心編譯過。
那么AlphaFold3究竟有哪些提升?近日,牛津大學的人工智能科學研究員兼生物化學老師Eric Schmidt發(fā)表了一篇關于AlphaFold3的深度測評文章。
Eric對AlphaFold3的模型架構和技術細節(jié)進行了研究,并且推測哪些是重要的,哪些是不重要的。還討論AlphaFold3如何影響techbio的不同領域。
從模型上看,AF3和AF2的架構非常相似。如果說 AlphaFold2代表了范式轉變,那么AlphaFold3則擁有相似的架構。
該模型分為兩個模塊:一個從多個序列比對中捕獲協(xié)同進化信息,另一個將這些推論轉換為蛋白質的三維坐標。除此之外,還有一個置信度預測,用于給出輸出結果的可信程度。
不過AlphaFold3仍然有不少改進和驚喜。第一個驚喜是,該模型對協(xié)同進化信息的強調已經(jīng)大大減少。
作者認為,從多序列比對中提取信息的能力是 AlphaFold 2 的秘訣。協(xié)同進化包含大量關于蛋白質結構的信息,而 AlphaFold 2 中的算法是一種非常聰明的提取方法。
畢竟,一種蛋白質有太多可能的構象,即使使用最先進的搜索算法,也無法手動探索它們并找到最佳構象。早在 AlphaFold 2 之前,就已經(jīng)建立了挖掘結構接近的殘基對,然后通過約束優(yōu)化構建合理模型的方法。
上一代 AlphaFold 中使用的策略是將兩種學習表示結合起來,一種是“對表示”,捕獲推斷的結構信息,另一種是“MSA 表示”,捕獲協(xié)同進化,兩種表示不斷交換信息以達到推理。然而在AlphaFold3中,這兩個表示被合并為一個單對表示。
第二個驚喜是,AlphaFold2使用的是注意力機制,然而在 AlphaFold 3 中,該架構甚至不再基于注意力,而是使用“相對標準”的擴散模型,與DALL-E,StableDiffusion等背后的技術相同。擴散模型已廣泛用于蛋白質設計工作,如 Chroma 和 RFDiffusion-AA 都使用由其位置和旋轉定義的理想化殘基。
作者非常認同DeepMind在擴散模型上的成功,因為很多關于擴散模型的研究或多或少地失敗了。
AlphaFold 3 在如此簡單的架構下的出色性能可能會引起整個領域的思考——明年在基于擴散的設計方面會有一些令人興奮的改進。
對于蛋白質復合物,運行交叉蒸餾方法,使用 AlphaFold Multimer v2.3 預測多個復合物,并在此基礎上進行訓練;對于RNA,他們使用預測結構;而對于DNA,他們使用一堆增強算法,如來自JASPAR的數(shù)據(jù)。然而,對于配體它們只使用PDB。
同樣,Eric對AlphaFold3在配體上的表現(xiàn)感到驚訝,特別是僅在PDB有限的數(shù)據(jù)中學習了大量知識,懷疑該模型是否以某種方式學習了分子間相互作用的物理原理。
例如根據(jù)使用網(wǎng)頁版AlphaFold3的結果,它大致再現(xiàn)了電解溶液的結構,并且當人們將一堆脂質添加到跨膜蛋白中時,它會形成假膜,這表明它具有一定程度的物理化學理解。一項基準測試表明,排名分數(shù)還捕獲了突變如何改變蛋白質-蛋白質結合親和力的重要特征。
最受關注的還是蛋白質-配體預測,因為大多數(shù)藥物的作用原理是與目標蛋白質結合,如果有一個能夠告訴分子與蛋白質結合位置和方式的模型,肯定是藥物發(fā)現(xiàn)的強有力工具。
蛋白質-配體復合物預測有許多基準,近期主流的是由 OPIGlet Martin Buttenschoen 提出的PoseBusters。該基準包含許多先前確定的蛋白質-配體晶體結構,并評估預測位置和真實位置之間的相似性。
AutoDock Vina不是最先進的,但它是使用最廣泛的分子對接模擬工具之一,并且是PoseBusters論文中表現(xiàn)最好的。這個改進表明 AlphaFold 3 可以生成具有物理意義的構象,并且它們與實驗中得到的構象非常相似。
蛋白質-配體相互作用領域預測事實上都不夠好。這些模型經(jīng)常輸出錯誤的結果,或者有非常大的偏見,PDB中的大多數(shù)結構都是易于結晶和研究的蛋白質,具有一定的治療相關性,并且屬于一組與治療相關的靶點。
想一想:如果在激酶的結構上訓練一個模型,它就會知道任何看起來像ATP的東西都應該進入ATP結合位點。出于這個原因,令人震驚的是,DeepMind沒有用以前未確定的晶體結構來驗證該模型。
另一個問題是這些預測的局限性有多大。論文中提到了E3連接酶的情況,它可以采用兩種不同的結構:在沒有配體的情況下處于開放狀態(tài);和閉合狀態(tài),當綁定到它時。然而,當對有和沒有配體的 E3 連接酶進行預測時,AlphaFold 3 總是預測閉合狀態(tài)。
這是一個有點令人失望的結果,因為共折疊方法已經(jīng)假設針對具有誘導構象變化的靶標設計藥物,甚至是僅在蛋白質的一種構象形式中顯而易見的隱秘口袋。
還有需要考慮到的落地因素:將AF3進行蛋白質-配體預測需要多長時間。對于蛋白質-配體對來說,使用AutoDock Vina等工具進行分子對接需要一分鐘的時間 。
這意味著,如果要想評估一個大型的潛在藥物樣分子庫,例如包含70億個化合物Enamine REAL庫,成本將急劇飆升,這都會影響AF3的適用性。
除小分子之外,抗體與其他蛋白質的相互作用也非常重要,因為當前抗體藥物已經(jīng)是生物醫(yī)藥的重要治療藥物。
AlphaFold2對于抗體結構預測的基本上束手無策。因為它很難預測缺乏進化信息的蛋白質(例如抗體)、結構依賴于環(huán)境條件的蛋白質(例如膜蛋白)以及具有無序區(qū)域的蛋白質(例如IDP)的結構。
AlphaFold 3 似乎實現(xiàn)了抗體-抗原相互作用的性能,這與 AlphaFold 2 Multimer 在一般蛋白質-蛋白質相互作用方面的表現(xiàn)大致相似。論文圖中顯示的結構似乎是高質量的,并且根據(jù)報告的相互作用分數(shù),表位鑒定似乎有所改善。
然而,一個明顯的遺漏是,模型中沒有關于側鏈預測質量的報告。這一點非常重要,因為了解哪些特定的相互作用決定了特異性對于蛋白質工程非常重要,例如,對于生產(chǎn)能夠改進溶解度、穩(wěn)定性或免疫原性的抗體。
還有另一個有趣的點,論文中指出,為了獲得最高的準確性,可能需要生成大量的預測并對其進行排名。在其中一張圖(見下文)中,作者展示了當他們生成1000個抗體(就他們的預測置信度而言)而不是一個時,性能的巨大提高,幾乎翻了一番。
結果似乎很有希望??贵w是工業(yè)界和學術界的熱門領域,更好地預測抗體如何與其抗原相互作用無疑是在制造更好的藥物和診斷方法方面向前邁出的一步。
好消息是 AlphaFold 服務器對蛋白質沒有限制,很多團隊已經(jīng)在對 AlphaFold 3 進行抗體結構預測任務的基準測試。
使用類似AlphaFold的技術來預測蛋白質-DNA相互作用的想法并不稀奇,目前最先進的技術是RoseTTAFold2NA,根據(jù)RoseTTAFold調整拓展而來。
通過對比,可以看到AlphaFold3在PDB結構上的蛋白質-DNA 和蛋白質-RNA 相互作用顯示出了改進作用。
雖然AlphaFold3的表現(xiàn)不如最佳方法 Alchemy-RNA,但它非常接近,后者是一種依賴手動輸入的方法。
使AlphaFold 2預測轉錄因子的結構時,通常會得到很多雜亂無章的結構,除了可能對應于一個保守基序(例如鋅指結構)的清晰結構之外。
另一方面,當預測與DNA結合的轉錄因子的結構時,結構則更明確——這與內在無序蛋白的一個核心原則相符,即它們在與結合伙伴存在時會采取合理的結構。
作為非核酸專家,作者認為這些結構看起來是合理的,完全符合對蛋白質-DNA結構的期望。有可能轉錄因子-蛋白質結構的結果是來自JASPAR數(shù)據(jù)庫的增強信息。
AlphaFold 3 的最后一個賣點是它預測非經(jīng)典氨基酸的能力,非經(jīng)典氨基酸對于合成天然產(chǎn)物、設計多肽和藥物分子的結構非常重要。
這種解釋這些不尋常氨基酸的能力使AlphaFold 3能夠創(chuàng)建更準確的蛋白質結構模型,并研究一系列新的問題。
例如“減肥神藥”司美格魯肽用機制可以簡化為模仿天然腸道激素GLP-1的非經(jīng)典氨基酸。這種工程氨基酸不能像天然氨基酸那樣容易被酶分解,從而產(chǎn)生更持久的效果。
更廣泛地說,翻譯后修飾對于理解生物分子的生物行為至關重要。例如,抗體在特定位置被高度糖基化,這種修飾對于抗體的穩(wěn)定性和信號能力都至關重要。蛋白質組中的許多蛋白質都受磷酸化調節(jié):添加一個帶高度負電荷的基團會誘導構象變化。
AlphaFold 3 摻入非經(jīng)典氨基酸的能力肯定會有助于我們更好地理解生物學JN江南·體育最新官網(wǎng)入口,盡管仍然需要確定預測與現(xiàn)實的確切相關性(例如,AlphaFold 3 區(qū)分蛋白質的磷酸化和非磷酸化版本)。
讀完 AlphaFold3論文后,作者的第一印象是它是開創(chuàng)性的,但是AlphaFold3的范式轉變更少。
一方面是,當AlphaFold2當初通過 CASP14 上的盲測驚艷亮相,而AlphaFold3除開一些基準測試外沒有任何驗證,架構上的創(chuàng)新也較少。
還有一個重要原因是數(shù)據(jù)。AlphaFold2的數(shù)據(jù)集截止到2018 年 4 月,而AF3為2021年 9 月,中間只有2年半的數(shù)據(jù)收集時間,更新的有價值數(shù)量不多。
作者認為,生物人工智能領域的下一個創(chuàng)新將不是通過算法來實現(xiàn)的,而是通過找到生成大量數(shù)據(jù)并將其放入架構中的方法來實現(xiàn)的。
這也是很多AI制藥公司正在做的事,生成大量的數(shù)據(jù),包括與大型制藥公司合作訪問數(shù)據(jù)。更有可能的是,他們將通過AlphaFold3的預測與大規(guī)模DNA編碼的文庫篩選進行交叉,以破解親和力問題。
也就是說,未來十年的許多發(fā)展將在工業(yè)界而不是學術界取得。因為這些公司才有收集大規(guī)模數(shù)據(jù),以及訓練大模型的能力。
而我們即將見證人工智能和生物學騰飛的十年。未來,機器學習模型將顯著增強藥物發(fā)現(xiàn)科學家的能力,高質量的預測將有望取代部分耗時耗力的濕實驗分析。
當然,這里面還有非常多挑戰(zhàn),包括缺乏臨床數(shù)據(jù),即使在治療學以外的其他領域(診斷、農(nóng)業(yè)技術等),也存在許多障礙,因為我們缺乏對生物學的理解。