計算機人工智能體系AlphaFold近來展望了數萬種蛋白質的之前未知的三維布局。
美因茨約翰內斯·古騰堡大學(JGU)的研討團隊專注于具有高置信度分數的子集,研討人員經過算法闡發這一些猜測,發明蛋白質骨架表現出稀有的拓撲復雜性,即打結。
個中,研究人員發覺了一個71-結,這是迄今為止正在蛋白質中發覺的最龐雜的拓撲結,和一些由兩個甲基轉移酶或碳酸酐酶結構域構成的六交織復合結,每一個結構域皆包括一個簡樸的三葉結。這一些深深嵌入的復合結顯然是經由過程基因復制和打結二聚體的相互連接而產生的。

別的,該團隊還報告了兩個新的五穿插結,包羅第一個51-結。該事情闡發的構造列表構成了將來實驗研討的根底,以確認這一些新型打結拓撲并探索其龐大的折疊機制。
該研討以「AlphaFoldpredictsthemostcomplexproteinknotandcompositeproteinknots」為題,于2022年7月13日宣布正在《ProteinScience》。
谷歌DeepMind開辟的人工智能(AI)體系AlphaFold兩次核心蛋白質構造展望技能(CASP)的關頭評價。AlphaFold2是一個深度進修體系,它連系了基于蛋白質構造的進化、物理和多少束縛的鍛煉順序。它的特點是展望的迭代細化,并答應利用自蒸餾和自預計準確性從未符號的蛋白質序列中進修,以利用一級構造和同源物的對齊序列直接展望給定蛋白質的一切重原子的3D坐標。
AlphaFold2今朝曾經猜測了數十萬種蛋白質構造,個中絕多數沒有包括在蛋白質數據庫(PDB)中,該數據庫重要存檔實驗肯定的構造。是以,AlphaFold的猜測數據庫大概具有偉大的價值,稀奇是關于研討沒有普遍但仍與領會蛋白質折疊潛在機制的復雜性具有高度相關性的蛋白質現象。關于在其多肽骨架中包括拓撲結的蛋白質,會呈現一個稀奇使人沉迷的現象,即從兩頭拉出后沒有會完整解開的蛋白質。
正在曩昔的二十年中,僅發現了約莫20種不一樣的含有結的卵白質家族。然而,打結的卵白質對卵白質折疊和進化提出了挑釁。模仿算法常常高估卵白質的打結幾率,由于后者低于隨機鏈的打結幾率。
另外,同源物之間的蛋白質拓撲構造一般類似,這意味著正在進化中密切關系的蛋白質中往往會保存打結的折疊。因為這一些緣由,而且因為自然蛋白質之間打結的罕見性,正在展望蛋白質構造的龐大新數據庫中大概存正在打結拓撲構造引起了人們的濃厚興趣。
現正在,正在蛋白質中發明的最龐大的結是單個結,正在任何投影到平面上都有六個根本交叉點;還沒有觀察到復合結。
復合結的發生機制
研究人員通過調查發現了9個之前未知的復合結案例。這一些全是兩個基本上自力的三葉滾存在于一個較長的蛋白質鏈中的例子。
因而他們提出了一種基于基因復制和打結同源二聚體互連來生成這類復合結的新機制。風趣的是,這類機制類似于適用于建立第一個人工蛋白質結的計謀,個中未打結的二聚體被「毗連」以構成三葉草。
顛末考證,復合三葉結能夠認定為俗稱的「奶奶結」。復合結的手性取先前講演甲基轉移酶和碳酸酐酶中單個三葉結的正手性的成果同等。研究人員正在兩個分歧的蛋白質家族和兩種構造變更中觀察到了不異的現象,他們以為這是一種發生復合結的潛正在機制。
圖示:蛋白質P54212(碳酸酐酶)的3D布局(上)和簡化暗示(下)。
蛋白質中的第一個71-結
下圖描寫了蛋白質P73136和Q9PR55,其長度分別為112和89個氨基酸。二者都沒有特點,運用PDBeFold沒法辨認也許的同源物。然而,它們具有48%的序列同一性和71%的二級構造婚配,這表明它們多是同源物。
蛋白質Q9PR55包羅最龐雜的結,一個71-結,迄今為止已知正在殘基27和83之間有一個打結的中心。蛋白質P73136的相似布局包羅一個51-結,正在殘基45和94之間有一個打結的中心。之前沒有觀察到這兩種蛋白質具有分歧的非尋常拓撲布局的這類同源物對。
仔細觀察會發覺,蛋白質Q9PR55更龐大的拓撲構造是由一個引入分外纏繞的蛋白質片斷造成的;71環面結本質上是一個51環面結,正在環面上有一個分外的纏繞;兩個結皆具有正手性。
新的51和52結
該團隊發現了兩個從前未知的具有五個根基交叉點的結,包孕第一個51-結。
準確性測試
因為該發明的新穎性,根據自力方式開展考證將很主要。正在實驗研討之前,研討人員使用正交測算東西ERRAT來評價展望的打結布局。ERRAT算法評價C、N和O原子之間的非鍵合接觸形式,并取高分辨率布局開展統計對照。根據取AlphaFold(和其他展望方式)中利用的目標分歧,它給予了自力的評價。
研究人員在打結構造集上運行了ERRAT。剔除某些模子中間或呈現的擴大結尾,一切測試的模子皆顯示出較好的分數;一切卵白皆有>90%的卵白質鏈落在(低于)謝絕不可能構象的95%閾值內。因而,整體來看,猜測的構造是精確的,至少在很大程度上是精確的。
然而,正在某些情況下,構造的部分地區好像存正在潛正在題目。主要的是要注意蛋白質鏈途徑中的渺小差別——比方,那些會改動上/下穿插的差別——也許會改動拓撲構造,也許招致結的毛病分派。
研究人員注意到,關于復合結Q4D5S2,ERRAT法式將殘基100-110四周的beta鏈段標記為布局上大概不正確。值得注意的是,該區域中鏈的經過關于打結拓撲很主要。
結語
總之,該團隊闡發了AlphaFoldAI體系對新拓撲龐雜蛋白質的一切蛋白質3D布局展望。我們對AlphaFold供應的數據的完好闡發揭露了幾種包括深度龐雜結的高置信度蛋白質,這一些蛋白質適用于對其3D布局的實驗考證。
正在這里個數據集合,研究人員發明了一個71-結,這是迄今為止正在蛋白質中發明的最龐雜的一個,和同源構造中的一個新的51-結,和復合蛋白質節的第一個實例。關于后者,研究人員提出了一種根據基因復制制造它們的進化機制。
因為蛋白質拓撲布局是蛋白質折疊算法的延續挑釁,因而經過實驗考證所計議的布局展望將非常主要。不但可以獲得對AlphaFold體系精確展望龐雜蛋白質拓撲布局的本領的精致權衡,并且主要的是確認這里發明的大批新蛋白質結。



