模型了解單個(gè)氨基酸如何決定蛋白質(zhì)功能
麻省理工學(xué)院研究人員的機(jī)器學(xué)習(xí)模型通過(guò)計(jì)算分解了氨基酸鏈段決定蛋白質(zhì)功能的方式,這可以幫助研究人員設(shè)計(jì)和測(cè)試用于藥物開(kāi)發(fā)或生物學(xué)研究的新蛋白質(zhì)。蛋白質(zhì)是氨基酸的線性鏈,通過(guò)肽鍵連接,折疊成極其復(fù)雜的三維結(jié)構(gòu),具體取決于鏈中的序列和物理相互作用。該結(jié)構(gòu)反過(guò)來(lái)決定了蛋白質(zhì)的生物學(xué)功能。因此,了解蛋白質(zhì)的3-D結(jié)構(gòu)對(duì)于例如預(yù)測(cè)蛋白質(zhì)對(duì)某些藥物的反應(yīng)非常有價(jià)值。
但是,盡管經(jīng)過(guò)數(shù)十年的研究和多種成像技術(shù)的發(fā)展,我們只知道可能的蛋白質(zhì)結(jié)構(gòu)的一小部分-數(shù)以百萬(wàn)計(jì)的數(shù)以萬(wàn)計(jì)。研究人員開(kāi)始使用機(jī)器學(xué)習(xí)模型根據(jù)其氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),這可能有助于發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)。但這是具有挑戰(zhàn)性的,因?yàn)楦鞣N氨基酸序列可以形成非常相似的結(jié)構(gòu)。而且,訓(xùn)練模型的結(jié)構(gòu)并不多。
麻省理工學(xué)院研究人員開(kāi)發(fā)的新模型創(chuàng)建了更豐富,更易于計(jì)算的表示形式,用于表示單個(gè)氨基酸如何確定蛋白質(zhì)的功能,可用于設(shè)計(jì)和測(cè)試新蛋白質(zhì)。學(xué)分:麻省理工學(xué)院
在2019年5月的國(guó)際學(xué)習(xí)表示會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種方法,用于``學(xué)習(xí)''蛋白質(zhì)序列中每個(gè)氨基酸位置的易計(jì)算表示,最初使用3-D蛋白質(zhì)結(jié)構(gòu)作為訓(xùn)練指南。然后,研究人員可以將這些表示形式用作輸入,以幫助機(jī)器學(xué)習(xí)模型預(yù)測(cè)單個(gè)氨基酸片段的功能-不再需要有關(guān)蛋白質(zhì)結(jié)構(gòu)的任何數(shù)據(jù)。
將來(lái),該模型可通過(guò)為研究人員提供更好的零位插入和修改特定氨基酸區(qū)段的機(jī)會(huì),而用于改進(jìn)的蛋白質(zhì)工程。該模型甚至可能使研究人員完全遠(yuǎn)離蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。
“我想邊緣化結(jié)構(gòu),”計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)計(jì)算與生物學(xué)小組的研究生Tristan Bepler說(shuō)。“我們想知道蛋白質(zhì)在做什么,而了解結(jié)構(gòu)對(duì)此很重要。但是,僅根據(jù)氨基酸序列,我們可以預(yù)測(cè)蛋白質(zhì)的功能嗎?其動(dòng)機(jī)是擺脫專門(mén)預(yù)測(cè)的結(jié)構(gòu),轉(zhuǎn)向[尋找]氨基酸序列與功能的關(guān)系。”
加入Bepler的作者之一是MIT的西蒙斯數(shù)學(xué)教授Bonnie Berger,他是電氣工程和計(jì)算機(jī)科學(xué)系的聯(lián)合教職,并且是計(jì)算和生物小組的負(fù)責(zé)人。
從結(jié)構(gòu)中學(xué)習(xí)
研究人員不是像傳統(tǒng)模型那樣直接預(yù)測(cè)結(jié)構(gòu),而是直接將預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)信息編碼為表示形式。為此,當(dāng)模型學(xué)習(xí)特定氨基酸的功能時(shí),他們使用已知的蛋白質(zhì)結(jié)構(gòu)相似性來(lái)監(jiān)督其模型。
他們通過(guò)蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫(kù)中的大約22,000種蛋白質(zhì)對(duì)模型進(jìn)行了訓(xùn)練,該數(shù)據(jù)庫(kù)包含成千上萬(wàn)種蛋白質(zhì),這些蛋白質(zhì)通過(guò)結(jié)構(gòu)和氨基酸序列的相似性進(jìn)行分類。他們?yōu)槊繉?duì)蛋白質(zhì)計(jì)算了一個(gè)真實(shí)的相似度評(píng)分,這意味著它們基于SCOP類在結(jié)構(gòu)上有多接近。
然后,研究人員給他們的模型提供了隨機(jī)的蛋白質(zhì)結(jié)構(gòu)對(duì)和氨基酸序列,并通過(guò)編碼器將其轉(zhuǎn)換為稱為嵌入的數(shù)字表示。在自然語(yǔ)言處理中,嵌入本質(zhì)上是以與句子中的字母或單詞相對(duì)應(yīng)的方式組合的數(shù)百個(gè)表。兩個(gè)嵌入越相似,字母或單詞在句子中一起出現(xiàn)的可能性就越大。
在研究人員的工作中,該對(duì)中的每個(gè)嵌入都包含有關(guān)每個(gè)氨基酸序列與另一個(gè)氨基酸序列有多相似的信息。該模型將兩個(gè)嵌入對(duì)齊,并計(jì)算相似度得分,然后預(yù)測(cè)其3-D結(jié)構(gòu)的相似度。然后,該模型將其結(jié)構(gòu)的預(yù)測(cè)相似性得分與實(shí)際SCOP相似性得分進(jìn)行比較,然后將反饋信號(hào)發(fā)送至編碼器。
同時(shí),該模型為每次嵌入預(yù)測(cè)了一個(gè)“接觸圖”,該圖基本上表明了每個(gè)氨基酸與蛋白質(zhì)預(yù)測(cè)的3-D結(jié)構(gòu)中的所有其他氨基酸有多遠(yuǎn)-本質(zhì)上,它們是否接觸?該模型還將其預(yù)測(cè)的接觸圖與SCOP中的已知接觸圖進(jìn)行比較,并將反饋信號(hào)發(fā)送到編碼器。這有助于模型更好地了解氨基酸在蛋白質(zhì)結(jié)構(gòu)中的確切位置,從而進(jìn)一步更新每種氨基酸的功能。
基本上,研究人員通過(guò)要求其預(yù)測(cè)配對(duì)序列嵌入物是否會(huì)共享相似的SCOP蛋白結(jié)構(gòu)來(lái)訓(xùn)練他們的模型。如果模型的預(yù)測(cè)分?jǐn)?shù)接近真實(shí)分?jǐn)?shù),則表明它在正確的軌道上。如果沒(méi)有,它將進(jìn)行調(diào)整。
蛋白質(zhì)設(shè)計(jì)
最后,對(duì)于一個(gè)輸入的氨基酸鏈,模型將為3-D結(jié)構(gòu)中的每個(gè)氨基酸位置生成一個(gè)數(shù)值表示或嵌入。然后,機(jī)器學(xué)習(xí)模型可以使用這些序列嵌入,根據(jù)預(yù)測(cè)的3-D結(jié)構(gòu)“上下文”(其位置和與其他氨基酸的接觸)來(lái)準(zhǔn)確預(yù)測(cè)每種氨基酸的功能。
例如,研究人員使用該模型來(lái)預(yù)測(cè)哪些片段(如果有的話)穿過(guò)細(xì)胞膜。僅給出一個(gè)氨基酸序列,研究人員的模型就可以比現(xiàn)有模型更準(zhǔn)確地預(yù)測(cè)所有跨膜和非跨膜片段。
斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授Serafim Batzoglou說(shuō):“ Bepler和Berger的工作在代表蛋白質(zhì)序列的局部結(jié)構(gòu)特性方面取得了重大進(jìn)展。” “表示是使用最新的深度學(xué)習(xí)方法來(lái)學(xué)習(xí)的,該方法在RaptorX和AlphaFold等系統(tǒng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中取得了長(zhǎng)足進(jìn)步。這項(xiàng)工作在人類健康和藥物基因組學(xué)中具有最終應(yīng)用,因?yàn)樗兄跈z測(cè)破壞蛋白質(zhì)結(jié)構(gòu)的有害突變。”
接下來(lái),研究人員旨在將該模型應(yīng)用于更多的預(yù)測(cè)任務(wù),例如弄清楚哪些序列片段與小分子結(jié)合,這對(duì)藥物開(kāi)發(fā)至關(guān)重要。他們還致力于使用該模型進(jìn)行蛋白質(zhì)設(shè)計(jì)。他們使用序列嵌入,可以預(yù)測(cè)蛋白質(zhì)將在哪種顏色波長(zhǎng)下發(fā)出熒光。
“我們的模型使我們能夠?qū)⑿畔囊阎牡鞍踪|(zhì)結(jié)構(gòu)轉(zhuǎn)移到結(jié)構(gòu)未知的序列。使用我們的嵌入作為特征,我們可以更好地預(yù)測(cè)功能并實(shí)現(xiàn)更有效的數(shù)據(jù)驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)。” Bepler說(shuō)。“從總體上講,這種蛋白質(zhì)工程就是目標(biāo)。”
Berger補(bǔ)充說(shuō):“因此,我們的機(jī)器學(xué)習(xí)模型使我們能夠從相對(duì)較少的已知結(jié)構(gòu)中學(xué)習(xí)蛋白質(zhì)折疊的“語(yǔ)言”,這是原始的“圣杯”問(wèn)題之一。”