新的機(jī)器學(xué)習(xí)方法可以加速生物工程
能源部勞倫斯·伯克利實(shí)驗(yàn)室(Berkeley Lab)的科學(xué)家們已經(jīng)開發(fā)出一種使用機(jī)器學(xué)習(xí)的方法,可以極大地加速產(chǎn)生生物燃料的微生物的設(shè)計(jì)。他們的計(jì)算機(jī)算法從大量有關(guān)產(chǎn)生生物燃料的微生物途徑中蛋白質(zhì)和代謝產(chǎn)物的數(shù)據(jù)開始,但沒有有關(guān)該途徑實(shí)際運(yùn)作方式的信息。然后,它使用來自先前實(shí)驗(yàn)的數(shù)據(jù)來學(xué)習(xí)該途徑的行為??茖W(xué)家使用該技術(shù)來自動預(yù)測已添加到大腸桿菌細(xì)菌細(xì)胞中的途徑產(chǎn)生的生物燃料量。
這種新方法比目前預(yù)測途徑行為的方法快得多,并且有望加快商業(yè)應(yīng)用生物燃料以外的生物分子在許多應(yīng)用中的開發(fā)速度,例如對抗抗生素抗性感染的藥物和可抵抗干旱的農(nóng)作物。 。
該研究于5月29日發(fā)表在《自然系統(tǒng)生物學(xué)與應(yīng)用》雜志上。
在生物學(xué)中,途徑是細(xì)胞中產(chǎn)生特定化合物的一系列化學(xué)反應(yīng)。研究人員正在探索重新設(shè)計(jì)途徑并將途徑從一種微生物導(dǎo)入另一種途徑的方法,以利用自然界的工具包來改善醫(yī)學(xué),能源,制造業(yè)和農(nóng)業(yè)。而且由于有了新的合成生物學(xué)功能,例如基因編輯工具CRISPR-Cas9,科學(xué)家可以前所未有的精度進(jìn)行這項(xiàng)研究。
DOE Agile BioFoundry小組負(fù)責(zé)人,DOE生物能源研究中心Joint BioEnergy Institute(EI)定量代謝模型主任,由DOE科學(xué)辦公室資助的Hector Garcia Martin說:“但是開發(fā)過程中存在很大的瓶頸。”由伯克利實(shí)驗(yàn)室(Berkeley Lab)領(lǐng)導(dǎo)。這項(xiàng)研究是由扎克·科斯特洛(Zak Costello)(也是與敏捷生物基金會(Agile BioFoundry)和EI一起)在加西亞·馬丁(Garcia Martin)的指導(dǎo)下進(jìn)行的。兩位研究人員也都在伯克利實(shí)驗(yàn)室的生物系統(tǒng)和工程部工作。
“很難預(yù)測重新設(shè)計(jì)后的路徑將如何表現(xiàn)。故障排除占用了我們99%的時(shí)間。我們的方法可以大大縮短這一步驟,并成為指導(dǎo)生物工程工作的新方法。”加西亞·馬丁補(bǔ)充說。
當(dāng)前預(yù)測路徑動力學(xué)的方法需要迷宮式的微分方程,這些微分方程描述了系統(tǒng)中各個(gè)組件如何隨時(shí)間變化。學(xué)科領(lǐng)域的專家在幾個(gè)月內(nèi)開發(fā)了這些“動力學(xué)模型”,并且得出的預(yù)測并不總是與實(shí)驗(yàn)結(jié)果相符。
但是,機(jī)器學(xué)習(xí)使用數(shù)據(jù)來訓(xùn)練計(jì)算機(jī)算法來進(jìn)行預(yù)測。該算法通過分析來自相關(guān)系統(tǒng)的數(shù)據(jù)來學(xué)習(xí)系統(tǒng)的行為。即使有足夠的數(shù)據(jù)可以使用,這也使科學(xué)家能夠快速預(yù)測該通路的功能,即使對該通路的機(jī)理了解甚少。
科學(xué)家在添加到大腸桿菌細(xì)胞的途徑中測試了他們的技術(shù)。一種途徑被設(shè)計(jì)來生產(chǎn)稱為li烯的生物基噴氣燃料;另一個(gè)生產(chǎn)稱為異戊烯醇的汽油替代品。EI先前的實(shí)驗(yàn)產(chǎn)生了大量數(shù)據(jù),這些數(shù)據(jù)與不同版本的途徑在各種大腸桿菌菌株中的功能有關(guān)。一些菌株具有產(chǎn)生少量檸檬烯或異戊烯醇的途徑,而其他菌株具有產(chǎn)生大量生物燃料的形式。
研究人員將這些數(shù)據(jù)輸入他們的算法中。然后機(jī)器學(xué)習(xí)接手了:該算法自學(xué)了這些途徑中代謝物的濃度如何隨時(shí)間變化,以及這些途徑產(chǎn)生了多少生物燃料。它通過分析來自兩種實(shí)驗(yàn)性已知途徑(產(chǎn)生少量和大量生物燃料)的數(shù)據(jù)來學(xué)習(xí)這些動態(tài)。
該算法使用此知識來預(yù)測該算法從未見過的第三組“神秘”路徑的行為。它準(zhǔn)確地預(yù)測了神秘途徑的生物燃料生產(chǎn)概況,包括途徑產(chǎn)生了中等量的燃料。此外,機(jī)器學(xué)習(xí)衍生的預(yù)測優(yōu)于動力學(xué)模型。
“我們添加的數(shù)據(jù)越多,預(yù)測就越準(zhǔn)確,”加西亞·馬丁(Garcia Martin)說。“這種方法可以加快設(shè)計(jì)新生物分子的時(shí)間。今天的項(xiàng)目需要十年的時(shí)間,一個(gè)專家團(tuán)隊(duì)有一天可以由一名暑期學(xué)生來處理。”
這項(xiàng)工作是能源部能源效率和可再生能源辦公室支持的能源部敏捷生物鑄造工廠的一部分,以及能源部科學(xué)辦公室支持的聯(lián)合生物能源研究所的一部分。