機器學(xué)習(xí)可預(yù)測生物回路的行為
杜克大學(xué)的生物醫(yī)學(xué)工程師已經(jīng)設(shè)計了一種機器學(xué)習(xí)方法,可以對工程細(xì)菌中復(fù)雜變量之間的相互作用進(jìn)行建模,而這些相互作用原本就很難預(yù)測。他們的算法可推廣到多種生物系統(tǒng)。
在這項新研究中,研究人員訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),以預(yù)測由嵌入細(xì)菌培養(yǎng)物中的生物回路產(chǎn)生的圓形圖案。該系統(tǒng)的工作速度比現(xiàn)有的計算模型快30,000倍。
為了進(jìn)一步提高準(zhǔn)確性,該團(tuán)隊設(shè)計了一種方法來多次重新訓(xùn)練機器學(xué)習(xí)模型,以比較他們的答案。然后他們用它來解決第二個生物系統(tǒng),該系統(tǒng)以不同的方式計算要求很高,這表明該算法可以應(yīng)對各種挑戰(zhàn)。
結(jié)果于9月25日在線發(fā)表在《自然通訊》雜志上。
杜克大學(xué)生物醫(yī)學(xué)工程系教授Lingchong You說:“這項工作的靈感來自Google,表明神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)在棋盤游戲Go中擊敗人類。”
您說:“盡管游戲規(guī)則簡單,但計算機確定性地計算最佳下一個選項的可能性仍然很大。” “我想知道這種方法在應(yīng)對我們所面臨的生物復(fù)雜性的某些方面是否有用。”
您和他的博士后研究員王尚英面臨的挑戰(zhàn)是確定在基因工程改造后,哪些參數(shù)集可以在細(xì)菌培養(yǎng)物中產(chǎn)生特定模式。
經(jīng)過基因編輯以包括基因回路的細(xì)菌菌落隨著其生長而形成一個紫色環(huán)。研究人員正在使用機器學(xué)習(xí)來發(fā)現(xiàn)數(shù)十個影響環(huán)性能的變量之間的相互作用,例如環(huán)的厚度,形成速度和形成環(huán)的數(shù)量。圖片來源:杜靈崇,杜克大學(xué)
在先前的工作中,您的實驗室對細(xì)菌進(jìn)行了編程,以產(chǎn)生蛋白質(zhì),這些蛋白質(zhì)根據(jù)培養(yǎng)物生長的具體情況相互影響而形成環(huán)。研究人員發(fā)現(xiàn),通過控制諸如生長環(huán)境的大小和提供的養(yǎng)分的數(shù)量之類的變量,他們可以控制環(huán)的厚度,出現(xiàn)的時間以及其他特征。
通過改變數(shù)十個潛在變量,研究人員發(fā)現(xiàn)它們可以做更多的事情,例如引起兩個甚至三個環(huán)的形成。但是由于一次計算機仿真需要五分鐘,因此搜索任何大型設(shè)計空間以獲取特定結(jié)果變得不切實際。
對于他們的研究,該系統(tǒng)由13個細(xì)菌變量組成,例如生長,擴散,蛋白質(zhì)降解和細(xì)胞運動的速率。僅計算每個參數(shù)六個值將花費一臺計算機600多年。在具有數(shù)百個節(jié)點的并行計算機集群上運行它可能會將運行時間縮短到幾個月,但是機器學(xué)習(xí)可以將其減少到幾個小時。
尤說:“我們使用的模型很慢,因為它必須以足夠小的速率考慮到時間上的中間步驟,” “但是我們并不總是關(guān)心中間步驟。我們只是想要某些應(yīng)用程序的最終結(jié)果。如果我們發(fā)現(xiàn)最終結(jié)果有趣,我們可以(回到)找出中間步驟。”
為了跳到最終結(jié)果,Wang轉(zhuǎn)向了一種稱為深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型,該模型可以有效地使預(yù)測比原始模型快幾個數(shù)量級。該網(wǎng)絡(luò)將模型變量作為其輸入,首先分配隨機權(quán)重和偏差,然后預(yù)測細(xì)菌菌落將形成哪種模式,從而完全跳過產(chǎn)生最終模式的中間步驟。
盡管最初的結(jié)果離正確答案還差得很遠(yuǎn),但是每次將新的訓(xùn)練數(shù)據(jù)輸入網(wǎng)絡(luò)時,權(quán)重和偏差都可以進(jìn)行調(diào)整。給定足夠大的“訓(xùn)練”集,神經(jīng)網(wǎng)絡(luò)最終將幾乎每次都學(xué)會做出準(zhǔn)確的預(yù)測。
為了處理機器學(xué)習(xí)出錯的少數(shù)情況,You和Wang提出了一種快速檢查其工作的方法。對于每個神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)過程都具有隨機性。換句話說,即使接受了相同的答案,它也永遠(yuǎn)不會兩次學(xué)習(xí)相同的方法。
這些圖的每一個代表細(xì)菌菌落的橫截面。峰值預(yù)測了菌落將在哪里產(chǎn)生紫色蛋白質(zhì),這些紫色蛋白質(zhì)由于人工基因回路而形成環(huán)。頂部的圖形是通過機器學(xué)習(xí)算法創(chuàng)建的,而底部的圖形是通過更全面的仿真創(chuàng)建的。它們匹配得很好-除了最后一個。學(xué)分:杜克大學(xué)
研究人員訓(xùn)練了四個獨立的神經(jīng)網(wǎng)絡(luò),并比較了每個實例的答案。他們發(fā)現(xiàn),當(dāng)經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)做出相似的預(yù)測時,這些預(yù)測接近正確的答案。
尤說:“我們發(fā)現(xiàn)我們不必使用較慢的標(biāo)準(zhǔn)計算模型來驗證每個答案。” “我們基本上使用了'人群的智慧'。”
經(jīng)過訓(xùn)練和證實的機器學(xué)習(xí)模型,研究人員著手使用它來發(fā)現(xiàn)有關(guān)其生物回路的新發(fā)現(xiàn)。在最初用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的100,000個數(shù)據(jù)模擬中,只有一個模擬產(chǎn)生了帶有三個環(huán)的細(xì)菌菌落。但是隨著神經(jīng)網(wǎng)絡(luò)的速度,You和Wang不僅能夠找到更多的三胞胎,而且可以確定哪些變量對產(chǎn)生它們至關(guān)重要。
Wang說:“神經(jīng)網(wǎng)絡(luò)能夠找到原本不可能發(fā)現(xiàn)的變量之間的模式和相互作用。”
作為研究的結(jié)局,尤和王在隨機運行的生物系統(tǒng)上嘗試了他們的方法。解決此類系統(tǒng)需要計算機模型多次重復(fù)相同的參數(shù),以找到最可能的結(jié)果。盡管這是與原始模型相比計算時間長的完全不同的原因,但研究人員發(fā)現(xiàn)他們的方法仍然有效,表明該方法可推廣到許多不同的復(fù)雜生物系統(tǒng)。
研究人員現(xiàn)在正在嘗試將其新方法用于更復(fù)雜的生物系統(tǒng)。除了在具有更快GPU的計算機上運行該算法外,他們還試圖對該算法進(jìn)行編程以使其盡可能高效。
Wang說:“我們用100,000個數(shù)據(jù)集訓(xùn)練了神經(jīng)網(wǎng)絡(luò),但這可能是過大了。” “我們正在開發(fā)一種算法,其中神經(jīng)網(wǎng)絡(luò)可以與仿真實時交互以幫助加快處理速度。”
尤說:“我們的首要目標(biāo)是建立一個相對簡單的系統(tǒng)。” “現(xiàn)在,我們希望改進(jìn)這些神經(jīng)網(wǎng)絡(luò)系統(tǒng),以便為更復(fù)雜的生物回路的基礎(chǔ)動力學(xué)提供一個窗口。”