機(jī)器學(xué)習(xí)算法無需培訓(xùn)即可發(fā)現(xiàn)隱藏的科學(xué)知識(shí)
當(dāng)然,可以使用計(jì)算機(jī)下達(dá)大師級(jí)國際象棋,但是它們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實(shí)驗(yàn)室的研究人員表明,未經(jīng)材料科學(xué)訓(xùn)練的算法可以掃描數(shù)百萬篇論文的文本并發(fā)現(xiàn)新的科學(xué)知識(shí)。
由伯克利實(shí)驗(yàn)室能源存儲(chǔ)和分布式資源部門的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團(tuán)隊(duì),收集了330萬篇已出版的材料科學(xué)論文摘要,并將其輸入到稱為Word2vec的算法中。通過分析單詞之間的關(guān)系,該算法能夠提前幾年預(yù)測(cè)出新的熱電材料的發(fā)現(xiàn),并提出迄今未知的材料作為熱電材料的候選材料。
賈恩說:“在不談及材料科學(xué)的情況下,它學(xué)到了元素周期表和金屬的晶體結(jié)構(gòu)等概念。” “這暗示了這項(xiàng)技術(shù)的潛力。但是,我們可能發(fā)現(xiàn)的最有趣的事情是,您可以使用此算法來解決材料研究中的空白,這是人們應(yīng)該學(xué)習(xí)但到目前為止尚未學(xué)習(xí)的東西。”
研究結(jié)果發(fā)表在7月3日的《自然》雜志上。該研究的主要作者是“無監(jiān)督詞嵌入從材料科學(xué)文獻(xiàn)中獲取潛在知識(shí)”,作者是現(xiàn)任Google伯克利實(shí)驗(yàn)室博士后研究員Vahe Tshitoyan。伯克利實(shí)驗(yàn)室的科學(xué)家克里斯汀·佩爾森(Kristin Persson)和格布蘭德·塞德(Gerbrand Ceder)與Ja那教徒一起領(lǐng)導(dǎo)了這項(xiàng)研究。
塞德說:“該論文確定了科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的知識(shí),而基于文本的純文本提取可以建立基本的科學(xué)知識(shí)。”塞德說,他還曾在加州大學(xué)伯克利分校材料科學(xué)與工程系任職。
Tshitoyan表示,該項(xiàng)目的動(dòng)機(jī)是難以理解大量已發(fā)表的研究成果。他說:“在每個(gè)研究領(lǐng)域,都有100多年的研究文獻(xiàn),而且每周都會(huì)有更多的研究出來。” “研究人員只能訪問其中的一小部分。我們認(rèn)為,機(jī)器學(xué)習(xí)是否可以在無監(jiān)督的情況下做一些事情來利用所有這些集體知識(shí),而無需人類研究人員的指導(dǎo)?”
“國王–皇后+男人=?”
該團(tuán)隊(duì)從1922年至2018年間在1000多種期刊中發(fā)表的論文中收集了330萬個(gè)摘要。Word2vec提取了這些摘要中大約500,000個(gè)不同的詞中的每個(gè)詞,并將每個(gè)詞轉(zhuǎn)換為200維向量或200個(gè)數(shù)字的數(shù)組。
賈恩說:“重要的不是每個(gè)數(shù)字,而是使用數(shù)字來查看單詞之間的相互關(guān)系。”該團(tuán)隊(duì)負(fù)責(zé)研究和設(shè)計(jì)用于能源應(yīng)用的新材料,并結(jié)合了理論,計(jì)算和方法。數(shù)據(jù)挖掘。“例如,您可以使用標(biāo)準(zhǔn)向量數(shù)學(xué)減去向量。其他研究人員表明,如果您在非科學(xué)文本源上訓(xùn)練該算法,并采用“國王減去女王”的結(jié)果,那么您將獲得與“男人減去女人”相同的結(jié)果。它會(huì)弄清楚這種關(guān)系,而無需您一言不發(fā)。”
類似地,在材料科學(xué)課本上接受訓(xùn)練時(shí),該算法能夠僅根據(jù)摘要中詞語的位置以及它們與其他詞語的共存來學(xué)習(xí)科學(xué)術(shù)語和概念的含義,例如金屬的晶體結(jié)構(gòu)。例如,就像它可以解決方程式“國王–皇后+人”一樣,它可以弄清楚對(duì)于方程式“鐵磁性– NiFe + IrMn”,答案將是“反磁性”。
當(dāng)每個(gè)化學(xué)元素的向量投影到二維時(shí),Word2vec甚至能夠了解元素周期表中元素之間的關(guān)系。
提前幾年預(yù)測(cè)發(fā)現(xiàn)
因此,如果Word2vec如此智能,它可以預(yù)測(cè)新穎的熱電材料嗎?優(yōu)質(zhì)的熱電材料可以將熱量有效地轉(zhuǎn)化為電能,并且由安全,豐富且易于生產(chǎn)的材料制成。
伯克利實(shí)驗(yàn)室團(tuán)隊(duì)采用了該算法建議的最佳熱電候選物,該算法根據(jù)其詞向量與“熱電”一詞的相似性對(duì)每種化合物進(jìn)行排名。然后,他們進(jìn)行計(jì)算以驗(yàn)證算法的預(yù)測(cè)。
在前十項(xiàng)預(yù)測(cè)中,他們發(fā)現(xiàn)所有計(jì)算出的功率因數(shù)均略高于已知熱電的平均值。前三名候選人的功率因數(shù)高于已知熱電設(shè)備的95%。
接下來,他們測(cè)試了該算法是否只能通過給出最多2000年的摘要來“過去”進(jìn)行實(shí)驗(yàn)。同樣,在最高的預(yù)測(cè)中,以后的研究中出現(xiàn)了大量的預(yù)測(cè)–是材料的四倍。剛被隨機(jī)選擇。例如,迄今已發(fā)現(xiàn)使用截至2008年的數(shù)據(jù)訓(xùn)練的前五項(xiàng)預(yù)測(cè)中的三項(xiàng),其余兩項(xiàng)包含稀有或有毒元素。
結(jié)果令人驚訝。賈恩說:“老實(shí)說,我并不期望算法能對(duì)未來的結(jié)果如此預(yù)測(cè)。” “我曾經(jīng)以為該算法可以描述人們以前所做的事情,但不能提出這些不同的聯(lián)系。當(dāng)我不僅看到這些預(yù)測(cè),而且還看到這些預(yù)測(cè)背后的原因時(shí),我感到非常驚訝,例如半霍斯勒結(jié)構(gòu),這是當(dāng)今熱電學(xué)中一種非常熱的晶體結(jié)構(gòu)。”
他補(bǔ)充說:“這項(xiàng)研究表明,如果更早地采用這種算法,可以想象到一些材料會(huì)提前幾年被發(fā)現(xiàn)。” 隨著研究的進(jìn)行,研究人員將發(fā)布算法預(yù)測(cè)的前50種熱電材料。如果人們想尋找更好的拓?fù)浣^緣體材料,他們還將發(fā)布人們自己制作應(yīng)用程序所需的單詞embedding。
Jain接下來說,該團(tuán)隊(duì)正在開發(fā)一個(gè)更智能,更強(qiáng)大的搜索引擎,使研究人員能夠以更有用的方式搜索摘要。
這項(xiàng)研究是由豐田研究所資助的。其他研究的共同作者是伯克利實(shí)驗(yàn)室的研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校的研究員Olga Kononova。