利用機器學習分析量子材料
電子及其行為為量子物理學家提出了有趣的問題,而最近在來源、儀器和設施方面的創(chuàng)新使研究人員有可能獲得更多編碼在量子材料中的信息。
然而,這些研究創(chuàng)新正在產(chǎn)生前所未有的——直到現(xiàn)在,還是難以理解的——數(shù)據(jù)量。
“一份材料中包含的信息可以很快超過國會圖書館的總信息量,后者約為 20 TB,”文理學院物理學教授Eun-Ah Kim說。量子材料研究和利用機器學習的力量分析來自量子材料實驗的數(shù)據(jù)的前沿。
“傳統(tǒng)分析模式(主要是手動)的有限能力正在迅速成為關鍵瓶頸,”Kim 說。
由 Kim 領導的一個小組成功地使用了與康奈爾大學計算機科學家一起開發(fā)的機器學習技術來分析來自量子金屬 Cd2Re2O7 的大量數(shù)據(jù),解決了關于這種特殊材料的爭論,并為未來機器學習洞察材料的新階段奠定了基礎.
論文“ Harnessing Interpretable and Unsupervised Machine Learning to Address Big Data from Modern X-ray Diffraction ”發(fā)表在 Nature 雜志上。
康奈爾大學的物理學家和計算機科學家合作建立了一種無監(jiān)督和可解釋的機器學習算法,XRD 溫度聚類 (X-TEC)。研究人員隨后應用 X-TEC 研究燒綠石氧化物金屬 Cd2Re2O7 的關鍵元素。
X-TEC 在幾分鐘內(nèi)分析了 8 TB 的 X 射線數(shù)據(jù),跨越 15,000 個布里淵區(qū)(唯一定義的單元)。
Cornell Ann 計算機科學教授Kilian Weinberger說:“我們使用了無監(jiān)督機器學習算法,非常適合將高維數(shù)據(jù)轉(zhuǎn)化為對人類有意義的集群 。” S Bowers 計算與信息科學學院。
由于這項分析,研究人員發(fā)現(xiàn)了對材料中電子行為的重要見解,檢測了所謂的偽戈德斯通模式。他們試圖了解原子和電子如何有序地定位自己,以優(yōu)化天文龐大的電子和原子“社區(qū)”內(nèi)的相互作用。
“在復雜的晶體材料中,多個原子的特定結(jié)構(gòu),即晶胞,會以規(guī)則的排列方式重復自身,就像在高層公寓大樓中一樣,”Kim 說。“我們發(fā)現(xiàn)的重新定位發(fā)生在整個建筑群的每個公寓單元的規(guī)模上。”
她說,因為單元的排列保持不變,所以從外面看很難發(fā)現(xiàn)這種重新定位。然而,重新定位幾乎自發(fā)地破壞了連續(xù)對稱性,從而導致了偽戈德斯通模式。
“偽戈德斯通模式的存在可以揭示系統(tǒng)中難以發(fā)現(xiàn)的秘密對稱性,”金說。“X-TEC 促成了我們的發(fā)現(xiàn)。”
金說,這一發(fā)現(xiàn)之所以重要,有三個原因。首先,它表明機器學習可用于分析大量 X 射線粉末衍射 (XRD) 數(shù)據(jù),作為 X-TEC 擴大應用的原型。X-TEC 作為軟件包提供給研究人員,將作為高級光子源和康奈爾高能同步加速器源的分析工具集成到同步加速器中。
其次,這一發(fā)現(xiàn)解決了關于 Cd2Re2O7 物理學的爭論。
“據(jù)我們所知,這是使用 XRD 檢測戈德斯通模式的第一個實例,”Kim 說。“這種對復雜量子材料波動的原子級洞察力將是第一個使用信息豐富的大量衍射數(shù)據(jù)來回答伴隨任何新物質(zhì)相發(fā)現(xiàn)而來的關鍵科學問題的例子。”
第三,這一發(fā)現(xiàn)展示了物理學家和計算機科學家之間的合作可以完成什么。
“機器學習算法的數(shù)學內(nèi)部運作通常與物理學中的模型沒有什么不同,而是應用于高維數(shù)據(jù),”溫伯格說。“與物理學家一起工作很有趣,因為他們非常擅長模擬自然世界。在數(shù)據(jù)建模方面,它們確實一舉成名。”