如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi

作者：小編時間：2021-07-09閱讀數(shù)：人閱讀

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi

1 簡介

先進(jìn)的材料的研發(fā)和使用越來越多地影響著人們生活的方方面面，包括能源生產(chǎn)，電力電子，交通，航空航天等關(guān)鍵部件都取決于高端材料的研發(fā)與制備。

眾所周知，傳統(tǒng)的實驗和計算建模需要消耗大量的時間和資源，并受到實驗條件和理論基礎(chǔ)的限制。重復(fù)的實驗和理論表征通常是耗時且低效的，重大進(jìn)展往往需要依靠直覺甚至意外。同時，新材料的研發(fā)周期非常長，從初始研究到首次使用通常需要大約10到20年。如圖1所示，新材料研究包括七個不連續(xù)的階段，即發(fā)現(xiàn)、發(fā)展、資源優(yōu)化、系統(tǒng)設(shè)計和集成、認(rèn)證、制造和部署。不同階段的研發(fā)往往由不同的機(jī)構(gòu)甚至不同工程或科學(xué)團(tuán)隊進(jìn)行。盡管一支經(jīng)驗豐富的團(tuán)隊可能參與研發(fā)過程的每個階段，但這些團(tuán)隊很少能直接獲得研發(fā)早期與市場化后期這一過程之間的反饋，而這種反饋通常恰恰可能加速整個研發(fā)的進(jìn)程。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖1)

圖1 傳統(tǒng)研發(fā)新材料的模式

計算模擬和實驗是在材料科學(xué)領(lǐng)域廣泛采用的兩種常規(guī)方法。然而，由于實驗條件和理論基礎(chǔ)的固有局限性，這兩種方法很難加速材料發(fā)現(xiàn)和設(shè)計。一般而言，實驗測量通常包括微觀結(jié)構(gòu)和性質(zhì)分析、性質(zhì)測量以及合成實驗等。盡管實驗測量通常需要在很長一段時間內(nèi)以低效的方式進(jìn)行，但也是一種簡單直觀的材料研究方法。此外，實驗測量法對設(shè)備、實驗環(huán)境和研究人員的專業(yè)知識提出了很高的要求。另一方面，計算模擬從基于密度泛函理論的電子結(jié)構(gòu)計算、分子動力學(xué)、蒙特卡羅技術(shù)和相場法到連續(xù)譜宏觀方法出發(fā)，是一種利用計算機(jī)程序并使用現(xiàn)有理論進(jìn)行分析的方法。由計算指導(dǎo)的材料設(shè)計有望減少發(fā)現(xiàn)新材料和材料開發(fā)所需要的時間和成本。與實驗測量相比，計算模擬需要的時間更少，并且有利于人為精準(zhǔn)地控制實驗中的相關(guān)變量。然而，計算模擬也存在諸多挑戰(zhàn)。例如：

1、計算模擬的準(zhǔn)確性很大程度上取決于所涉及材料的微觀結(jié)構(gòu);

2、計算模擬需要高性能計算設(shè)備；

3、計算模擬程序的運(yùn)行需要依靠大型計算集群;

4、當(dāng)研究新系統(tǒng)時，不能明確地使用先前的計算結(jié)果。因此，現(xiàn)代材料研究通常需要在計算模擬和實驗測量緊密結(jié)合的基礎(chǔ)之上進(jìn)行，這樣才能對所關(guān)注材料的結(jié)構(gòu)和性質(zhì)以及它們的合成和加工程序的相關(guān)性有準(zhǔn)確的把握。

2011年，隨著“大數(shù)據(jù)”時代的到來，材料基因組計劃（MGI）隨之推出，該計劃展示了材料科學(xué)界目前已經(jīng)收集的大量的材料相關(guān)數(shù)據(jù)，為材料工程師們提供了對已知材料特性的便利訪問。例如，無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫（ICSD）、超導(dǎo)臨界溫度數(shù)據(jù)庫（SuperCon）、開放量子材料數(shù)據(jù)庫（OQMD）、劍橋結(jié)構(gòu)數(shù)據(jù)庫、哈佛清潔能源項目（HCEP）、材料項目數(shù)據(jù)庫（MP）、材料共享和材料數(shù)據(jù)設(shè)施。這些公開的通用數(shù)據(jù)管理和共享平臺，可以為加速材料發(fā)現(xiàn)和設(shè)計提供強(qiáng)大的動力。

隨著先進(jìn)的材料表征技術(shù)、數(shù)據(jù)采集和存儲能力的不斷發(fā)展提高，人們所擁有的數(shù)據(jù)量越來越龐大。機(jī)器學(xué)習(xí)作為一種查找高維數(shù)據(jù)模式的有力工具，采用特定算法，的算機(jī)可以通過模擬材料屬性和相關(guān)因素之間的線性或非線性關(guān)系來學(xué)習(xí)經(jīng)驗數(shù)據(jù)。近年來，機(jī)器學(xué)習(xí)技術(shù)和大數(shù)據(jù)成功地解決了材料特性與復(fù)雜物理因素之間關(guān)系建模的難題。值得注意的是，機(jī)器學(xué)習(xí)在材料領(lǐng)域當(dāng)前已經(jīng)被成功應(yīng)用。例如，機(jī)器學(xué)習(xí)基于失敗實驗的相關(guān)數(shù)據(jù)，協(xié)助材料工程師篩選出了高效有機(jī)發(fā)光二極管的新材料，這種研發(fā)方案開創(chuàng)了一種材料研發(fā)的新模式。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖2)

圖2 材料基因組計劃

在過去的20年中，與材料科學(xué)相關(guān)的計算機(jī)技術(shù)一直在穩(wěn)步地從“技術(shù)開發(fā)與純計算研究”轉(zhuǎn)向“以計算結(jié)果、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘與計算之間的緊密協(xié)作為指導(dǎo)的新材料的發(fā)現(xiàn)和設(shè)計”。機(jī)器學(xué)習(xí)的優(yōu)勢在于能夠找到一條滿足合理的實驗要求和低錯誤率的路徑，充分利用現(xiàn)有的大量數(shù)據(jù)來加速材料研究過程，包括努力開發(fā)更合適的方法，將傳統(tǒng)的實驗方法與智能數(shù)據(jù)分析技術(shù)相結(jié)合，以提高實驗效率并降低錯誤率。

2 材料科學(xué)中常用的機(jī)器學(xué)習(xí)算法

作為一項科學(xué)技術(shù)，機(jī)器學(xué)習(xí)源于人類對于人工智能的追求。在20世紀(jì)50年代，人們嘗試使用各種符號方法來解決機(jī)器獲取知識的問題，主要是基于大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)。隨后，提出了幾種基于統(tǒng)計學(xué)習(xí)理論（SLT）的方法，如支持向量機(jī)（SVM）和決策樹（DTs）。目前，一些新的機(jī)器方法，如大數(shù)據(jù)分析的深度學(xué)習(xí)，已引起學(xué)術(shù)界和工業(yè)界的關(guān)注。機(jī)器學(xué)習(xí)是一種自動化分析模型構(gòu)建的方法，使用迭代算法學(xué)習(xí)數(shù)據(jù)。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖3)

圖3 材料學(xué)中常用到的機(jī)器學(xué)習(xí)算法

機(jī)器學(xué)習(xí)在高維度數(shù)據(jù)的分類，擬合以及其他的相關(guān)任務(wù)中表現(xiàn)出良好的適用性。為了能從大量數(shù)據(jù)中提取知識并獲得洞察力，機(jī)器學(xué)習(xí)能夠從以前的計算中學(xué)習(xí)并持續(xù)進(jìn)步，從而能夠產(chǎn)生可靠，可重復(fù)的決策和結(jié)果，因此在許多領(lǐng)域發(fā)揮了重要作用，尤其是語音識別，圖像識別，生物信息學(xué)，信息安全和自然語言處理（NLP）。，目前，我們的許多日常活動都是由機(jī)器學(xué)習(xí)算法來提供支持，諸如欺詐監(jiān)測，網(wǎng)絡(luò)搜索，情緒分析，信用評價等。

機(jī)器學(xué)習(xí)在材料科學(xué)中的開創(chuàng)性應(yīng)用可以追溯到20世紀(jì)90年代，當(dāng)時主要是采用符號方法和人工神經(jīng)網(wǎng)絡(luò)（ANNs）等機(jī)器學(xué)習(xí)方法來預(yù)測陶瓷基復(fù)合材料中纖維/基體界面的腐蝕行為，以及拉伸強(qiáng)度等參數(shù)。隨后，機(jī)器學(xué)習(xí)已被用于解決材料科學(xué)中的各種主題，例如新材料發(fā)現(xiàn)和材料特性預(yù)測。

通常，在使用機(jī)器學(xué)習(xí)來解決材料科學(xué)中的給定問題時，應(yīng)該構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)。這種機(jī)器學(xué)習(xí)系統(tǒng)的一般范例如下：

目標(biāo) + 樣本 + 算法 = 模型

在這里，最終目標(biāo)代表給定問題，通常以目標(biāo)函數(shù)的形式表達(dá)。

選擇合適的機(jī)器學(xué)習(xí)算法是構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的關(guān)鍵步驟，因為它極大地影響了預(yù)測精度和泛化能力。每種算法都有自己的應(yīng)用范圍，因此，沒有適用于所有問題的算法。如圖4所示，材料科學(xué)中常用的機(jī)器學(xué)習(xí)算法可以分為四類：概率估計、回歸、聚類和分類。具體而言，概率估計算法主要用于新材料發(fā)現(xiàn)，而回歸、聚類和分類算法用于宏觀和微觀層面的材料特性預(yù)測。此外，機(jī)器學(xué)習(xí)方法通常與各種智能優(yōu)化算法相結(jié)合，例如GA，SAA或PSO算法，主要用于優(yōu)化模型參數(shù)。此外，這些優(yōu)化算法也可用于執(zhí)行其他困難的優(yōu)化任務(wù)，例如空間配置和材料屬性的優(yōu)化。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖4)

圖4 材料科學(xué)中常用的機(jī)器學(xué)習(xí)算法的四大分類

3 機(jī)器學(xué)習(xí)在材料科學(xué)上主要應(yīng)用

尋找性能良好的新材料是材料科學(xué)的永恒主題。當(dāng)前通過實驗和計算篩選來發(fā)現(xiàn)新材料主要涉及元素替換和結(jié)構(gòu)轉(zhuǎn)換。兩種方法也可能需要大量的計算或?qū)嶒灒⑶彝ǔＴ凇案F舉搜索”進(jìn)行了錯誤的方向發(fā)展，這耗費(fèi)了相當(dāng)多的時間和資源。考慮到這一事實和機(jī)器學(xué)習(xí)的優(yōu)勢，如果提出了一種將機(jī)器學(xué)習(xí)與計算模擬相結(jié)合的完全自適應(yīng)方法，用于新材料“計算機(jī)模擬”的評估和篩選，就能夠為新的材料和更好的材料提供建議。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖5)

圖5 機(jī)器學(xué)習(xí)在材料科學(xué)上的主要應(yīng)用

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖6)

圖6 機(jī)器學(xué)習(xí)在材料研發(fā)領(lǐng)域的通常過程

圖7顯示了發(fā)現(xiàn)新材料時機(jī)器學(xué)習(xí)的一般過程。用于發(fā)現(xiàn)新材料的機(jī)器學(xué)習(xí)系統(tǒng)包括兩個部分，即學(xué)習(xí)系統(tǒng)和預(yù)測系統(tǒng)。學(xué)習(xí)系統(tǒng)執(zhí)行數(shù)據(jù)清理，特征選擇以及模型訓(xùn)練和測試的操作。預(yù)測系統(tǒng)應(yīng)用從學(xué)習(xí)系統(tǒng)獲得的模型用于組件和結(jié)構(gòu)預(yù)測。通常通過建議和測試方法“預(yù)測”新材料：預(yù)測系統(tǒng)通過構(gòu)圖推薦和結(jié)構(gòu)推薦來選擇候選結(jié)構(gòu)，并且使用DFT計算來比較它們的相對穩(wěn)定性。

如何在智能信息化時代加速材料科學(xué)的研發(fā)與創(chuàng)新 MatAi(圖7)

圖7 機(jī)器學(xué)習(xí)用來發(fā)現(xiàn)新材料的一般過程

材料晶體結(jié)構(gòu)的預(yù)測和表征構(gòu)成了形成任何合理材料設(shè)計基礎(chǔ)的關(guān)鍵問題。通過晶體結(jié)構(gòu)預(yù)測，可以避免一些不必要的結(jié)構(gòu)實驗，這將大大減少DFT計算和計算資源的消耗，同時也有助于發(fā)現(xiàn)新的材料。在化學(xué)反應(yīng)之后預(yù)測晶體結(jié)構(gòu)甚至更具挑戰(zhàn)性，因為它需要整個反應(yīng)的精確勢能面。即使對于簡單的結(jié)晶，第一原理晶體結(jié)構(gòu)預(yù)測也是困難的，因為需要使用高水平量子化學(xué)方法來考慮組合巨大的組件排列。相比之下，晶體結(jié)構(gòu)預(yù)測的研究在20世紀(jì)80年代之前基本沒有受到關(guān)注。在過去的10年中，機(jī)器學(xué)習(xí)已被用于晶體結(jié)構(gòu)預(yù)測。2003年，Curtarolo等人將啟發(fā)式規(guī)則轉(zhuǎn)移到一個大型數(shù)據(jù)庫中用來計算信息，并通過創(chuàng)造性地結(jié)合機(jī)器學(xué)習(xí)與量子力學(xué)計算成功預(yù)測二元合金的晶體結(jié)構(gòu)。然而，這種機(jī)器學(xué)習(xí)方法的缺點(diǎn)是它只預(yù)測數(shù)據(jù)庫中存在的晶體結(jié)構(gòu)而不是新穎的結(jié)構(gòu)。通過使用電負(fù)性，原子大小和原子位置點(diǎn)來描述晶體結(jié)構(gòu)，Ceder等人通過主成分回歸和貝葉斯概率將電負(fù)性和原子尺寸與晶體結(jié)構(gòu)聯(lián)系起來，研究結(jié)構(gòu)預(yù)測問題，從而深入了解支配結(jié)構(gòu)預(yù)測的物理機(jī)制。從計算或?qū)嶒灁?shù)據(jù)的知識提取的角度來看，F(xiàn)ischer等人構(gòu)建了一個基于信息學(xué)的結(jié)構(gòu)預(yù)測以及結(jié)構(gòu)建議模型即數(shù)據(jù)挖掘結(jié)構(gòu)預(yù)測器（DMSP），它嚴(yán)格地挖掘?qū)嶒灁?shù)據(jù)中包含的相關(guān)性，并使用它們有效地將量子力學(xué)技術(shù)引向穩(wěn)定的晶體結(jié)構(gòu)。Rafael等人針對有機(jī)發(fā)光二極管（OLED）的新型發(fā)光層進(jìn)行了研究。采用機(jī)器學(xué)習(xí)方法篩選有效的OLED分子，其中多任務(wù)神經(jīng)網(wǎng)絡(luò)被用作訓(xùn)練算法，并且使用擴(kuò)展連接指紋（ECFP）將每個分子轉(zhuǎn)換成固定維向量。從400,000個候選分子中，他們通過機(jī)器學(xué)習(xí)預(yù)篩選和協(xié)作決策確定了2500個有前途的新型OLED分子。實現(xiàn)了出色的預(yù)測能力，導(dǎo)致設(shè)備報告效率超過22％。Sendek等人使用LR模型篩選固體鋰離子導(dǎo)體材料。通過在MP數(shù)據(jù)庫中篩選滿足特定要求的材料，他們將候選材料的數(shù)量從12831減少到317，減少了92.2％。然后，他們應(yīng)用LR開發(fā)離子電導(dǎo)率分類模型進(jìn)行進(jìn)一步篩選，最終獲得了21種最有希望的材料，相當(dāng)于總體減少了99.8％。

根據(jù)之前的研究，絕大多數(shù)未能發(fā)表的“黑暗”（失敗）化學(xué)反應(yīng)都存在于實驗室筆記本中。然而，這些反應(yīng)同樣包含有用的信息，它們也可能對新材料的發(fā)現(xiàn)有用。Raccuglia等充分利用了失敗的反應(yīng)數(shù)據(jù)，并展示了一種替代方法，使用SVM衍生的DT算法訓(xùn)練反應(yīng)數(shù)據(jù)來預(yù)測模板化釩亞硒酸鹽結(jié)晶的反應(yīng)結(jié)果。該方法優(yōu)于傳統(tǒng)的人類策略，成功地預(yù)測了新的有機(jī)模板化無機(jī)產(chǎn)物形成的條件，成功率為89％。

組件預(yù)測

組件預(yù)測是發(fā)現(xiàn)新材料的另一種方式。簡而言之，必須決定哪種化學(xué)成分可能形成化合物。機(jī)器學(xué)習(xí)在組件預(yù)測中比在晶體結(jié)構(gòu)預(yù)測中更廣泛地應(yīng)用。經(jīng)驗或半經(jīng)驗方法的瓶頸在于組件的搜索空間非常有限，并且此類搜索需要許多驗證計算和實驗，這可能嚴(yán)重影響新材料發(fā)現(xiàn)進(jìn)度。目前，基于機(jī)器學(xué)習(xí)的組件預(yù)測的研究可以分為兩大類：1）來自給定結(jié)構(gòu)的元素池的元素組合的推薦和2）用于發(fā)現(xiàn)新化合物的離子取代。

4 機(jī)器學(xué)習(xí)的其他應(yīng)用場景

機(jī)器學(xué)習(xí)已應(yīng)用于材料特性預(yù)測和新材料發(fā)現(xiàn)，取得了許多顯著成果。此外，它還用于解決涉及大量計算和實驗的與材料科學(xué)相關(guān)的其他問題。請注意，其中一些問題根本無法通過傳統(tǒng)方法解決。

流程優(yōu)化

工藝優(yōu)化主要是指材料合成中工藝參數(shù)的設(shè)計。在以往的生產(chǎn)實踐中，主要通過理論分析和經(jīng)驗積累制定材料加工程序。模糊神經(jīng)網(wǎng)絡(luò)（FNNs）是一種機(jī)器學(xué)習(xí)方法，它將神經(jīng)網(wǎng)絡(luò)的優(yōu)秀學(xué)習(xí)能力與模糊推理相結(jié)合，推導(dǎo)出模糊系統(tǒng)的初始規(guī)則。使用這些模型，可以快速選擇用于實現(xiàn)所需生產(chǎn)過程中的最佳工藝參數(shù)。

尋找密度函數(shù)

目前，每年有超過10000篇論文報告使用Kohn-Sham（KS）DFT獲得的電子結(jié)構(gòu)問題的解決方案。所有這些都將交換相關(guān)（XC）能量近似為電子自旋密度的函數(shù)。結(jié)果的質(zhì)量關(guān)鍵取決于這些密度函數(shù)近似。例如，對于強(qiáng)相關(guān)系統(tǒng)，目前的函數(shù)近似通常會失敗，使得該方法對于一些最有趣的問題無用。最近，通過定義將機(jī)器學(xué)習(xí)應(yīng)用于DFT問題所需的關(guān)鍵技術(shù)概念，Snyder等人采用機(jī)器學(xué)習(xí)來解決原型密度泛函問題：非相互作用的無旋轉(zhuǎn)費(fèi)米子被限制在一維盒子中，受到平滑的潛力。在近似該系統(tǒng)的動能（KE）時達(dá)到的精度，測試密度低于1千卡/摩爾時的平均絕對誤差，與訓(xùn)練時密度低于100密度的訓(xùn)練組相似，遠(yuǎn)遠(yuǎn)超出任何現(xiàn)有近似值的能力。而且，甚至足以產(chǎn)生高度準(zhǔn)確的自洽密度。這種機(jī)器學(xué)習(xí)近似（MLA）方法使用更多輸入來實現(xiàn)化學(xué)精確度，但對基礎(chǔ)物理學(xué)的了解要少得多。

電池監(jiān)測

電池監(jiān)控是指在運(yùn)行期間連續(xù)確定電池的狀態(tài)。在電池管理系統(tǒng)（BMS）中這是一項具有挑戰(zhàn)性的任務(wù)，因為電池的狀態(tài)受到各種內(nèi)部和外部條件的影響，并且這些條件與電池狀態(tài)之間的關(guān)系是非線性的并且在電池的壽命期間發(fā)生變化。阻抗譜、電壓脈沖響應(yīng)和庫侖計數(shù)是用于電池監(jiān)測的三種主要傳統(tǒng)方法，所有這些方法都有相同的缺點(diǎn)：每種方法僅適用于某種類型的電池，僅用于估算電荷狀態(tài)（SoC）。機(jī)器學(xué)習(xí)提供了一種預(yù)測電池參數(shù)的優(yōu)越方法，因為它具有通過構(gòu)建訓(xùn)練模型來捕獲電池狀態(tài)和相關(guān)因素之間的關(guān)系的優(yōu)勢。目前，科研人員已經(jīng)付出了巨大的努力來使用機(jī)器學(xué)習(xí)方法來實時監(jiān)測各種電池狀態(tài)參數(shù)，例如SoC，容量，阻抗參數(shù)，可用功率，健康狀態(tài)（SoH）和剩余使用壽命（RUL）等參數(shù)。

5 機(jī)器學(xué)習(xí)所面對的問題與解決對策

樣本構(gòu)建

樣本是原始數(shù)據(jù)的子集，以某種規(guī)定的方式被選擇用于研究。在機(jī)器學(xué)習(xí)的上下文中，術(shù)語樣本通常包括訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。目前，與樣本構(gòu)建相關(guān)的問題可以主要分為三種類型：樣本數(shù)據(jù)的來源、特征向量的構(gòu)建和樣本大小的確定。

材料科學(xué)中的樣本數(shù)據(jù)通常來自計算模擬和實驗測量，由不同的研究機(jī)構(gòu)或?qū)W校收集，缺乏集中管理系統(tǒng)。材料數(shù)據(jù)基礎(chǔ)設(shè)施的開發(fā)已經(jīng)緩解了這個問題，盡管每個數(shù)據(jù)庫是分開的而不是以數(shù)據(jù)格式統(tǒng)一，這仍然限制了機(jī)器學(xué)習(xí)的適用性。

特征向量在很大程度上決定了模型預(yù)測的準(zhǔn)確性，因此至關(guān)重要。理想情況下，特征向量應(yīng)為提取主要結(jié)構(gòu)和化學(xué)趨勢提供簡單的物理基礎(chǔ)，從而能夠快速預(yù)測新的材料化學(xué)。材料研究中最常用的特征向量主要包括組成，結(jié)構(gòu)，電子密度和庫侖矩陣。由于每個特征向量都用于特定應(yīng)用，因此不存在對材料研究中的所有應(yīng)用都有效的統(tǒng)一特征向量。

樣本量的確定也是樣本構(gòu)建過程中的一個關(guān)鍵因素，與機(jī)器學(xué)習(xí)中的維數(shù)減少有關(guān)。樣本量確定樣本數(shù)據(jù)是否包含有關(guān)樣本的內(nèi)在規(guī)律的隱含信息，這很大程度上取決于研究項目和所選擇的機(jī)器學(xué)習(xí)方法。鑒于一些參數(shù)很少且復(fù)雜度較低的方法，例如SVM方法，當(dāng)樣本量較小時可以很好地執(zhí)行，人工神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型也可以實現(xiàn)高預(yù)測精度。質(zhì)量樣本數(shù)據(jù)，無論樣本大小。

可理解性

目前，大多數(shù)機(jī)器學(xué)習(xí)模型被視為“黑匣子”，這意味著這種模型提取的知識難以理解。例如，當(dāng)使用SVM模型來解決分類或回歸問題時，通過訓(xùn)練獲得的最佳分類平面和/或擬合曲線的參數(shù)是不可見的并且隱藏在模型中。知識表示的可懂度是評估學(xué)習(xí)算法的重要指標(biāo)之一。在大多數(shù)領(lǐng)域，機(jī)器學(xué)習(xí)模型應(yīng)該是可理解的，因為它往往被視為具有可理解模式和規(guī)則的模型。機(jī)器學(xué)習(xí)在材料研究中的應(yīng)用同樣需要具有良好可理解性的模型。在應(yīng)用機(jī)器學(xué)習(xí)來預(yù)測材料行為的早期階段，使用具有良好可懂度的符號機(jī)器學(xué)習(xí)方法。然而，隨著統(tǒng)計學(xué)習(xí)方法的發(fā)展，出現(xiàn)了可懂度差的問題。因此，如何將“黑匣子”變成“白盒子”并提高模型的可懂度的問題目前是一個需要立即解決的問題。解決此類問題的最常用方法如下：1）嘗試開發(fā)更易理解的算法并避免使用可懂度差的算法。楊等人提出了一種研究人工神經(jīng)網(wǎng)絡(luò)解釋能力的方法，從而成功克服了“黑匣子”問題。2）從難以理解的算法的結(jié)果中提取知識。

可用性

可用性是使用機(jī)器學(xué)習(xí)方法解決實際問題的復(fù)雜程度。在材料科學(xué)中應(yīng)用機(jī)器學(xué)習(xí)的復(fù)雜性體現(xiàn)在兩個方面。1）機(jī)器學(xué)習(xí)過程很復(fù)雜，沒有專業(yè)知識和指導(dǎo)就無法完成。例如，當(dāng)使用機(jī)器學(xué)習(xí)進(jìn)行材料屬性預(yù)測時，應(yīng)該應(yīng)用降維和相關(guān)分析來提高模型的預(yù)測精度。報道了一項關(guān)于晶體結(jié)構(gòu)預(yù)測的研究，其中使用PCA來降低由于樣品的高維度導(dǎo)致的問題的高維度，這有助于提高預(yù)測準(zhǔn)確性。使用條件屬性相關(guān)分析來解釋有機(jī)聚合物材料的性質(zhì)的預(yù)測結(jié)果。2）參數(shù)的確定也是一項復(fù)雜的任務(wù)。由于機(jī)器學(xué)習(xí)方法對這些參數(shù)和內(nèi)核函數(shù)非常敏感，因此參數(shù)確定是機(jī)器學(xué)習(xí)過程中的關(guān)鍵步驟。材料科學(xué)中使用的機(jī)器學(xué)習(xí)方法的參數(shù)主要通過手動調(diào)整或基于經(jīng)驗來確定。此外，采用一些優(yōu)化算法來優(yōu)化這些參數(shù)。

學(xué)習(xí)效率

機(jī)器學(xué)習(xí)的速度與其實際應(yīng)用直接相關(guān)。雖然在模型訓(xùn)練和測試中總是追求高速，但是不可能同時實現(xiàn)兩者。例如，KNN方法訓(xùn)練速度高但測試速度低，而神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練速度低但測試速度高。目前，學(xué)習(xí)效率問題在材料科學(xué)的機(jī)器學(xué)習(xí)應(yīng)用中并不是很重要，因為這些機(jī)器學(xué)習(xí)應(yīng)用的樣本量很小，從幾十到幾千不等。然而，隨著世界各國材料基因組計劃的推進(jìn)，材料科學(xué)將進(jìn)入“大數(shù)據(jù)”時代，數(shù)據(jù)量將變得巨大，這將對學(xué)習(xí)效率帶來巨大挑戰(zhàn)。因此，如何提高機(jī)器學(xué)習(xí)學(xué)習(xí)效率的問題也將成為迫切需要解決的問題。為此，我們需要研究在該領(lǐng)域采用高性能計算方法（如并行計算和云計算）的可能性。

技術(shù)相關(guān)文章：

材料研究迎來9大方面機(jī)遇

未來全球15大熱門研究方

石墨烯是什么？有哪些應(yīng)用和特點(diǎn)？

文章來源：http://gang.josen.net/index.html

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱：steeltube@foxmail.com