比来,机械进修在化学范畴的运用有很年夜停顿,特殊是化学搜刮成绩,从药物挑选、电池设计到OLEDs设计,催化剂的发明。 汗青上化学家应用薛定谔方程做数值近似来处理化学检索成绩,如应用密度泛函实际(DFT),但是近似值的盘算本钱限制了搜刮的范围。
为了可以或许扩展搜刮才能,雷锋网懂得到已有几个研讨小组应用DFT生成的练习数据,创立ML模子来猜测化学性质,例如Matthias Rupp等用机械进修模子来猜测各类无机份子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经收集表征。在这些任务的基本之上,谷歌研讨院在QM9基准数据集(配有DFT盘算的电子,热力学和振动性质的份子聚集)上运用了各类机械进修办法。
谷歌研讨院宣布了两篇论文,引见了他们在这一范畴的研讨,研讨任务由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔年夜学协作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》查询拜访了回归份子和份子表征的选择对疾速机械进修模子的影响,模子用于构建无机份子的十三个基态电子性质,每一个回归/表征/性质组合的机能经由过程进修曲线评价,该曲线描写近似误差,以此作为练习集年夜小的函数。论文在QM9基准数据集上测试了多种机械进修办法,并集中改良最有愿望的深层神经收集模子。
第二篇论文《Neural Message Passing for Quantum Chemistry》描写了一种称为新闻传递神经收集(MPNN)的模子族,将其笼统地界说为包括许多对图形对称性具有不变性的神经收集模子。研讨团队在MPNN模子族中开辟了新变体,机能显著优于QM9基准测试的一切基准测试办法,别的某些目的的机能改良了近四倍。
从机械进修的角度来看,份子数据之所以风趣,缘由之一是一个份子的天然表征以原子作为界限的结点和键。可以或许应用数据中固有对称性的模子更轻易泛化,这很轻易懂得,卷积神经收集在图象辨认上之所以胜利,一部门缘由是模子可以或许记住图象数据中的一些不变性常识,好比把一种图片中的狗挪到图片右边照样一张狗的照片)。 图形对称性这一固有特点是机械进修处置图象数据异常幻想的性质,在这范畴也有很多风趣的研讨,例如Yujia Li等研讨了却构化图片的特点进修技能,David Duvenaud等运用图象神经收集进修份子指纹信息,Steven Kearnes等提出一种机械进修模子用于无向图的进修。虽然这一范畴已有所停顿,谷歌研讨院愿望找到化学(和其他)运用模子的最好版本,并找出文献中提到的分歧模子之间的接洽。
谷歌研讨院提出的MPNN模子进步了QM9数据集义务(猜测一切13种化学性质)的最好机能,在这个特定的数据集上,他们的模子可以精确地猜测13种性质中的11个,如许的猜测机能曾经足够精确,能对化学家将来的运用有赞助。别的,此模子比应用DFT模仿要快30万倍。然则在MPNN模子走向现实运用之前还有许多任务要做。现实上,MPNN模子必需运用于比QM9数据更多样化的份子聚集(例如数量更年夜,变更更年夜的重原子聚集)。固然,即便有了更真实的数据集,模子的泛化机能照样很差。战胜以上两个挑衅须要处理机械进修研讨的焦点成绩,例如泛化。
猜测份子性质是一个异常主要的成绩,它既是先辈的机械进修技巧的运用场景,也为机械进修带来了异常风趣的基本研讨课题。最初,份子性质的猜测有助于造福人类的新药物和资料的设计。谷歌迷信家们以为流传研讨结果,赞助其他研讨者进修机械进修运用都是及其主要的。