ACS Catalysis:基于知识图谱设计开发二氧化碳还原铜基电催化剂

  • 171
  • A+
研究背景


电催化在可持续的燃料和化学品的生产中起着重要的作用。人工智能与催化科学的结合在提取、分析和预测电催化剂方面显示出了巨大的潜力。然而,目前开发的机器学习方法通常需要来自密度泛函理论计算的大量数据来训练和优化模型。相比之下,知识图有可能从大量的文献中提取有用的信息,而不参考密度泛函理论。在此,国家纳米科学中心王斌和中国科学院大学杜一等人基于语言丰富的scibert框架,构建了基于铜的电化学还原二氧化碳电催化剂的知识图。这项工作为将人工智能与催化科学相结合的方式进行催化剂设计铺平了道路。
数据信息
为了构建电催化论文摘要数据集,作者从Web of Science上检索了不同年份的二氧化碳电催化还原方向的论文并下载。考虑到论文的时效性,数据集主要集中在近三十年的论文上。通常,一篇论文的核心内容都包含在标题和摘要中,所以我们选择这些论文的标题和摘要来提取材料、调控方法、产品、法拉第效率等信息。其他一些因素,如电池设置、电解质、合成方法等对二氧化碳还原也很重要,但可能不会出现在摘要中。
作者对包含2386个句子的10,316个实体标签进行了标记,从论文的标题和摘要中开发了一个新标记的命名实体识别语料库。使用BIO标准注释了四种实体类型:材料、合成方法、产品和法拉第效率,其中“B”表示实体的第一个单词,“I”表示同一实体的剩余单词,“O”表示被标记的单词不是一个命名的实体,表S2显示了每个实体标记。由于BERT具有较强的语义表示优势,本文利用BERT来获得上下文的字符向量,以提高实体识别的性能。BERT模型采用了多层双向变压器编码器结构。变压器模型是一种基于自注意机制的新型文本序列网络体系结构。它主要是调整权重系数矩阵,通过同一句子中单词之间的关联度来获得单词的特征。BERT输入表示通过令牌嵌入、段嵌入和位置嵌入进行拼接。为了尽可能消除情绪表达对预测任务的影响,作者对电催化数据集进行了修改,删除了带有潜在情绪色彩的单词,如“high efficiency”、“enhanced efficiency”、“improved faradaic efficiency”等。
为便于数据呈现,命名实体识别评价指标四舍五入到小数点后四位,法拉第效率预测评价指标四舍五入到小数点后三位。为了便于统计分析,语料库的具体规模如表S3所示。从构建的知识图中,作者共提取了576个法拉第效率数据样本,采用实体级microof和标签级precision、recall、F1-score作为统计指标评价NER模型的性能(表S4),并采用MSE、MAE和R2作为统计指标评价Faradaic效率预测模型的性能。本研究采用Python编程语言。该模型和相关代码可以在GitHub存储库中获得:https://github.com/cxqwindy/AI-CO2_reduction。
结果与讨论
文章框架的体系结构如图1所示,该框架可分为四个部分:(a)数据预处理,(b)命名实体识别,(c)知识图谱构建,(d) Faradaic效率预测。数据预处理模块检索757篇关于Cu基催化剂用于电催化CO2还原的论文的标题、摘要和全文,其中包含作者对材料、调节方法、产品、法拉第效率、电池设置、电解质、合成方法、电流密度和电压的注释数据,详见实验部分(表S1)。这些关键项目涵盖了CO2减排的核心概念,对新型催化剂的设计具有指导意义。
整个模型通过以下步骤进行操作:(i)通过BERT预训练向量获得输入语料库字符的语义表示,(ii)在获得每个句子的向量表示后将字符向量序列输入到BiLSTM中进行进一步的语义编码,(iii)在CRF层输出概率最大的标签序列。通过充分利用SciBERT在预训练过程中获得的大量语义信息作为知识转移,可以实现了一个泛化能力强、可用性好的BiLSTM-CRF模型体系结构。据此,作者构建Cu基CO2还原电催化剂的知识图谱,其中节点表示相关材料对应的数据点,边表示它们之间使用余弦相似度度量的相关性。Faradaic效率预测模块分别使用SciBERT和VGAE对知识图和知识三元组关联产生的语义信息进行处理,然后结合上述两种编码,使用线性函数对目标情况进行Faradaic效率预测。
1
图1 知识图谱绘制思路
经过NER模块的训练,从Cu基电催化剂CO2还原的催化科学文献的标题和摘要中提取出材料、调节方法、产品和法拉第效率四类命名实体。这一重要信息能够比传统的评论文件更清楚、更彻底地分析和跟踪这一领域的发展趋势。如图2a所示,近十几年来,与Cu基电催化剂相关的论文数量迅速增长,近年来研究的主要电催化剂是Cu、Cu-M(Cu和其他金属的二元金属体系)和CuOx,而Cu/C和Cu(Ox)-MOx(铜或铜氧化物与其他金属氧化物的混合物)正在发展。图2b给出了CO2电还原的材料、调控方法和产品的整体呈现,从中可以看出铜基电催化剂的研究现状。从球的分布来看,二元Cu−M体系倾向于通过结构控制或合金化生成C1产物(主要指CO和HCOOH),而Cu和CuOx对C2+产物(如C2H4、C2H5OH、CH3COOH等)具有较高的选择性。在调节方法方面,结构控制(主要是指调节催化剂的形态、孔隙度、相和结构)是催化剂设计中最常用的方法,而其他方法则与催化剂的类型高度相关。例如,合金只能在Cu−M体系中形成,Cu原子的原子级分散主要出现在Cu分子配合物和Cu/C中。
此外,为了跟踪发展趋势,绘制了一个冲积图来显示铜基合金电催化剂的发展(图2c)。虽然铜基合金在20世纪90年代初就已被开发出来,但直到最近几年才得到广泛的研究。通过合金与产品之间的对应关系,合金金属M的类型对还原产品的影响有着复杂的影响。对于生产CO的合金金属(Ag、Au和Zn),主要产品仍为CO,而对于生产HCOOH的金属(In、Sn和Bi),CO和甲酸成为主要产品。在产生H2的金属(Ti、Ni、Ni、Pt和Pd)中,产品包括多种碳氢化合物和氧化物。此外,虽然铜基合金的主要产品仍然是CO和甲酸,但越来越多的新开发的合金致力于生产C2+产品。
2
图2 (a)(上)过去十几年发表的文章中各种铜基电催化剂的堆叠直方图。(下)按年归一化的文章中铜基电催化剂百分比的堆叠直方图。(b)对二氧化碳还原的材料、产品和方法的总体表示。球的大小表示相应论文的数量。(c)冲积图显示了过去30年铜基合金电催化剂的发展
此外,为了进一步系统地了解铜基电催化剂复杂的材料-产物关系(图3),作者绘制弦图。各种材料及其主要产物之间的相关性为该子领域的研究人员提供了面向产品的催化剂筛选的可视化指导。例如,在寻找生成HCOOH的催化剂时,除了众所周知的Cu-M外,Cu/C和CuSx都具有很高的选择性。当针对另一种有用的化学物质C2H5OH时,Cu-M、Cu/C、Cu、CuOx和M-CuOx等几种材料表现出类似的潜力,这表明研究人员尚未找到最佳催化剂或尚未达成一致,因此,这个方向值得更多的努力。此外,一些潜在的关联也可以在图3中反映出来。一般认为Cu/C易于生成C1产物,然而,它也显示出获得C3产物的合成能力,如正丙醇和丙酮。
3
图3  铜基催化剂材料与二氧化碳电还原科学文献中主要产品的弦图
如图4所示,绘制了材料及其三个主要产品之间的关系。可以看出,有一些相关性良好的产物对,如C2H4−C2H5OH、C2H5OH−丙醇和CH4−CO等。这说明不同产物在电催化二氧化碳还原过程中的反应机理之间存在一定的相关性。简而言之,这些发现通过知识图的辅助,为基于铜的催化剂设计提供了一个整体和集成的视角。
4
图4 冲积图显示了材料及其三个主要产品之间的关系
图5为作者提出的法拉第效率预测的总体数据架构,包含两个主要模块:图形嵌入和图形嵌入。单词嵌入模块采用SciBERT作为序列编码器,从一种二氧化碳约简方法的语义信息中获取语义信息。由于方法类型和材料类型都是分类标签,所以也在单词嵌入中应用了类型嵌入。图嵌入模块提取邻域信息由VGAE构造的知识图得到。随后,作者结合单词嵌入和图嵌入来预测目标情况下的法拉第效率。与传统的方法相比,此方法利用了二氧化碳约简知识图中的语义信息和关系知识,这已被证明可以有效提高预测能力。
5
图5 法拉第效率预测的总体数据架构
从构建的知识图谱中,作者总共提取了725个法拉第效率数据样本。整个数据集被分成训练集、验证集和测试集。训练集(70%)用于拟合模型参数,验证集(15%)用于评估超参数调优,测试集(15%)用于评估预测性能。为了评估提出的方法具备可行性,作者将模型与其他几种传统方法进行了比较,包括多层感知器、支持向量回归、线性回归、贝叶斯脊回归(BRR)和高斯过程回归(GPR)。图6a和表2显示了提出的方法与其他传统方法在同一测试集上的法拉第效率预测性能的比较。研究发现,本文提出的模型R2值最高,为0.841,优于其他参考方法。本文方法的优越性能主要归功于:一方面,本文方法采用SciBERT作为语义编码器,通过各层左右上下文的联合条件作用,从未标记文本中获得源纹理序列的表示。SciBERT中的转换层通过使用注意机制收集有关单词相关上下文的信息,并将该上下文编码为表示该单词的丰富度,将一个单词与句子中所有其他单词的关系一次性处理,而不是单独处理。因此,该方法可以在更精细的层次上理解表达式的细微差别。另一方面,本文方法中的VGAE模块基于构建的知识图,在图的顶点之间传播语言表示,并利用潜在变量学习可解释的潜在表示,捕获邻居之间的依赖关系,防止断开节点之间的信息流。
图6b显示了使用提出的方法进行的所有测试结果的回归图,模型预测十分贴近于实验值。作为法拉第效率预测的典型案例,此模型在处理具有多孔/海绵状形貌的Cu−Sn催化剂时产生甲酸时,得到了与实验值最接近的结果(图6c)。
0
图6 机器学习方法评估模型
结论与展望
作者基于一个新颖的语言丰富的基于scibert的框架,构建了铜基电催化剂用于电催化二氧化碳还原的知识图谱。该框架可以从科学文献中检索多种类型的实体,包括材料、调节方法、产品和法拉第效率等,生成具有丰富领域特定语义信息的表示,并表现出处理二氧化碳减排电催化剂的吸引力。研究结果揭示了近十年来铜基CO2还原电催化剂的发展历程、催化剂与催化活性的关系、催化剂设计的发展趋势以及形态和成分对活性的影响。
本工作提出了一种基于深度学习的Faradaic效率预测方法,该方法将科学文献的语义信息(词嵌入)与知识三元组的相关性(图嵌入)相结合,从而优于其他传统方法。该方法证明了将特定的NLP技术应用到二氧化碳减排领域,这种方法将有助于研究人员以将人工智能与催化科学相结合的方式开发新的催化剂。
文献信息
Gao, Y., Wang, L., Chen, X., Du, Y., & Wang, B. (2023). Revisiting Electrocatalyst Design by a Knowledge Graph of Cu-Based Catalysts for CO2 Reduction. ACS Catalysis, 13, 8525-8534.
https://doi.org/10.1021/acscatal.3c00759




weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: