课程简介
机器学习在电催化领域的火热与迅猛发展相比,机器学习在电催化领域的研究资料却相对匮乏。很多电催化领域的研究者们想在自己的领域中使用机器学习,却因数学与编程对其望而却步。为了有效降低大家入门机器学习的门槛,华算科技黄老师原创设计了机器学习与电催化课程,课程同时包含理论与实操部分,并包含大量电催化中使用机器学习的研究案例,可以帮助大家快速掌握机器学习这一有力工具,并快速使用到自己的研究之中。
课程内容
一、机器学习简介
认识机器学习,了解机器学习基本思想。了解机器学习在化学中的应用以及近年逐渐火热的原因,了解当代化学学习的四个范式。
二、基础模型
学习sklearn库,学习线性回归,广义线性回归,利用线性模型解决电催化中HER案例。学习约束项的添加与使用方法,理解约束项添加的必要性,理解套索回归、岭回归、弹性网基本原理,对OER案例使用约束项,学习机器学习案例文献。
三、模型评估
学习欠拟合与过拟合的概念,掌握模型评价方法并了解其必要性,了解训练误差、测试误差、泛化误差的区别与联系,学习留出法、交叉验证法、自助法,并掌握各种模型评估方法的使用代码,并在OER案例中进行实际应用。
四、分类算法
学习决策树算法、逻辑回归算法、k近邻算法、Bayes算法与支持向量机算法。了解不同算法基本原理,掌握不同分类算法的基本使用。使用分类算法对OER机理、纳米粒子进行分类。学习分类算法的可视化,学习分类算法的性能度量方法。
五、回归算法
学习神经网络算法、支持向量机算法的基本原理,掌握Python中回归算法使用方法。学习数据的归一化、标准化。使用机器学习模型对OER超电势进行预测,学习Pearson相关系数,查看数据相关性,使用Python求算数据相关性,并对相关系数进行可视化,学习机器学习文献,进行文献详读。
六、集成学习
学习决策树回归算法,学习集成学习方法。集成学习由于结果更加精确、稳定、强壮,逐渐成为机器学习的主流算法。本节将主要学习Bagging与Boosting两种类型的集成学习方法,学习其原理与基本使用,学习XGBoost算法。学习互信息,特征重要性,SHAP。学习使用集成学习解决MXene材料、CO2RR、OER断键实例中的问题。
七、描述符与预处理
梳理常用的数据预处理方法,学习缺失值的处理,重复值的处理,数据格式的转换。学习原子描述符,库伦矩阵描述符,Magpie描述符,密度描述符,学习描述符的添加与使用方式,并尝试对钙钛矿案例、吸附能案例手动添加描述符。
八、总结
通过前面课程的学习,同学们已经能掌握机器学习在电催化领域使用的基本思路,本节将对所学机器学习算法进行总结,并讲述算法选择基本技巧,讲述机器学习初学者常见错误及避免方法。
黄博士:华算科技全职技术专家,武汉大学本科,北京大学博士,新加坡国立大学访问学者。目前已发表SCI文章共20篇,其中第一作者文章5篇,单篇最高影响因子>40。 从事理论计算与实验化学研究工作十年,擅长使用机器学习进行化学理论的研究及实验数据的处理,曾获华中地区数学建模邀请赛三等奖,北京大学游戏AI对抗全国邀请赛第四名等相关奖项。