收藏本站
《中国石油大学(北京)》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

新型特征选择与机器学习结合方法在化工数据中的应用

刘哲夫  
【摘要】:化工过程随着大规模的实验、观测与模拟的应用而产生大量复杂数据。由于测量仪器成本的降低,化工数据应用面临的问题往往并非数据信息量的不足,而恰恰相反是数据信息范围过大及更微妙的数据关联性。在此背景下,特征(变量)选择近年来成为了许多相关化工领域研究的热点问题。鉴于已有变量选择方法存在的不足,针对化工数据的强非线性及机理复杂等特点,本文提出相匹配的新型特征选择方法及增强优化方法,结合多种化工数据进行案例分析,在提高预测精度并降低模型复杂度的同时,也加深了对相应案例机理的理解。为了应对化工领域对快速特征选择的需求,本文开发了基于Boruta算法的新型顺序消除特征法。利用Boruta算法对变量重要性评估的稳定性,结合快速的贪婪式搜索,逐步减少原始数据中的特征数量,并得到一系列不同长度的特征子集以供决策者考量。本文将该方法应用在化合物可降解性数据的研究中,构建了16个不同长度的特征子集,其中最优子集的预测精度在外部验证数据集的性能较已有结果提升了1.4%。在CO_2吸收工艺数据应用中,此方法成功地将预测3个过程变量所需的操作变量都压缩至4个,取得最佳验证效果的同时简化了模型,为进一步优化奠定基础。卷积法可以应对化工领域对较高预测精度的需求,但过拟合问题是影响卷积法预测性能的主要威胁之一。针对卷积法易产生过拟合的问题,本文开发了新的单目标卷积法,其混合自组织映射(SOM)与随机森林方法(RF)对原始特征集聚类,进而选出代表性特征集并将其强制加入最终子集,以尽可能涵盖原始数据信息。在取得代表性特征集的基础上,通过适当调节遗传算法(GA)的算子参数以控制搜索深度。本文将该方法应用在化合物可降解的数据中,通过比较6种搜索情景下的性能,发现GA中变异与交叉概率分别为0.3和0.2时新型卷积法SOM-RF展现出了良好的抗过拟合性能,同时将前人的总预测精度从0.877提升到了0.893。根据奥卡姆剃刀原理,卷积法过拟合的原因之一是在子集中引入过多的特征,因此本文引入了多目标卷积法,其同时考虑了模型的复杂度与预测精度,给出了模型泛化性能随着引入子集中特征的数量变化所引起的趋势,并将其应用到了汽油馏分的纯组分辛烷值预测中。本文采用结构性质关联模型(QSPR)对汽油馏分中纯组分的辛烷值进性了预测,为了增强模型通用性,数据集中包含了一定数量的含氧及含氮化合物。针对过多的分子描述符会降低模型性能的情况,本文采用了两步特征子集优选法。第一步基于皮尔逊系数和Boruta算法进行过滤;第二步针对单目标卷积法倾向于使用较多特征数量而易产生过拟合的问题,引入了多目标卷积法,其同时考察了模型复杂度和泛化性能,提供了特征子集长度与模型预测精度的变化曲线。通过这些手段,本文最终找到分别包含12个和23个描述符的特征子集用以预测研究法(RON)和马达法辛烷值(MON)。基于优选子集使用支持向量机建模对RON和MON预测的平均绝对误差分别在4和4.4个单位以下,预测效果较前人结果,RON精度相近,MON的误差降低了1.3个单位,但是模型的通用性更强。为了更好解决多目标卷积法在搜索过程中存在的过拟合问题,本文提出新型目标函数weighted-sum,并将其与随机森林有效结合,兼顾了训练集中验证效果与“选择集”中的泛化性能。传统避免过拟合的方法随机性较强,需要重复多次试验,从而耗时过长。针对该问题,本文提出了两阶段多目标卷积法。第一阶段采用线性分类器线性判别分析与多目标优化算法NSGA-Ⅱ结合产生候选子集,第二阶段采用非线性分类器对候选子集进行精炼。本文在最为耗时的优化过程中采用了线性分类器,大大降低了优化时间,并且第二阶段的精炼结合weighted-sum目标函数保证了子集的预测性能。本文将该方法应用在化合物可降解数据中,得到了两个重要的结果:首先,找到了包含19个分子描述符的最佳精度0.894,与之前结果相比,在保持精度相当的基础上大大提高了稳定性;其次得到了精度较优的短特征子集,包含5和6个分子描述符的特征子集具备了超出0.88的精度,大大简化了原有模型。由于特征选择本质上仍属于优化问题,对于优化方法有着较高的依赖性,因此对于优化算法的组合研究也很有必要。本文将遗传算法与模式搜索相结合(GA-GPS),并将其引入Lugri类型甲醇生产厂的优化中。通过对壳层温度轨迹和CO_2循环率的优化,结果显示当CO_2循环率为5%时反应器产率提高了2.53%,增加了经济效益同时减少CO_2的排放。混合优化算法对于改进特征选择效果也有着较为广阔的前景。综上所述,恰当的特征优化策略结合先进机器学习方法可以在提高化工数据预测精度的同时简化模型的复杂度,将海量化工数据的“黑箱”变“灰”,为进一步深挖机理,彻底将机理变“白”奠定了基础。
【学位授予单位】:中国石油大学(北京)
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TQ015.9

【相似文献】
中国期刊全文数据库 前10条
1 孔莉芳;张虹;;用于特征子集选择的异步并行微粒群优化方法[J];控制与决策;2012年07期
2 乔立岩;彭喜元;马云彤;;基于遗传算法和支持向量机的特征子集选择方法[J];电子测量与仪器学报;2006年01期
3 乔立岩;彭喜元;彭宇;;基于微粒群算法和支持向量机的特征子集选择方法[J];电子学报;2006年03期
4 郑继绍;朱文兴;;最优特征子集的遗传算法求解[J];莆田学院学报;2006年02期
5 武志峰;陈冬霞;;基于遗传算法的特征子集选择方法[J];河北省科学院学报;2006年03期
6 李继荣;;多类问题中最优特征子集选取的研究[J];自动化技术与应用;2006年12期
7 王兴起,孔繁胜;容忍噪音的特征子集选择算法研究[J];计算机研究与发展;2002年12期
8 李继荣;郑顾平;;特征子集选取中相似性度量公式的研究[J];计算机与现代化;2007年03期
9 钱国良,舒文豪,陈彬,权光日;基于信息熵的特征子集选择启发式算法的研究[J];软件学报;1998年12期
10 贺兴时;于洁琼;李丽丽;;基于互信息的特征子集选择[J];西安工程大学学报;2008年03期
中国重要会议论文全文数据库 前8条
1 易超群;李建平;朱成文;;一种改进的浮动搜索特征子集算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 张隆;余建桥;;基于最小特征子集的数据分类算法[A];’2004计算机应用技术交流会议论文集[C];2004年
4 袁帅;杨宏晖;申昇;;基于云模型的特征评价准则[A];第三届上海——西安声学学会学术会议论文集[C];2013年
5 李文法;段洣毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王宏威;李国和;李雪;吴卫江;李洪奇;;连续型特征的特征选取方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
8 曹薇薇;刘国华;陈国涛;赵峰;;模拟退火在支持向量数据描述的参数选取和特征选择中的应用[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
中国博士188bet全文数据库 前9条
1 刘哲夫;新型特征选择与机器学习结合方法在化工数据中的应用[D];中国石油大学(北京);2016年
2 舒文豪;面向动态不完备数据的特征选择模型与算法研究[D];北京交通大学;2015年
3 王玲;基于图像特征选择的田间籽棉成熟度与品级判别技术研究[D];南京农业大学;2009年
4 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
5 刘义海;基于信息融合的水中目标属性识别关键技术研究[D];西北工业大学;2015年
6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
7 李杨;基于广域动态信息的电力系统暂态稳定评估研究[D];华北电力大学;2014年
8 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
9 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年
中国硕士188bet全文数据库 前10条
1 夏文春;基于MapReduce的全基因组关联分析技术研究与实现[D];东北大学;2015年
2 吴冠朋;基于智能计算的HBV病毒再激活分类预测模型研究[D];齐鲁工业大学;2017年
3 路小英;基于模糊扩张矩阵多类问题的最优特征子集抽取[D];河北大学;2005年
4 吴培;面向行人检测的代表性特征子集获取方法研究[D];中国科学技术大学;2009年
5 张箫;一种数据挖掘中的特征子集选取模型研究和应用[D];华中师范大学;2011年
6 张方方;基于特征选择的多侧面覆盖算法[D];安徽大学;2011年
7 李学俊;基于归纳学习和范例推理的智能决策支持系统的研究[D];安徽大学;2005年
8 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
9 汪保男;相关分析在异常检测中的应用研究[D];西安科技大学;2010年
10 常艺伟;基于音乐库的用户音乐分类方法研究[D];华中科技大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026