特征选择的降维方法在配网工程项目工期预测模型中的应用

付健艺王晓辉石哲方侯诗洋

摘要

针对影响配网工程项目工期的因素多，情况复杂的特点，提出了一种对工程项目数据样本进行多步骤降维，提取主要因素的方法。第一步，得到影响配网工程项目工期的因素集合;第二步，利用超限学习机（Extreme Learning Machine， ELM）分类器对工程项目的数据样本进行分析，得到数量少但预测能力强的主要因素的集合;第三步，利用得到的样本因素集建立配网工程项目工期的预测模型。实验表明，该方法能快速有效地提取配网工程项目数据的主要因素，并提高工期时长的预测精度。

关键词

工程项目;工期;超限学习机;降维;预测模型

中图分类号： TM72;F426.61 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457.2020.04.63

0 引言

目前，供电企业在配网项目工程进度管控和工程计划实时调整的过程中存在以下难题：一是国家电网对配网工程中各步骤流程的时限没有明确的标准和规定，且各地区配网工程推进各有特点，工程中各步骤耗时大不相同，很难以统一的标准来限定，造成公司在工程进度的管控中基本依靠经验来判断“快”和“慢”、“来得及”或者“来不及”，配网工程全过程精益管控很难实现;二是由于无法用准确的数據来定量分析工程各阶段进度的滞后或者超前，导致工程计划的制定和变更比较粗糙，工程完工的实际耗时与计划安排大相径庭;三是公司缺少项目进程中对项目总工期的实时预测能力和超时风险评估机制，造成工程项目超期完工时有发生。

然而，工期时长的预测模型的研究并不多见，[1]利用BP神经网络模型能够逼近任意复杂的非线性系统这一特点，建立了一个工程进度控制模型，但BP算法有可能陷入局部极值，使训练失败，并且学习速度很慢。[2]利用最小二乘支持向量机设计了一种建设工程项目工序工期的预测模型。支持向量机很大程度上简化了分类和回归等问题，但由于支持向量机是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算（m为样本的个数），当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。[3]通过研究发现，影响工程进度的因素主要有10种，包括工程的前期准备工作、人力、材料、进度安排的精确性、工程进展过程中的协调、返工、设备数量、天气状况等各种因素。针对以上问题，并结合网工程项目工期的因素多，情况复杂的特点，本文利用超限学习机设计了一种多步骤降维的方法，提取配网工程项目数据样本的主要因素，得到数量少但预测能力强的主要因素，用来建立配网工程项目的预测模型。能为工程计划的实时变更提供数据支撑，大大减少工程超期完工的可能性，有效提升工程全过程精益化管控能力，加强工程计划的准确性，有效降低项目超期风险。

1 相关工作

[4]构造了一种命名为“超限学习机”（Extreme learning machine， ELM）的单隐层前馈神经网络结构，该算法中输入权和隐层偏置为随机生成，仅需求解输出权重，因此是一个线性参数模式（linear-in-the-parameter model），其学习过程易于在全局极小值收敛。已知N个学习样本，对包含L个隐层节点和M个输出层节点的超限学习机进行训练的基本步骤为：

对于给定的N个输入模式向量x1，x2，…，xN∈Rn和N个相应的输出向量o1，o2，…，oN∈Rm图1中的N个线性输出方程可表示为（[5-6]）：

其中输入权wi=[wi1，wi2，…，win]T是连接第i个隐层结点的输入权值，输出权βi=[βi1，βi2，…，βiL]T是连接第i个隐层结点的输出权值，bi是第i个隐层结点的偏置，f（wi，bi，x）为第i个隐层节点的输出，激活函数f可以是任意有界的非常量连续函数。

本文的第3节阐述了多步骤降维的具体思路与步骤，第4节用工程实例来验证方法的有效性，第5节对全文进行总结。

2 多步骤降维选主要因素的方法

除了前期准备工作、人力、材料、进度安排的精确性、工程进展过程中的协调、返工、设备数量、天气状况等各种共通的因素之外，配网工程项目还有一些独特的影响因素，我们将高压线路长度、低压线路长度、电缆长度、配变容量、地理调整系数等独特的因素和工程项目共通的因素合并成一个的影响配网工程项目工期时长的因素集。

选取配网工程项目主要因素的降维算法描述如下：

步1：用上述因素集中的所有因素训练超限学习机分类器，用10折交叉验证得到分类精度p;

步2：随机临时剔除因素集中的某个因素，重新训练超限学习机分类器，并用10折交叉验证得到分类精度p;

步3：如果p大于p，则说明被剔除的这个因素对分类结果有贡献，应该保留;反之则正式剔除;

步4：重复以上步骤，直到剩下的因素无法剔除为止;

步5：利用新的因素集训练超限学习机预测配网工程项目工期时长。

3 实验

数据来源：浙江省丽水市2015年至2017年配网工程项目，天气数据通过丽水统计局网站、中国天气网、丽水水文信息网等途径收集。选择前期准备工作、人力、材料、进度安排的精确性、工程进展过程中的协调、返工、设备数量、天气状况、高压线路长度、低压线路长度、电缆长度、配变容量、地理调整系数这13个因素构成输入样本，对应的工期时长（天数）作为输出样本。采用0均值标准化对输入样本进行归一化处理。

对于测试集的工期预测值，我们规定，如果预测的工期时长和该项目实际完成的工期时长的相对误差小于等于10%，则该预测被认为是有效预测，否则为无效预测。

实验中使用的仿真软件为：python3。Window 7 64位操作系统，Intel Core i3-6100 3.70GHz，8GB内存。

实验采用5-折交叉验证法，运行50次。

配网工程项目数据集经过多步剔除因素的过程，工期预测精度达到85%，主要因素减至5个，分别是进度安排的精确性、设备数量、天气状况、电缆长度、配变容量。

4 小结

本文提出了一种降维的特征方法，提取样本的主要因素，并将该方法用于配网工程项目的工期时长的预测当中，通过工程实例数据的测试表明，该方法是有效的，能够有效提高配网工程项目的工期时长的预测的准确率。

参考文献

[1]孙斌.基于神经网络BP模型的建筑项目工程进度控制[J].科技风，2009，16：253-254.

[2]祁神军，张云波，丁烈云.建设工程项目工序的LS-SVM工期预测模型[J].华侨大学学报（自然科学版），2010，31（5）：562-565.

[3]BORERO L F， ALVAREZ M E， Last planner： An advance in planning and controlling construction projects： Case study in the city of Medellin[C].Proc of the 4th Brazilian Symposium on Construction Management and Economics. Porto Alegre： [s. n.]， 2005， 1-9.

[4]HUANG G B， ZHU Q Y， SIEW C K， Extreme learning machine： Theory and applications [J].Neurocomputing， 2006，70（1-3）， 489-501.

[5]卢诚波，梅颖.前馈网络的一种高精度鲁棒在线贯序学习算法[J].上海交通大学学报（自然版），2015，49（08）：1137-1143.

[6]梅颖，卢诚波.面向不平衡数据流的自适应加权在线超限学习机算法[J].模式识别与人工智能，2019（2），144-150.

特征选择的降维方法在配网工程项目工期预测模型中的应用

科技视界相关栏目本月热门文章