肖劲森++吴明妍++孙立民++钟春梅
DOI:10.16660/j.cnki.1674-098X.2016.31.115
摘 要:该文利用粗糙集理论对大学生成绩影响因素进行研究。首先,对调查得到的数据进行处理,并运用ROSETTA软件对冗余的数据进行属性约简。其次,计算出约简后的大学生综合成绩影响因素的属性重要度,进而有针对性地对学生和学校提出几点建议。
关键词:综合成绩 影响因素 粗糙集 属性重要度
中图分类号:O159 文献标识码:A 文章编号:1674-098X(2016)11(a)-0115-03
Research on the Influences of the College StudentsTotal Performance based on Rough Set
Xiao Jinsen Wu Mingyan Sun Limin* Zhong Chunmei
(School of Sciences, Guangdong University of Petrochemical Technology, Maoming Guangdong, 525000, China)
Abstract:In this article we shall use the rough set theory to study the influences of the college students total performance. Firstly, after dealing with the data got from questionnaire, we apply ROSETTA software to reduce the redundant attributes. Moreover, we compute the significance of the reduced influences and then give some relative advices to the students and the school.
Key Words: Total performance; Influences; Rough set; Attribute significance
粗糙集是一個刻画不完整性和不确定性知识的数学工具,它能够处理定性、定量因素,有效分析不精确、不一致、不完整等各种不完备信息;能够对数据进行分析推理,发现数据中隐含的规律。目前,粗糙集已被广泛应用于机器学习、决策分析、数据挖掘、模式识别等领域[1-3] 。
大学生综合成绩不但体现了学生综合发展情况,更对其今后的求职甚至职业发展有着重要的影响。曾志嵘[4]等从内在因素和外在因素来研究大学生学习成绩影响因素,得到个人发展、家庭环境、社会环境等都会影响学生的学习成绩。冯丽霞[5]通过构建多元线性回归模型,实证研究了影响大学生学习成绩各个因素的关系。其研究结果表明,学习动机、学习环境、学习兴趣、学习态度、学习压力和困难以及学习能力等维度都将影响学生的学习成绩。李凤杰和刘文[6]认为大学生的学习动机对学习成绩存在直接影响,二者之间存在着因果关系。殷雷[7]从数据中发现,学习考勤记录与课堂提问成绩组成的平时成绩与学习总成绩呈现极其显著的相关,这表明了学习态度对学习成绩具有重要的影响。此外,陆根书和杨兆芳[8]还发现,除学生自身的因素外,学生对学习环境的感知对其学习成绩具有显著的影响。
属性重要度在信息评判和决策的过程中十分重要, 它反映了各个属性在信息系统中的地位和作用, 能否比较准确地确定属性重要度直接影响到最终信息的评判和决策结果。而基于粗糙集理论的属性重要度确定方法无需提供问题所需处理的数据集合之外的任何先验信息,能充分体现了数据的客观性[1-2,9]。该文通过调查问卷得到某高校二年级同一专业50名学生的个人、家庭、学校、社会4个方面19个因素各种情况的相关数据,从中随机抽取出25名,结合其综合成绩,利用基于粗糙集理论框架的表格逻辑数据工具ROSETTA对19个因素进行约简,进而结合约简的因素的重要度,对大学生和高校提出几点相关的建议。
1 粗糙集理论
本节简述粗糙集的基本概念和定理,详细见文献[1-3]。
1.1 信息系统与不可区分关系
定义2.1:如果满足以下条件:
①为有限非空集合,称为论域对象空间;
②为属性的有限非空集合;
③(其中,为属性的值域);
④对于、,,为信息函数,它指定了中每一对象的属性值。
则称为信息系统,也称为知识代表系统。
当信息系统中的属性集,,其中C为条件属性集,D为决策属性集时,该信息系统也称为决策表,记为。
定义2.2:对于相对于P的等价类定义为:
。
的所有等价类的集合记作,也可简记为形成U的一个划分。设,有划分的性质可得,;给定,如果,。在集合论里,对象间的关系一般用R,S来表示。为标记的统一,可记为,如不出现混淆情况,还可记为R。
1.2 属性约简与核
定义2.3:给定一个信息系统,设,,如果则称为P中冗余的;否则称为P中必要的。如果P是独立的,且,则称P为A的一个约简。
定义2.4:P中所有不可约去关系组成的集合称为P的核,记作。
定理2.1:,其中表示P的所有约简。
定义2.5:对于决策表,,如果,且B为D独立的,则称B为C的一个D相对约简。设为C的全部D相对约简,则称为C的D相对核,简称核。
不必要的属性在信息系统中是多余的,如果将它从信息系统中删除,不会改变信息系统的分类能力,相反,若从信息系统中删除一个必要的属性,则一定改变信息系统的分类能力。
1.3 属性重要度
定义2.6:对于决策表,,属性B对D的近似精度定义为:
;
属性B对D的近似质量定义为:。
分类B对D的近似质量也被称为决策属性D对条件属性B的依赖度。当=1时,称D完全依赖于B;当0<<1时,称D部分依赖于B。
定义2.7:对于决策表,,,如果,则称在B中相对于D是可约的,否则称是不可少的。如果每一个都必不可少的,则称B为D独立的。
定义2.8:对于决策表,,则属性在条件属性集C基础上相对于决策属性D的重要定义为:。
由上述定义可见,属性重要度反映的是去掉某个(某些)属性前后的属性分类变化程度。若去掉该属性后相应的分类变化比较大,则该属性的重要度较大,反之则小[2] 。
1.4 决策表屬性约简工具ROSETTA
ROSETTA是基于粗糙集理论框架的表格逻辑数据工具, 它提供了多种数据预处理功能,如决策表补齐、决策表离散化等及其算法,同时提供了粗糙集中常见的约简和规则的获取算法,支持从数据预处理到预测和分析规则的全过程,是一个很好的粗糙集理论软件和实验平台。下面为ROSETTA的决策表属性约简步骤:
(1)导入数据;
(2)利用Discretize中的Boolean reasoning algorithm...对数据进行离散化;
(3)利用Reduce中的Johnson算法Johnsons algorithm...进行约简。
2 粗糙集在大学生综合成绩影响因素的应用
2.1 数据采集和处理
数据来源于某高校二年级某专业25名学生的问卷调查以及对应的年度综合成绩。问卷设置了个人、家庭、学校、社会4个方面共19个因素的各种情况。具体如下:
问卷调查采集得到的数据见下表2,其中第一列为学生序号。
按表1第一列中的0、1、2所对应的行的内容,将表2离散化处理得到下表3。
2.2 属性约简
利用ROSETTA软件,获得约简后的决策表如下表4所示。
2.3 利用粗糙集确定属性重要度
粗糙集理论中,属性重要度反映的是去掉某个属性前后的属性分类变化程度。若去掉该属性后相应的分类变化比较大,则该属性的重要度较大,反之则小[2,9]。下面利用MATLAB软件计算得到如下各个影响因素的重要度Sigγ(ai ,C,D),其中条件属性C={a2,a7,a10,a13},决策属性D={d},结果如表5。
2.4 结果分析以及建议
从以上计算得到的各因素的重要度可以看出对该专业学习成绩影响较大的因素分别是月生活费,每周课外学习时长,上学期每周兼职的次数和课程安排满意度,其中上学期每周兼职的次数对综合成绩影响最大。针对这些影响因素我们提出以下几点建议:
(1)关于月生活费。家庭提供孩子的月生活费过多或者过少都对他们的学习生活产生影响,因而学生们大学期间应该养成良好的消费习惯,并学习一些理财相关的知识。
(2)关于大学生兼职。大学生利用课余时间去做兼职,不仅可以丰富大学生活,锻炼自己的人际交往能力、语言表达能力和工作能力等,还可以提高自己的阅历和经验,增强适应社会的能力,为将来的就业做好准备。因此,建议学生在不影响学习生活的情况下(最好在空闲的周末),适度做些对自己发展成长有益的兼职,使大学生活更加充实,更加有意义。
(3)关于课外学习。大学课堂教学内容量大,这就需要课前的预习和课后的复习。做好专业的学习外,适当的课外阅读不仅可以丰富大脑知识,缓解大脑疲劳,使学生劳逸结合,还可以增长见识,开阔视野,让自己的学识既有深度又有广度。
(4)关于大学课程安排的满意度。现今很多大学课程理论课程较多,并且选修课程较少。因此,建议学校改进人才培养方案,重视专业实践课程,提高学生们的动手能力。此外,还要提供更多的选修课程,让学生们可以选择更多自己感兴趣的课程。
3 结语
该文引入基于粗糙集理论的属性约简和属性重要度的方法对大学生成绩影响因素进行研究。在等价关系的基础上,在保持分类能力不变的情况下,通过属性约简,简化指标体系,导出问题的决策规则以及指标权重。该方法具有客观性、简洁性和可操作性,客观地对大学生成绩影响因素进行评价。此外,运用ROSETTA的决策表属性约简算法能够对大数据进行约简,有效地减少了综合评价过程中的计算量,提高了计算效率。
参考文献
[1]张文修,吴伟志,梁吉业,等,粗糙集理论与方法[M].北京:科学出版社,2001.
[2]胡清华,于达仁.应用粗糙计算[M].北京:科学出版社,2012.
[3]王彪,段禅伦,吴昊,等.粗糙集与模糊集的研究及应用[M].北京:电子工业出版社,2008.
[4]曾志嵘,夏欧东,杜华,等.大学生学习成绩影响因素的分析和讨论[J].科教文汇旬刊,2006(8):31-34.
[5]冯丽霞.大学生学习成绩影响因素研究[J].中国电力教育,2013(13):213-214.
[6]李凤杰,刘文.大学生学习动机结构、发展特点及其对学业成绩的影响[J].辽宁教育行政学院学报,2011,28(4):26-28.
[7]殷雷.学习态度与学习成绩的相关研究[J].心理科学,2008,31(6):1471-1473.
[8]陆根书,杨兆芳.学习环境与学生发展研究述评[J].比较教育研究,2008(7):1-6.
[9]肖劲森,孙立民.改进的粗糙集属性重要度[J].计算机工程与应用,2015.