郭东峰
摘 要:众所周知,大数据已经成为现代社会发展的重要推动力量之一,大数据具有信息量大、种类多元等特点,这就使得我们在利用大数据的过程中一定要高度关注数据处理的时效和速度,确保数据的实时性和准确性。数据分析挖掘技术便是要从海量的数据信息当中寻找到隐藏其中的有效信息,进而确保大数据应用的价值和作用。该文将就数据分析挖掘技术进行深入的分析和探究。
关键词:大数据 分析挖掘技术 应用分析 创新突破
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2020)10(a)-0017-03
Abstract: As we all know, big data has become one of the important driving forces for the development of modern society. Big data has the characteristics of large amounts of information and diverse types, which makes us pay attention to the timeliness and speed of data processing in the process of using big data to ensure the real-time and accuracy of data. Data analysis and mining technology is to find the hidden effective information from the massive data information, so as to ensure the value and role of big data application. In this paper, data analysis and mining technology will be in-depth analysis and exploration.
Key Words: Big data; Analysis and mining technology; Application analysis; Innovation and breakthrough
伴随着社会的发展与时代的进步,大数据已经渗透到了我们工作和生活的方方面面,并且呈现出非常重要的应用价值,而掌握大数据分析和挖掘技术则是高效应用大数据的重要前提。以下是笔者结合自己多年相关工作经验,就此议题提出自己的几点看法和建议。
1 大数据分析和挖掘技术的概念
1.1 大数据分析技术
何为大数据分析技术,其从理论层面来解释,指的就是对现有数据挖掘和机器学习的改进技术,开发数据网络挖掘技术、特异群组挖掘技术、图挖掘技术等新型数据挖掘技术。突破用户兴趣分析、网络行为分析、情感语义分析等大数据挖掘技术。
1.2 大数据挖掘技术
何为大数据挖掘技术,顾名思义,其指的就是从海量、有噪声、模糊、不完全、随机的实际应用数据当中去提取隐含在其背后不为人所熟知和了解,但是有具备应用价值的潜在信息和知识的过程。
2 大数据挖掘技术的分类
根据笔者的调查和研究,发现当前在大数据挖掘技术领域当中,所涉及的大数据挖掘技术的分类方法有很多种,根据不同的分类标准,大数据挖掘技术可以分为以下几种类型。
(1)按照挖掘任务分类。大数据挖掘技术可以分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或者依赖模型发现、异常和趋势发现等。
(2)按照挖掘方法分类。大数据挖掘技术可以分为机器学习方法、神经网络方法、统计方法和数据库方法。
(3)按照挖掘对象分类。大数据挖掘技术可以分为面向对象数据库、关系数据库、空间数据库、文本数据源、时态数据库、多媒体数据库和异质数据库、遗产数据库和环球网Web。
3 当前比较具有代表性的几类数据挖掘技术以及具体应用分析
3.1 关联规则
关联规则的模式其实相对比较简单直接,其是让两个或者两个以上项之间建立起关联并确定项与项之间的关系。关联规则在现实中的应用主要体现销售系统当中,即确定产品与产品之间的关联性,考虑产品之间的共同趋势。比如,一般消费者在超市购物时,购买了各种生吃蔬菜之后会选择购买沙拉酱或者千岛酱,用于制作蔬菜沙拉。还有,消费者在购买衣服的时候,选择了上衣之后也会考虑到裤子或者鞋子的搭配等,这就是关联规则的实际应用。其实,关联规则是一个非常简单的方法,但是关联规则背后蕴藏着是人们的智慧,是人们对于大数据的洞察与应用。现代社会中有越来越多的企业选择应用关联规则来搜集信息和制定营销方案,其在增加企业经济效益中发挥着非常重要的作用。目前,关于关联规则的主要应用领域集中在市场营销、产品交叉或者搭配销售以及实物摆放组织等诸多方面。
3.2 聚類
聚类,顾名思义,就是将各种数据信息记录组合在一起的方式,聚类可以帮助用户加深对数据库中所发生事情的认知程度,帮助用户做出更加正确的选择。
关于聚类的具体应用,其中比较具有代表性的便是企业对市场的划分。根据聚类方式,企业可以通过查看各个对象分组的情况来将市场细化分为多个客户子集,也就是对市场进行细分,然后根据每一个子集即细分后市场的情况来制定出具有针对性的营销策略,这样一来,企业的营销效果必然会得到很大的提升。
3.3 分类
分类即实现对各项的分门别类。我们会就特定类别的项标记清楚各自的属性,然后按照标记的属性将其划分到各个类别当中去,根据类别来预测其未来的发展方向和形式,进而提高预测的准确程度。
以信贷公司为例来对分类这一方式进行说明:信贷公司会制定出符合市场形势的分類标准,公司员工会按照既定的分类标准对全部贷款申请人的实际情况进行审核,在审核过后,将贷款申请人划分为高信用风险、中信用风险和低信用风险3类等级当中去,然后根据不同风险等级的服务内容和标准来为贷款申请人提供信贷服务,这就有效保障了信贷业务的安全性,对于维护信贷公司的利益有着非常大的帮助作用。
3.4 决策树
决策树的价值主要在于对数据进行分类和预测,从一个问题开始,通过决策树我们可能得到多个答案,而每一个答案背后又会继续出现更深一步的问题,而随后出现的这些问题又会被用于分类和识别,便形成了决策树的形式。
在具体应用中,手机供应商通过会选择通过决策树的形式来对流失的客户或者不更新收集的客户进行分类,其会将数据分成多个叶结点,所有叶结点的数据记录数的和等于输入数据的记录总数,也就是两个或者两个以上子结点中所包含的数据记录的总和等于上一级父结点中的数据记录总数。手机供应商需要在及时存储决策树出现上下移动过程中的客户数量变化,通过数据的变化来分析客户的流失情况。
3.5 序列模式
何为序列模式,其主要是根据序列来对发生的相似事件的趋势以及发生同样情况的可能性进行识别。序列模式在实际生产生活中有着非常广泛的应用,生产商和经销商主要是利用序列模式这一数据挖掘技术来理解和评估广大消费者的购买行为,也会通过数据和序列模式来做出产品展示的决策。比如,序列模式可以帮助产品供应商识别固定时间段内客户们在不同时间购买同一类产品的几何,也可以使用序列模式来根据浏览频率和过去购买历史记录来对客户下一次做出购买商品行为的预测,提前将商品推荐给客户或者直接将商品添加到客户的购物车当中去。
4 数据分析挖掘技术的创新与突破
4.1 可视化分析
数据的可视化属于基础功能,数据可视化,不管是对数据分析领域的专家还是对普通用户而言,都是通过图像的形式呈现出来,让数据透过图像的形式来说话,这样数据分析专家和普通用户都可以得到最直接的结果。
4.2 预测性分析
预测性分析是数据分析挖掘技术的重要价值体现之一,数据分析人员可以通过分析图像,也可以对数据挖掘结果进行分析,进而对未来的方向和可能出现的结果做出前瞻性判断和预测,而且预测的结果准确性也比较高。
4.3 数据挖掘算法
如果说图像是机器语言翻译的重要途径和结果,那么,数据挖掘就相当于是机器中的母语。我们可以通过各种各样的分析和计算方式来实现对数据的挖掘和精炼,比如分割、集群、孤立点分析等,提炼数据背后所隐藏着的有效信息。数据挖掘算法不仅要保证能够应对海量的数据,同时也要追求处理的速度和效率。
5 结语
综上所述,大数据时代已然来临,我们需要借助和利用大数据去解决现实工作和生活中存在的各种问题,大数据终将成为我们最得力的解决工具。大数据分析挖掘技术可以帮助我们从海量的数据信息当中分析和挖掘出对我们有利、有效的信息资源,其为各行各业的发展与决策提供重要的参考依据,未来伴随着大数据分析挖掘技术的不断创新与升级,大数据在我们现实生活中所发挥的作用将会越来越强大。
参考文献
[1] 刘政宇.大数据分析挖掘技术及其决策应用研究[J].科学技术创新,2019(23):84-85.
[2] 李加庆,原士栋.数据挖掘关键技术分析探索[J].计算机产品与流通,2020(3):81.
[3] 林翔,贾璐,吴小勇.大数据技术在装备体系仿真实验中的应用模式及难点分析[J].兵工自动化,2019,38(7):26-29.
[4] 李希尧.基于数据挖掘技术的股票数据分析研究[D].电子科技大学,2020.
[5] 会渊凯.基于数据挖掘技术的NBA金州勇士队取胜的影响因素分析[D].燕山大学,2019.
[6] 王者.基于数据挖掘技术的变电站巡检机器人故障分析与自主特巡系统[D].山东大学,2019.
[7] 杨林芬.基于大数据分析技术的名老中医医案价值挖掘研究[D].云南大学,2019.
[8] 刘宇.基于数据挖掘技术的广东省2005—2016年预防接种异常反应分析[D].南方医科大学,2019.