丁大勇++张琳
摘 要:随着大数据产业的发展,大数据的跨平台使用和调用愈加频繁。以用户全量为特征的大数据具有高度精准和信息量大的特点,为了确保用户隐私、数据源提供商商业信息安全,我们需要对大数据使用的边界进行明确定义。通过对大数据模型构建和使用目的的分类分析,我们可以定义出大数据使用的边界并通过使用边界构建出安全调用模型。在明确的使用边界和安全调用模型基础上,大数据数据源提供方和调用方可以有效确保信息安全,避免大数据调用中可能存在的各种风险。
关键词:大数据 数据安全 使用边界 调用模型 隐私保护
中图分類号:TP393.0 文献标识码:A 文章编号:1674-098X(2017)10(a)-0149-03
大数据数据安全问题已经成为一把悬在大数据行业头上的达摩克利斯之剑,对大数据调用边界定义和安全调用规范的制定已经刻不容缓。京东微联、华为与腾讯就微信数据分享问题爆发激烈冲突等事件已经充分证明在大数据层面如果数据源供应方和使用方等多方层面没有协调好,对普通大众而言容易陷入城门失火殃及池鱼的境地。
1 数据分析特点和大数据来源解析
1.1 数据分析特点和分类维度
数据分析指通过呈现的数据进行综合、整理和分类的研究方式并根据数据研究的目标在呈现的数据中进行问题的求解最终得到问题答案的过程。
数据分析可以从点、线和面三个维度来进行分类。
(1)从一个点的维度来看,数据分析指的是对特定对象而言的生命周期内的全量数据,主要展现的是特定对象的所有指标的全量参数值。从这个维度来看,如起居注这样的历史记录则是对特定帝王以时间为轴的数据记录。当记录的内容够多够详实则形成了对这个对象的生命周期内的数据记录表,通过对点状数据表的连续观察可以得到单个对象的生命周期演进和发展图景。
(2)从一条线的维度来看,数据分析指的是同时段内发生的多个对象的全量数据集合。对线状数据的研究方式更多采用统计学理论进行交叉关联数据的对比、相关性分析等,得到的是某个特定个体在群组中的位置、深度等分布位置性的判断,在应用侧通常采用传统的数据库方式进行字段整理、目标特征字段抽取和数据算法的编制。
(3)从一个面的维度来看,将各类线状数据放在同一个面则会呈现出交集点多,关联性弱,冗余和噪音数据量巨大并且难以用在线状数据模型中常规的统计、分类和归纳等作业方式进行有效处理的数据集。
1.2 大数据数据产生原因和分类方式
(1)人类进入电子化时代以来,将多个线状数据归到一起难以灵活处理的问题一直存在,以往的解决方式是通过线状数据间的可关联点进行交集后,通过关联点进行处理而将非关联点数据作为无用数据和噪音数据丢弃。但随着计算机处理能力、存储能力和网络交互能力的提升,尤其是进入云计算时代后,曾经困扰大数据处理的硬件瓶颈被突破,在技术和业务层获得了对以面状结构为代表的大数据的处理能力。
与传统的数据处理目标不同,大数据模型下对数据的处理主要为相关性分析、动态最优模型以及趋势预判,涉及到基础数据统计分析技术、机器学习和算法、人工智能建模以及预测模型等技术。
(2)大数据的数据源按不同的分类标准有多种分类的结果,最基础的分类为自然数据源和人工数据源两大类。自然数据源指不以人类意志为转移的自然存在并持续产生的数据,如某个时点某个具体个体所在位置的气温、地势、单位光照量等。人工数据源指由人类生产活动产生的数据,如某个具体个体在某一个时点产生的网络浏览数据、位置经纬度数据等。传统的数据分析偏重于数据源层面,很少将两者结合起来进行关联分析,而在大数据模式下,将这些看似不关联的数据整合在一起进行全量分析可以从中找到曾经忽略的关联,而这些关联所带来的最优结果模型可以进一步得到趋势判断等曾经无法得到的结果,从而使大数据技术的作用和价值得到呈现。因为对数据来源的分类标准不一,大数据来源也有线上和线下、虚拟和实景等不一样的分类内容。
(3)在物联网体系内,按照大数据源产生的主体大数据源可分为机器大数据和人工大数据两块。机器大数据主要产生于物联网体系内由万物互联的各种设备产生的设备运行和状态数据为主,而人工大数据则跟设备服务对象的行为相关。对大数据的类别、性质和属性的定义与大数据分析的目的和建模求解结果需求相关,二者的界限比较模糊,很多场景下不具备严格区分的能力。如车联网系统中的行车轨迹、瞬时油耗等数据,可以被看作是机器数据源对汽车自身状态进行分析的同时也可以关联到汽车的驾驶员的行为作为数据分析的数据源。同样地,在对电商用户行为的大数据分析模型中,用户在电商平台的浏览、互动和购买等线上动作一般是主要的大数据数据源,而电商平台硬件运行数据一般不会被列入大数据模型作为相关性分析。
2 大数据使用方式和数据交换边界
2.1 大数据应用方式
(1)传统的点状数据分析和线状数据分析因为处理模式和处理能力的原因都存在对全量数据资源的浪费,而以全量为特点的大数据则在全量层对数据覆盖维度和持续长度都有越大越好的要求。因为对象的属性制约,对相对固定且可控的设备所产生的全量数据获取难度较低而对移动性不确定性较强的个人行为大数据则难以通过一个平台全部获取。作为社会人,个人的行为和交互发生在社会生活的方方面面,而社会的分工导致构成社会生活的环节已经是碎片化状态,而个体的行为也与分布在各个生活环节中的平台上。大数据作为尽可能获得全量的属性要求大数据模型下必须与多个数据源联合起来才能形成一个相对全量的大数据数据源。要构建全量大数据,不同大数据源间的数据交换需求出现并形成了一个越来越强烈的大数据行业需求。
(2)根据大数据应用对数据源使用的深度,大数据分析主要应用于三个层面。
①第一层面为基于大数据的群组分析和发展趋势预测,在这个层面上更多通过采集大数据中的关键字段和特征进行分析和预测。在这个层面的大数据分析与具体的个体全量数据关联度不大,主要以观察和监测特定集群通过关键特征模型匹配的方式来实现大数据监控的功能,公关和品牌公司对消费者的互联网舆情监控是一个较为典型的应用,基于大数据的口碑营销也是众多公关公司重点发展的目标。endprint
②第二层面为通过大数据对具体大数据个人数据源进行监控并基于大数据预测模型对个人下一步动作进行预判和干预。在此应用层下,个人全量数据源主要来自平台本身,而大数据决策的依据也以个人在平台的全量数据为主对个人行为的干预也更多表现在平台本身的服务、资讯或购买推荐,其他平台数据源如果加入对个人的行为预测会更加准确但是因为这种数据源的高附加值,跨平台的数据使用不常见。此类典型应用则以电商平台购买推荐(猜你喜欢)、搜索引擎跳转链接点击推荐以及微信朋友圈等社交媒体广告投放等形式为主。
③第三层面则是基于个人行为监控和危险行为的预测及防范的大数据监控,主要用于对特定人的风险判定和危险行为预测。在此应用下个人被作为特定的观察对象而存在较大的信息安全隐患且单个监控成本较高,主要用于对特定人群而采取的措施,在信访大数据、银行大数据征信和行政机关对特定人的监控等情形下使用。
2.2 大数据应用目标和边界说明
(1)在大数据的实际应用中,考虑到个人信息的隐私和使用安全,绝大部分大数据产品和平台应用和数据交换主要用于群组分析和个人个性化管理两个层面,而对特定人的监控则更多在政府部门监控违法分子等特殊情形的应用较不普遍。在这两个层面中,根据数据安全和个人信息保护的需求,数据的交换和使用不应该是全量数据的直接对传和交换而应具有相对的边界。
(2)根据大数据应用场景,我们可以把大数据应用场景以及所需界定的数据边界见表1。
3 大数据交换安全模型设想
根据大数据应用中数据交换的边界,在大数据应用中需要对数据调用尤其是跨平台的数据调用设定调用模型,对确保数据安全、維持使用边界安全以及确保用户信息安全具有重要实际作用和意义。2017年4月8日,中国信息安全标准化技术委员会大数据安全标准特别工作组发布了《大数据安全标准化白皮书(2017)》为大数据安全提供了较为全面的指导意见,确认了大数据保存、使用和交换的基础原则,但是在具体的大数据交换规范等方面并未提供具体的标准化文件。结合本文的边界原则,我们可以搭建出大数据交换的安全模型,模型由如下几个方面构成。
(1)大数据交换主体的资格认证。作为可进行大数据信息存储、处理和交换的主体(行政部门、技术研发公司、调研和市场营销机构等)需要满足准入门槛后方可获得大数据交换主体资格。主体资格主要由该主体的业务构成、数据处理和安全防护能力等维度来确认主体是否具有从事大数据业务的基本技术和业务管理能力。对于许多不具备大数据业务管理能力但是自身却是大数据产生源的公司则可通过与具备这样资格的合作伙伴合作的方式来进行大数据业务的拓展和数据交换资格的获取。
(2)交换的大数据内容性质认定。需对交换的大数据内容根据交换边界原则进行分级,其中用于群组监控类和用于个性化行为干预的大数据分析所需的数据源使用方式和调用内容应该有个人信息安全和非相关数据交换的要求。在对特定行为监控等大数据应用场景下,对数据交换的字段顺序也需要有触发后再提供等优先级次序差异。数据源提供方和使用方在数据性质分级的框架下可一方面充分满足大数据应用需求,另一方面不会对个人信息安全和数据源系统安全造成不可控的影响。
(3)可交换的数据源对个人用户影响评估。在边界框架下,数据交换对个人影响的评估结果可分为无影响、有影响和有严重影响三个级别。对应的级别设置与交换内容的性质紧密相关,同时需服从于个人信息安全保护和系统安全的大前提。评估的目标在于找出一个符合大数据应用场景需求下的最小用户影响模型,建立个人用户影响评估模型主要从对独立用户的行为干预力度和干预结果两个维度进行评估。当评估结果显示属于强干预的大数据应用,则需要在确认应用场景干预结果的基础上对大数据应用的力度和数据源使用深度进行加强或减弱。反之,如果评估结果显示无法达成大数据应用的干预结果,则需要对交换数据的需求和可行性进行再次评估。
(4)大数据应用安全边界的评估。主要是对大数据应用对数据源提供方和使用方的安全评估。在数据交换中涉及到网络传输、数据交互处理等环节,而黑客、病毒和程序异常导致的信息泄露和污染等情况一旦发生将可能对双方都造成恶劣的影响和严重的后果。与传统的数据安全事故不一样,如果数据交换双方没有完善的安全边界评估体系,一旦发生大数据层面的信息安全事故则可能直接影响到特别大数量个人的日常生活。尤其当物联网应用在生活中的普及,物联网的大数据事故可能会直接导致日常生活的停摆甚至更为严重的后果。安全边界的评估主要通过产品和技术两个层面的分析、预判和防范策略的提前部署。而大数据安全的基础保障则是数据交换协议、编码和加密、实时备份和自毁等云计算和人工智能领域的重点研究课题。
(5)大数据应用后结果数据的脱敏能力评估则是对大数据交换主体间尤其是对数据源使用方的能力要求。大数据交换后将会产生海量的结果数据,大数据处理结果数据是大数据的一个构成部分,也是大数据应用的成果展现。一般来讲,结果数据也会携带大量涉及到个人信息安全、群体特征等敏感信息而且可以通过结果数据对原始大数据源数据进行还原进而造成威胁信息安全风险。因此在大数据应用模型中对大数据源的使用方也需有对结果数据脱敏的能力,通过完善的信息安全保障机制结合大数据应用的场景和目标需求,确保整个大数据的应用始终处于安全健康的状态。
4 结语
如今大数据应用发展已经取得了很好的效果,大数据市场数据量和交易额也增长迅猛。但因为缺乏明确的大数据交换安全边界规范,现有的大数据交易存在许多不安全不稳定和不规范的地方,这些可能为大数据行业的发展造成隐患。而通过对大数据应用的场景分析和对数据源提供方和使用方的资格规范两个维度进行大数据交换模型的建立,可以从数据源头和使用过程以及应用结果三个维度确保大数据数据交换和应用的安全。只有当大数据交换模型成为业内的规范,所有从业参与主体按规则进行,方可实现我国大数据产业的健康稳定和快速发展,最终让规范的大数据行业成为实现中国人工智能和物联网发展规划实现的重要保障。
参考文献
[1]顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):17-21.
[2]白洁.大数据应用[J].信息安全与通信保密,2013(10):12-14.
[3]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报.2013(S1):142-146.endprint