卫俊杰
旅游业与大数据有着内在的本质的联系,旅游者在旅游过程中的每一个阶段都与数据有关。在旅游活动开始前旅游者就开始了搜集信息,在旅游过程中旅游者又通过社交媒体不断的分享自己的旅游经历,在旅游活动结束之后又面临旅游者的各种活动的反馈。随着互联网及IT技术的飞速发展,旅游者的各种信息在保护隐私的前提下不仅可以完整的保留下来,而且可以用于旅游行业未来的预测以及服务的改进,这也是旅游业大数据研究的基础。在这样的背景下,如何快速有效的获取数据也成为每一位从业人员和科研工作者所困扰的问题。本文从国内外现有案例的基础上总结出目前旅游业大数据的主要来源和获取方式,以期促进我国旅游业大数据研究的发展。
引言
数据是科研工作的重要基础,大数据对与科学研究来说具有不可抗拒的魅力。国内外一些研究者和研究机构都给出了大数据的定义,麦肯锡在其一份商业报告中提出:“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。”Mayer-Schonberger&Cukier认为大数据是在因特网广泛发展的基础上产生的不能用传统类型的关系数据库处理的大量数据。ViktorMayer-Sch?nberger认为大数据指不用抽样调查这样的捷径,而采用所有数据进行分析处理。经过多个企业、机构和数据科学家对于大数据的理解阐述,虽然描述不一,但都存在一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中,快速获取信息。
在旅游研究中,传统意义上的定量研究主要依赖于抽样方法建立模型,通过假设检验从样本推及到总体。在一个资源有限的时代,要收集总体的全部数据需要付出很高的代价,抽样是定量研究的常用方法,因为其方便快捷获得了研究者的偏爱。Nuzzo(2014)对传统定量研究中模型中的假设检验提出了质疑,认为人们在数据量较小的情况下过高的估计了P值的作用。同时,在传统的抽样方法中,抽样的过程往往有可能会存在研究者的偏见和对游客产生影响,导致获取的数据不够客观。大数据记录的是旅游者的平常状态,这也会将研究者对旅游者的影响尽量减小。旅游学科的定量的研究因为大数据的收集与存储发生了变化,数据不再局限于抽样方法获得的小样本,在一定意义上我们甚至可以获得总体的全部数据。在全数据模式下“样本=总体”,社会科学的定量研究方法也将因此产生较大的改变。
社会科学的研究方法不能局限于理论模型的建立,更重要的是获取更完整的数据和处理数据的工具。目前,大部分的研究都集中于数据的存储和分析,大数据的获取问题仍然是一个相对被忽视的领域,但是我们要认识到大数据的获取应该与其他研究一样重要。然而,仅有少数的公司有足够的资源或者能力去获得巨量的数据。因此不仅要掌握分析大数据的技能,更重要的是利用各种技术去收集数据,并把这些非结构化的数据转换为我们可用的信息。
鉴于此,本文从国内外已有的案例出发,对旅游业大数据的获取途径和方法进行梳理,在总结各类方法的主要特点、优劣势、使用范围的基础上,指出目前研究中存在的主要矛盾,以期抛砖引玉,促进我国旅游业大数据研究的进一步发展。
一、旅游业大数据来源分类
旅游意味着旅游者空间位置的变换,当下的旅游者在活动过程中往往会携带一些智能设备(比如手机),并用这些设备与旅游产业进行交互,在交互的过程中将会产生数量非常庞大的数据。根据公众贡献数据的主动性,可以把大数据分为主动式与被动式。其中,主动式大数据主要指旅游电商平台购买后的评价和游记类网站的内容分享,本文中的主动式数据只要指旅游者的用户生成内容(UGC)。被动式大数据是游客在使用智能设备时在运营商或旅游服务提供商后台产生的数据,如使用网站交易数据、搜索引擎、网站的浏览痕迹、旅行GPS轨迹数据、运营商基站数据等,本文把被动式大数据来源分成了三类:搜索引擎,网站分析系统和现代追踪设备。对这些海量多类型数据的获取与分析能够为旅游景区发展与旅游相关领域的研究带来深远影响。
所有的这些信息都可以用来分析旅游者的喜好、动机以及旅游过程中的体验。当我们把所有的这些信息都整合在一起的时候,就会变的更加有说服力。
(一)搜索引擎
目前关于搜索引擎的研究主要集中在计算机科学与信息科学领域,主要关注的焦点是搜索引擎的排序算法。但是我们要认识到,旅游者作为搜索引擎的使用者,网络搜索数据记录了用户的搜索关注与需求,为研究旅游经济行为提供了必要数据基础。搜索引擎已经成为旅游者查询和筛选信息的最重要的途径之一,同时也成为了旅游服务提供商发现潜在的旅游者的最佳方式。
来自于搜索引擎的大数据主要由旅游者的原始查询记录、搜索引擎提供的指数和大数据API三部分组成。Pan,B.(2006)通过Excite公司提供给匹兹堡大学的1025910次查询记录分析了与旅游相关的关键词,他发现旅游者在每次搜索旅游目的地信息时大概使用三个关键词,每个查询过程至少要搜索三次,在搜索结果页面旅游者会往后翻1.7页。方世巧,马耀峰(2012)以百度搜索结果为数据源,对西安市A级景区信息与旅游流进行耦合分析。
Google是世界上最流行的搜索引擎,Baidu是中国市场份额最高的搜索引擎,他们都提供免费的历史搜索数据指数查询,分别被称为googletrend和baiduindex。黄先开(2013)以BaiduIndex为数据源,对北京故宫的游客进行了预测研究。王炼,贾建民(2014)以BaiduIndex为数据源,对黄金周期间的旅游需求进行了预测。ProsperF.Bangwayo-Skeete(2015)通过在googletrend中搜索“酒店和航班”得到的时间序列数据对未来的游客量进行了预测。RobertoRivera(2016)以GoogleTrend为数据源对波多黎各的酒店预定进行了预测。
随着算法的改进和存储技术的提升,搜索引擎每天处理的数据量越来越大,百度每天要处理近100PB数据,这对于大数据研究者也提出了挑战,因为这么大的数据量不仅需要强大的计算服务器,而且需要非常完善的算法。为了避免这些问题出现,百度开放了专门的大数据旅游API接口。研究者可以通过程序设计与百度API对接来获取数据。虽然API技术对于编程技术人员来说并不复杂,但是从我国的研究文献来说,还没有出现旅游业相关的研究。国外虽然有相关文献,但是也并不多。
(二)网站分析系统
获取网站流量统计资料通常有两种方法:一种是采用自己开发的网站流量分析服务;另一种是通过在自己的网站服务器端安装统计分析软件来进行网站流量监测(如:百度统计,GoogleAnalytics)。这些数据大致可以分为三类,每类包含若干数量的统计指标。
因为这类数据的获取需要在网站页面中嵌入javascript代码,多数的研究者并没有实际运营网站或者是没有权限嵌入代码,所以这类工作主要由网站数据分析人员完成,因此国内外文献并不多。BeatrizPlaza通过GoogleAnalytics分析了http://www.scholars-on-bilbao.info的游客访问数据。
因为考虑到商业数据不愿被其他机构获取,有些网站往往独立开发自己的分析系统。房如华以酷讯旅游为例分析了如何获取潜在的旅游者在网站的点击行为、访问路径、访问内容等,并通过数据的清洗、分析、挖掘来提高用户的转化率。
(三)现代追踪技术
随着通信技术的飞速发展,旅游研究的方法、管理的工具以及市场营销的方式也发生了改变。现代追踪技术及通信数据的积累让研究者重新思考用一些新的概念和方法来研究旅游业。根据使用设备的不同,本文将其按照数据来源的不同分为移动电话、GPS和蓝牙数据。
最早将移动电话追踪定位技术用于旅游进行探索和概念研究的是Ahas,R.,&Mark,?.(2005)。JanikaRaun用EMT提供的在爱沙尼亚漫游的外地手机进行了研究,他的数据主要由两部分组成,第一部分是来自于塔林和哈留的215643个电话的406590次访问,第二部分数据来自于到访saare的47377个电话的59401次访问。随后又有一些学者开发出了不同的数据源研究了旅游者更为深层次的空间行为。TelefónicaandRocaSalvatella在一份关于西班牙的旅游大数据报告中利用了电信运营商TelefónicaMóvilesEspa?a提供的到西班牙马德里和巴萨罗那的680928个电话的漫游数据和BBVA银行提供的168921张银行卡跨境消费数据,这些数据涉及到的旅游者来自于21个不同的国家。中国旅游研究院和中国电信联合实验室利用电信提供的手机定位数据,形成了国内首份大数据乡村旅游发展报告。但是我们从报告中可以看出,国内的报告无论是从形式上还是内容的处理上都显得非常粗糙,都停留在简单的数据描述上,还没有对数据进行深入挖掘。虽然研究者们对电信运营商的数据的关注与日俱增,但是我们也应该清醒的认识到,它的使用仍然存在着诸多困难,尤其在对数据的监测和隐私的处理方面,往往很难取得平衡。
在许多学者的研究中,GPS都是非常重要的追踪技术。国内也有学者利用GPS设备采集游客活动信息,但其样本作为抽样推断都显得有些单薄。作为研究旅游者行为的非常重要的数据来源,受到了许多学者的青睐。但是我们也要认识到,GPS技术本身也存在局限性。由于GPS技术的限制,精确度只能到5-8米,当旅游者进入室内时往往就会失去联系。同时,当旅游者知道自己在参与某项研究的时候,往往也会对自己的路线进行限定,同时大规模应用GPS设备也会加大研究的费用。目前很多智能设备都提供了GPS功能,但是这种数据属于游客的隐私,一般不能用于研究。
与GPS相比,蓝牙设备发射的信号传输距离较短,因此它的定位数据在室内的表现更好。YujiYoshimura利用蓝牙探测器在卢浮宫博物馆收集了24452个设备的位置信息,用于分析博物馆内的拥挤现象。Versichele,M.在根特节中利用蓝牙扫描仪收集了80828个蓝牙设备的152487个运动轨迹信息,分析了在事件旅游中的游客行为。
目前来源于追踪定位技术的大数据方面的实证研究主要来自于国外的学者和研究机构,国内的相关研究主要还集中在方法和技术的讨论,并没有落到实处。
(四)旅游者用户生成内容(UGC)
旅游者用户生成内容主要由电商平台的旅游产品评价和旅游类的社交媒体网站内容构成。电商平台提供了消费者对商品进行交流、评价的空间,这也使得消费者与零售商的距离变的更近。研究者对与产品的电子口碑(eWOM)的关注也越来越多,这不仅体现在人们对于书籍、CD、电子商品的研究中,还体现在对旅游消费者的在线评论的实证研究上。WenjingDuan通过第三方公司收集了华盛顿地区最受欢迎的前十家酒店网站上的70103评价。Wang,Park,andFesenmaier(2010)用智能手机中排行前100的旅游类的app收集游客评价,并利用爬虫采集了37133条评论,达到了总评论数的75%。通过分析他们发现,字数较少的评论主要都集中与情感评价,例如“喜欢”,“吸引人”,“失望”等,这些对旅游的体验仅提供较少的信息;负面的评价大多和app的体验有关。他们对于所有评论进行了文本分析,通过分词系统分析了不同词语出现的频率。用twitter数据创立了美国经济中的三个与工作相关的指数。
社交媒体(SNS)在过去的几年里保存了非常庞大的用户生成内容,对我们理解旅游者的行为和体验,态度和偏好,旅游目的地的影像提供了非常有价值的信息。KohyaOkuyamaandKeijiYanai通过API获取了旅游者在Flickr发布的20000张带有位置标记的照片,并从游记图片中分析游客的轨迹,进而提出旅游线路规划系统。StepchenkovaandZhan从游客分享在Flickr的23000张照片中抽取了500张,分析了游客对秘鲁的印象。Pan,MacLaurin用语义网络的方法从旅游博客UGC分析了查南卡罗来纳州的尔斯顿的旅游形象。还有更多的研究用网络民族志和博客志的方法分析了游客对于旅游目的地和当地居民的印象(Hsu,Dehuang,&Woodside,2009;Woodside,Cruickshank,&Dehuang,2007)。吴静采集了Flickr网站上的500位游客的1872张照片,分析了南京市游客旅游流动性空间特征。
二、在数据获取中存在的问题
(一)隐私与数据所有权
国内外学者在获取大数据时面临的最大的问题就是隐私的保护。这其中既有数据隐私权的立法保护问题,也有因保护隐私而带来的数据处理的困难。首先,健全的隐私保护法律制度,是学者在允许的范围内自由取用数据基础,也是大数据学术研究的基础。在法律的真空区做研究,每个学者都会感到压力重重,瞻前顾后。比如基于电信运营商数据的旅游研究,国外的报告一般都有专门的章节说明隐私的保护情况,在这些章节中我发现国外的数据保护立法相对国内来说好一些,但也不够完善。其次,国外的研究往往将数据的获取与分析过程进行分离,数据通过第三方机构的脱敏处理才能交给研究者。因为隐私保护,第三方机构在数据为了防止个人数据被追踪,会将不同时间段的数据标记为不同的设备,这也造成了研究者的困扰。因为旅游者的旅游行为在这些报告中我们看到了国外的数据保护法有移动运营商在提供数据时,会将所有的个人信息隐去。这也将导致同一个设备,在不同的时间段内会被标记为不同的编号,给后续的跟踪研究造成很大的麻烦。
(二)数据记录与存储的口径不一致
各种不同来源的相同类型的数据汇总在一起,是大数据形成的基础,但同时我们又认识到,各种不同类型的企业、平台在之前的数据存储的过程中并没有考虑过整合,因此在汇总时就出现了因数据的口径不一致而导致的整合困难。这种困难首先体现在存储方式上,不同机构的数据存储方式可能千差万别,比如有些机构把数据存储在关系型的数据库中,有些机构把数据存储在非关系型的数据库中;有些机构把数据存储在文本文件或者超文本文件中,还有些机构把数据存储在图片或者音频、视频中。各种存储的类型之间差异巨大,如果要进行数据分析首先必须保证数据记录与存储的口径一致。其次还体现在数据的格式方面,比如不同的网站在存储用户ID时的策略有可能不同,有些网站的ID时邮箱,有些是字母,有些是字母和数字的组合等等,这给数据整合带来的问题是,当一名顾客在不同的网站注册不同的ID并进行活动时,如何才能把他们识别为同一个人?
在数据收集与处理的过程中,数据清洗的很重要的作用就是保证数据的口径一致,这也耗费了数据工作者非常大的精力。尽管“脏数据”不可避免,但是在未来的数据记录与存储的过程中,我们也应该提倡更加标准化的存储方式,以减少数据清洗的压力。
(三)行业,技术壁垒高
互联网时代的到来,给我们的生活带来极大的便捷,旅游者可以不出家门便预定到合适的旅游产品。可是对于企业来说,信息不对称却开始变得难以忍受,比如旅游产品的经销商往往要付出巨额花费才能得到自己的数据。极少数的公司利用长期运营的优势积累了大量的数据,长期休眠在自己的硬盘中,在大数据时代到来之后,这些公司才意识到这些数据将会是一笔巨大的财富。而新进入的公司却因为没有业务数据积累导致很难追赶已经存储了大量数据的少数公司,这种情况可能还会随着时间的推移继续加剧。
如何打破这种壁垒,让数据流动起来,并实现数据的整合,数据的价值才会被充分利用,或许这也是未来我们应该努力的方向。
大数据时代的旅游研究是一个全新的起跑线,此刻我们与国外的研究机构一同出发。在这一的研究领域,我们要充分利用我们互联网的优势,在立法保护的基础上,更快更好的促进旅游业大数据科学的进一步发展。
(作者单位:山西师范大学历史与旅游文化学院)