人工智能导向下人机界面发展趋势研究

徐心宇

摘要：文章首先介绍了人工智能技术与人机界面的基本概念，其次介绍了人工智能技术在人机界面领域的应用及发展现状，从推荐系统、计算机视觉、语音识别三方面分析了人工智能导向下界面發展趋势，阐述了人工智能对人机界面方面的影响。最后对人机界面未来的发展方向作了总结和展望。

关键词：人工智能;人机界面;推荐系统;计算机视觉;语音识别

中国分类号：J524 文献标识码：A

文章编码：1672-7053（2019）02-0137-02

1 人工智能技术与人机界面的基本概念

1.1 人工智能技术

人工智能技术是计算机学科的重要分支之一，其核心思想是使用机器模拟人的思维过程，进而代替人完成相应的工作。“人工智能”一词出现于1956年，由美国几位数学、信息科学、计算机科学、神经学、心理学方面的科学家提出。实际应用中，人工智能指机器可以感知环境的变化，系统根据设定的规则执行目标任务[1]。相对于普通程序，Al具备“认知”层面的进化，其特点是能够自适应、自学习、自成长，通过人工智能、模式识别、机器学习等技术实现机器对现实世界各类数据及现象之间内在关系的理解。通过对客观世界及目前可以观测、测量的各类信息、数据内在含义的认知并有效地表达。使用机器模拟人的思维过程，代替人类从事大部分工作。同时处理大量信息，并针对多个“目标的集合”进行综合决策，提供详尽的客观数据以协助用户进行决策。

1.2 人机界面

人机界面分为广义人机界面与狭义人机界面。广义人机界面指人机系统，由人、机和环境三个部分构成的一个整体，相互联系、相互影响。在人机系统中，通过人机界面实现人机之间的信息交流和控制活动。

狭义人机界面指的是计算机系统中的人机界面，用户通过人机界面实现与计算机的信息交流传递。

与人工智能技术相结合的人机界面又被称为智能界面，智能界面主要使用人工智能技术实现人机交流，提高了人机交互的可用性[2]。

2 人工智能在人机界面中的应用及发展

作为一门综合学科，人工智能目前已在计算机视觉、机器学习、自然语言处理、智能机器人等多个领域发挥重要作用。随着社会、经济和科学技术的发展，传统人机界面已不能满足当前的用户需求。人工智能技术将引领人机界面的变革。近几年来深度学习、神经网络技术呈现爆发式发展，尤其在个性化推荐系统、计算机视觉、语音识别等方面。

2.1 个性化推荐系统

互联网的迅猛发展造成信息接收量的膨胀，同时也提高了用户筛选信息的成本。如何有效地捕获用户的兴趣偏好，正是个性化推荐系统的研究方向。个性化系统能够依据用户习惯和爱好推荐合适的服务，减低用户信息筛选的成本。。

在人工智能导向下，人机界面从信息的被动传输转变为主动推荐，人机界面向真正意义上的智能界面转变。Cheng等[3]提出了一种基于网站评价信息文本自适应的注意力模型，该模型通过分析用户评价抽取用户偏好和商品特征，实现用户评价的智能排序。Tan[4]等人提出一种基于内容的推荐系统的深度学习方法。使用时间递归神经网络展示语境和引用的分布式意义，用于提升文本和对话中的推荐领域。Wang[5]等开发了一种新型文章推荐模型，使用深度学习系统学习编辑选取文章的习惯，形成一套筛选文章的动态标准。

通过个性化推荐系统，人机界面能够识别并预测用户的意图，为每个用户在不同时间、不同地点推荐最适合当前场景与兴趣偏好的内容。

2.2 计算机视觉技术

计算机视觉（CV），又称机器视觉，是指机器感知外界环境的能力。机器视觉从客观图像中识别并提取信息，并对这些信息进行理解、分析、处理，对结果做出反馈[6]，最典型的应用就是人脸识别和图像识别。人脸识别技术使计算机能够区分并记住每个不同用户，实现个体需求的超细分化。而图像处理技术使人工智能能够识别用户周围的环境，从而能更加完全地把握用户的状况。

目前计算机视觉的主要研究方向为提高识别算法的精度及拓展计算机能够识别的类型。Chao[7]等提出了以步态识别视频序列为基础的GaitSet算法。借助全连接网络提高系统对目标特征鉴别性能。Wang[8]等人提出了一种以运动信息为核心的端到端物体检测模型，该系统将像素级和实例级的特征同时校准从而提高检测精度。Joo[9]等人提出了一种可以追踪身体的姿势、面部表情及手势的三维人体生成模型。邹国锋等[10]介绍了现有的人脸识别技术以及多姿态三维的人脸识别;李学龙等[11]提到现有的用于场景图像识别的分类法在目前的数据量庞大繁杂的环境下逐渐显出其局限性，必须尝试用计算机模拟人脑的思维方式，在理解场景深层语义的基础上进行分类

借助计算机视觉技术，人机界面能够感知用户的状态及周边环境，并做出相应反馈。人交互方式也从键盘鼠标等向手势操作，眼部操作等新型操作方式发展。同时指纹识别、面部识别及步态识别等生物特征识别技术的应用，使个人财产、信息安全系数增加。

2.3 语音识别技术

语音识别是一种将语音实时转换为可读文本的技术。语音识别在人工智能领域应用广泛。随着深度学习技术的发展，语音识别从理论走向实用化。在输入法、翻译和搜索引擎等人机交互场景下，语音识别技术都有着广泛应用。

目前语音识别的应用研究较为热门，谷歌、百度、滴滴、小米等企业都成立了相应的研究团队。当前的研究方向在提高识别的准确率，通过语音识别用户的情绪与意图。Xiong[12]等结合了基于神经网络的声学和语言建模的最新进展成果，提高交换机识别任务的技术水平，该系统取得了6.3%的词错率。20u[13]等人提出了滴滴attention端对端语音识别系统，并在实际应用中有显著的性能提升。Taol[4]等人提出了一套复合情感识别框架。该框架通过深入挖掘输入语音中与情感相关的信息，提高系统准确性。Shan[15]等使用基于注意力机制的端对端方法，在小米电视测试数据上成功获得了2.81%的词错率。

语音识别技术丰富了人机界面的交互方式，使计算机能够理解自然语言，更准确地了解用户的意图，进一步提高工作效率，满足用户需求。

3 人工智能导向下人机界面的变化及发展趋势分析

传统的人机界面已经不能满足用户多样化、个性化的需求。随着人工智能技术的发展，未来人机界面将在信息呈现方式、界面使用方式上发生变化。人机界面的向智能化、多层次互动方向发展。

3.1 界面使用方式改变

1）身份识别方式多样化。在信息化时代，个人信息安全急需保障。传统的身份认证方式存在漏洞，生物识别验证将逐渐取代传统身份验证方式，目前的生物识别技术有指纹识别、人脸识别、虹膜识别、步态识别及声纹识别，前三者的应用较为广泛。将来个人身份认证功能将会逐渐普及，验证方式从单一生物指标识别转变为多重生物指标综合识别。

2）操作方式多元化。通过语音操作的方式比重逐渐增大。通过语音操控硬件，提高工作效率，解放双手。同时计算机对外部环境噪音进行降噪与语音提取，语音操作的交互体验将不断优化，实现高拟人化、高识别度的语音控制。

3）信息搜索智能化。信息搜索的方式从单一的输入文字，转变为输入图像、语音文字的多种方式的综合搜索引擎。通过上下文语义分析，视觉感知，情感理解，快速精准地为用户进行多媒体内容的推荐。信息从被动查询向主动推荐转变，根据用户的历史数据发掘用户搜索内容的潜在含义。

4）智能助理普遍化。通用型人工智能的出现，使智能助理能够覆盖更多的场景，当前手机、智能音箱和电脑上的智能助理，仅是智能助理的形式之一。理想化的智能助理应提供人性化的交互体验和个性化的服务体验，使服务覆盖不同场景。

3.2 界面呈现方式改变

1）界面呈现载体变化。传统人机界面通过硬件载体实现信息的传递，而未来人机界面将不拘泥于屏幕显示。视觉界面的呈现载体从二维平面向三维空间延伸，虚拟现实、增强现实、脑机接口、全息投影等新型交互方式将被逐渐应用于人机界面。用户通过语音和手势即可操作。

2）界面信息呈现形式改变。随着多媒体技术的发展，信息的呈现由静态向动态化转变，动态的视频信息将占据主导地位。越来越多的信息以三维形式呈现，更加直观、易理解，用户的体验更加真实。信息的呈现方式由单一的文字转变为语音、图像、视频的多样化呈现。

4 总结和展望

随着人工智能技术在人机界面领域的不断发展，人机界面取得了一定的成果，但现有人工智能技术仍有许多局限性。（1）人脸识别、图像识别的准确性受到训练样本的限制，无法适用于所有情况;（2）语音识别目前仍存在隐私暴露、噪音干扰，信息不可修改逆转等问题，并不能完全取代图形类界面。人工智能导向下人机界面的发展，还有很长的一段路要走。未来人机界面功能将会更加完善，用户体验更加良好。人工智能技术必将在人机界面中发挥越来越重要的作用。

参考文献

[1]王志宏，杨震，人工智能技术研究及未来智能化信息服务体系的思考[J]，电信科学，2017，33 （05）：1-11.

[2]胡文婷，周献中，王友发，等.基于智能界面的交互模型研究[C]//2013中国指挥控制大会，2013.

[3]Cheng Z， Ding Y， Zhu L， et al Aspect-Aware Latent Factor Model： Rating Prediction withRatings and Reviews[J]. 2018

[4]Tan J， Wan X，Xiao J A Neural Network Approach to Cluote Recommendation inWritings[C]// Acm International on Conference on Information&Knowledge ManagementACM， 2016

[5]Wang X， Yu L， Ren K， et aI Dynamic Attention Deep Model for Article Recommendationby Learning Human Editors' Demonstration[C]// Acm Sigkdd International Conference onKnowledge Discovery&Data Mining. ACM， 2017

[6]卞正岗，机器视觉技术的发展[J].中国仪器仪表，2015 （6）.

[7]Chao H， He Y Zhang J， et al GaitSet： Regarding Gait as a Set for Cross-View GaitRecognition[Jl. 2018

[8]Wang S， Zhou丫Yan J， et aI Fully Motion-Aware Network for Video Object Detection[C]//European Conference on Computer Vision. Springer， Cham， 2018

[9] Joo H， Simon T Sheikh丫Total Capture：A 3D Deformation Model for Tracking Faces，Hands， and Bodies[J]. 2018

[10]鄒国锋，傅桂霞，李海涛，高明亮，王科俊，多姿态人脸识别综述[J]，模式识别与人工智能，2015，28 （07）：613-625.

[11]李学龙，史建华，董永生，陶大程.场景图像分类技术综述[J].中国科学：信息科学，2015，45 （07）：827-848.

[12] ChiuC C，Sainath T N，Wu Y et aI State-ot-the-art Speech Recognition With Sequenceto-Sequence Models[J]. 2018

[13] XiongW，Droppo J， HuangX， et al The Microsoft 2016 Conversational Speech RecognitionSystem[J]. 2016

[14] ZouW，Jiang D，Zhao S，et al A comparable study of modeling units for end-to-endMandarin speech recognition[J]. 2018

[15] Tao F，Liu G，Zhao Q AN ENSEMBLE frameWORK OF VOICE-baseD EMOTIonRECOGNITION SYSTEM FOR FILMS AND TV PROGRAMS[J]. 2018

[16] Shan C， Zhang J， Wang Y， et al [IEEE ICASSP 2018 - 2018 IEEE International Conferenceon Acoustics， Speech and Signal Processing （ICASSP） - Calgary， AB， Canada （2018.4.152018.4.20）] 2018 IEEE International Conference on Acoustics， Speech and Signal Processing（ICASSP） - Attention-based End-to-End Speech Recognition on Voice Search[J]. 2018：4764-4768

人工智能导向下人机界面发展趋势研究

工业设计相关栏目本月热门文章