人认知的语音交互设计分析

倪亚楠

关键词：老年人;语音交互;设计

过去四十年，人与机器的交互方式在不断朝着智能化、自然化的方向发展。随着人工智能研究在理论和应用层面的不断突破，语音交互逐渐成为人们与设备进行交流和传递意图的优先选择。与传统交互相比，语音交互更贴近自然语言的表达，学习成本极低，可以很好地解放双手和双眼。语言是多维的，它在传递信息的同时也蕴含着丰富情感，允许人与设备之间进行更充分地互动。结合当下智能语音的技术能力，在一些具体的互联网使用场景中，它已经能够很好地适应老年群体在生理能力与认知特性方面的不足。

1老年人认知特性及互联网介入分析

老年人感知觉能力的退化，记忆、思维能力的老化，导致了他们对自我能力的评价与结果预期降低，从而对融入互联网产生消极情绪和抗拒心理。另外，信息的爆发性增长使得界面变得臃肿不堪，不友好的界面加剧了两者之间的疏离。

1.1感知觉退化与信息可达性

从界面交互所需的能力来看，老年人视觉感受性、灵敏度与色彩辨识力均逐渐下降，听觉开始变得迟钝，触觉的敏感性与定位精准性也降低，这无疑加剧了老年人在对界面信息进行的输入输出环节的负担。手机屏幕大小的局限性使得信息以更加密集的单位进行输出，对人的感知觉能力提出了越来越高的要求。

1.2记忆、思维老化与感知易用性

随着老年人记忆衰退与思维老化，同时缺乏互联网使用经验，他们在接入互联网的过程中常常伴随着很高的学习成本和记忆负担，因而很容易在界面层级和交互动作中感到不知所措。目前，主流的交互设计规范定义了页面交互的对象和方式、层级之间的关系和跳转逻辑、功能模块的聚合和指引等等。这些规范在易用性和美学上颇具说服力，但却很少以老年群体作为测试标准（如图1），老人不仅要熟记各类密码，并且各种APP的名称都相对图标缩小化，对于视力恶化、记忆力衰退的老年人而言简直是噩梦。

1.3消极情绪与自我效能

自我效能是社会认知理论中一个重要的认知动因，在互联网环境中即是指个体完成特定界面交互任务的信心。由于老年人物理机能的退化，使得他们的自我效能降低，往往会高估互联网的使用难度，从而产生十分消极的情绪。由此可见，提升老年人使用互联网的信心，使其在交互过程中保持积极乐观的情绪，都能很好地提升他们使用互联网的意愿。

2语音交互技术现状与应用趋势

从计算机语言交互到图形用户界面交互，再到语音自然交互，人机交互一直朝着简单、丰富、高效、自然的方向发展。

2.1语音交互技术现状

伴随着计算机技术和人工智能技术的进步，语音交互技术也经历了从规则技术向统计学习再到深度学习技术的升级进化。深度对话技术借助大规模的深度神经网络，显著增强了对话系统的知识学习和应用能力，从而极大提升了语音交互的用户体验。

从功能实现角度，一套通用的语音交互系统包含如下环节（如图2）：（1）语音识别：将用户的语音表达经过自动化的识别，转化成文字;（2）自然语言处理：分析用户表达中的意图，对任务型对话而言即提炼关键词填进“词槽”;（3）语音合成：将处理后的最佳结果转化成自然语言，并合成语音，与用户进行交互。

2.2语音交互技术的应用趋势

2.2.1智能音箱兴起

自2014年11月亚马逊率先推出智能音箱Echo，引发全球智能音箱浪潮，随后谷歌、苹果、facebook等巨头纷纷入场布局。在已成为仅次于美国的智能音箱第二大市场的中国，阿里巴巴的天猫精灵、百度的小度音箱、小米的小爱音箱占据了近九成市场份额。

值得注意的是，2017年谷歌推出了自己的带屏智能音箱Echo show，之后天猫精灵和百度也相继发布带屏智能音箱产品（如图3）。从语音向视觉延伸，在語音交互中融入可视化信息，已经是业界探索下一代语音交互范式的重要趋势。

2.2.2语音交互与界面交互的融合趋势

正如人工智能专家吴恩达指出的：人与机器交流最高效的方式是语言，而机器与人最高效的交流方式是语言加上视觉，即需要在听觉基础上融入视觉信息弥补语音交互的不足。

目前针对语音交互，并没有统一的设计原则。因此，参照国内界面交互的设计原则，可总结为如下原则：（1）一致性：符合用户心理，降低学习成本;（2）通用性：兼容多场景、多需求;（3）高效性：即时响应、有效提示;（4）清晰性：信息传达准确无歧义;（5）角色为本：人文关怀与情感化。

结合语音交互的特征，其主要在高效性、一致性、角色为本上具备显著优势，具体包含：（1）释放双手，速度更快;（2）更贴近自然交互，学习成本极低;（3）情感关怀丰富;（4）突破界面限制。其劣势主要有：（1）在现有技术条件下，信息的输入输出以及处理仍然具备不确定性;（2）缺乏实体支撑的语音，引导性与信息反馈均较弱，同时听觉记忆性也更差。

3老年人语音交互产品的设计分析

语音和视觉结合的多通道交互形式，无法再用经典的界面交互范式（窗口、图标、菜单、点击设备）进行定义。对于语音交互系统而言，更加需要明确的是：语音交互对象的角色设定，交互过程中存在的交互模态、采用的交互命令，以及如何利用界面和语音对信息内容进行呈现。

3.1角色

角色是一个拟人化的形象，它的作用是提供智能交互的界面隐喻，清晰地诉说智能系统所能实现的功能，以及其能力的边界，从而避免用户不切实际的期待。此处我们可以将其定义为“网上冲浪助理”，所以它的功能便是引导并协助老年人完成一系列的上网任务，如网购、打车、社交聊天、收听节目等。

角色另一个很重要的作用是人文关怀与情感化。目前，每一个开发智能音箱的公司都会根据其任务性质赋予该角色一个专属的唤醒词，以及特定的音色、音调和语速。这样做的目的就是建立情感化的形象，占领用户心智。如前所述，老年人接入互联网的障碍中自我效能低是重要原因之一，因此该系统的语音形象应当语速较慢、声音清晰洪亮。

3.2交互模态

当智能系统的交互形式不止一种时，就需要明确其所支持的交互模态，以及各个交互模态适用的场景。该智能助理目前支持语音输入和触摸输入，两者之间有时是独立的，比如任务的开始往往是通过语音唤醒并用语音输入任务;而有时又是兼容的，比如在多个搜索结果中进行确认的环节，既可以用触摸确认也可以语音确认选择“第几个”。

3.3交互命令

对于语音交互模态，交互命令包括特定的唤醒词，任务输入环节中能被识别的关键词，以及信息确认环节的浏览和选中指令。在学习阶段，要多主动告知用户智能助理支持的交互指令和相应的功能。对于触摸交互模态，交互命令则是一系列点击、滑动的动作。

3.4信息呈现方式

结合上文对语音交互与界面交互的优劣势对比，在具体设计中，信息呈现方式需要有针对老年群体的适应性变化：（1）老年人的视力、听力退化，信息获取能力下降，而且不同老年人退化的程度不一。因此，界面的图片、字体大小应当支持语音调节，并且调节后的排版依然适应画面大小。同时，也需要有信息筛选的策略，比如在网购场景下，引导用户提出更精确的指令，尽量只展示强相关的搜索结果，减少信息的冗余度。（2）老年人认知反应速度较慢，信息确认耗时较长。因此，信息输入与展示上应当留有比普通智能系统更长的输入等待时间，更长的信息确认时间;（3）老年人的普通话标准程度低，意图表达过于口语化。这首先对语音识别的技术提出了比较大的考验，此外语言本身就有歧义性和多样性的特点，所以在产品设计层面需要更加主动的信息反馈机制来降低这种不确定性。例如，以排序的方式提供可能的任务结果供用户选择，并以图文结合的方式呈现出来。对于过于模糊的任务，则可以请求用户组织语言重新输入。

4结语

语音交互与界面交互的“视听融合”，不仅是下一代智能音箱产品的发展趋势，同时也将大大拓宽语音交互的使用人群和使用场景。在语音技术的能力范围内，设计者采取主动的设计策略帮助老年人接入互联网，不仅可以提高老年人的生活水平和便捷程度，从社会和经济层面也能挖掘老年群体的消费潜力，并大大提高他们的生活自理能力。

人认知的语音交互设计分析

工业设计相关栏目本月热门文章