跨越感官 – 产品的多模态交互（系列一）

人人都是产品经理

2024-10-23 11:37发布于广东人人都是产品经理的官方账号

在当今的数字时代，我们越来越多地与技术互动，而这些互动往往是通过多种感官进行的。本文将带你走进多模态交互的世界，探索如何通过结合人类的感官能力与设备的技术能力，设计出更自然、更直观的交互界面。

人类是多感官生物，人类的交互也是多感官的，交互界面也应该是多模态的。

针对多模态交互好的书籍不多，想起当年刚工作的时候读过一本书叫《DesigningAcrossing Senses》，在这本书里读到很多有趣的案例和观点，最近又重新拿出来翻看，同时也想把多模态产品设计写成一系列文章，结合平时工作里的一些感悟一起沉淀一下，赋能认知，构建知识护城河（😆）

🌍这世界就是一个巨大的「多模态」

几乎所有的产品和环境都是多模态的。我们看到一扇门，去敲，再等待门打开或听到里面有人问是谁。我们用手指在键盘上打字，看到字符出现在我们眼前的屏幕上。我们向 Siri 提问，然后看到类似示波器的波形。我们接到一个电话，感觉到振动，听到铃声，通过屏幕上的显示知道来电人的名字。我们玩电子游戏的时候，沉浸在来自屏幕、扬声器和手中隆隆声冲击控制器的感官信息中。

多模态产品将不同的模态紧密地融合在一起，它们使我们能够像体验日常生活一样体验技术：跨越我们的感官。

好的多模态设计有助于我们专注于我们正在做的事情，而糟糕的多模态设计会因笨拙或脱节的交互和不相关的信息而分散我们的注意力，轻则令人恼火，重则让人陷入危险。

而设计多模态交互，与了解人类的感官是如何运作的分不开。

👀👂👄👃回归我们的感官

我们的感官是通往富有的，多样的，让人愉悦的，有意义生命体的通道。

视觉起源于数亿年前寒武纪大爆发期间，作为单细胞生物体上基于蛋白质的光感受器斑块，自罗马时代以来，追踪犬就开始使用。警犬已经存在了一百多年。人类大约有 500 万个气味腺，而狗有 1.25 亿到 3 亿个。他们的嗅觉比我们好 100,000 倍。

在过去十余年内开发的技术可以扩展我们的自然感知能力，使我们能够看到亚原子粒子，听到整个城市的声音，监视一个大陆，并观察我们宇宙最遥远的地方。它让我们以前所未有的方式使用我们的感官，但当然也取决于我们最初如何自然地使用它们。

了解我们的感官是如何进化的，以及我们现在如何使用它们，将有助于我们设计未来使用它们的新方法。

想想你的感官一整天的工作方式。阳光可以唤醒你。烹饪的气味可以提醒您有多饿。雨声可能会令人高兴或失望。

我们的感官收集我们周围的物理信息。这些信息无法通过 Google 搜索，但我们会一直在使用它。我们可以通过从窗帘渗入的光线来判断现在是早晨。我们可以通过厨房里散发出的香气来判断晚餐吃什么。当我们听到雨声时，我们会抓起雨伞。当我们听到一个笑话时，我们会笑。

在技术的帮助下，我们可以看出有人刚刚来到我们的前门，我们的电子邮件刚刚发送，或者我们面前的卡车即将倒车。

David Eagleman 是一位认知神经科学家，研究人类经验和心灵如何相互塑造。他写道：被封印在你头骨黑暗、寂静的房间里，你的大脑从未直接体验过外部世界，也永远不会。相反，来自那里的信息只有一种方式进入大脑。您的感觉器官 — 眼睛、耳朵、鼻子、嘴巴和皮肤 — 充当翻译。它们检测各种各样的信息源（包括光子、空气压缩波、分子浓度、压力、质地、温度），并将它们转化为大脑的通用货币：电化学信号。

我们所知道、所做的和所说的一切都是通过我们的感官发生的——包括我们积累的信息以及我们一整天如何根据这些信息采取行动。

🧬人类的体验是基于物理世界的

我们的感官始终开启，通过我们的神经系统向我们的大脑发送源源不断的信息流。但很多时候，我们根本没有意识到我们的感官。

花点时间感受一下您的脚。当他们穿着鞋子时，我们几乎不会注意到他们。而当我们脱下鞋子赤脚走在草地上时，美妙的感觉可以完全占据上风。

根据当下场景的不同，人类具备从一个感官迅速切换到另一个感官的能力。当我们听到突然的巨响时，我们会转身看。当一条黏糊糊的鱼在水下碰到我们的脚时，我们会不寒而栗。有时我们会有意识地选择我们的注意力在哪里，有时我们的反应会接管。

🌊人类的体验是基于多模态的

仅仅感知我们周围的世界是不够的。我们需要从这些信息中提取意义，并使用它来做出决策和采取行动。

我们感知到的信息类型、我们解释该信息的方式以及可以基于这些信息的决策和行动类型都是相互关联的。在我们的一生中，我们会发展出专属于自己的不同感觉通道的模式，这些被称为模态。它们也被称为感觉运动模式。这些模态通常由它们的焦点感来描述，例如视觉、听觉或触觉。视觉依赖于我们的眼睛，听觉依赖于我们的耳朵，触觉依赖于我们的触觉和运动感。将这些感官一起使用称为多模态。模态塑造了我们使用感官信息来告知我们的行为的方式。

👆感知 >>> 理解&作出决策 >> 采取行动

我们大多数时候都是多模态同时运作的，很少有人类行为是单一模态的。例如，走在街上结合了我们的平衡感、视觉、触觉和运动。进行对话结合了听觉和视觉、我们创造语言的能力，如果您倾向于用手说话，也许还可以结合动作和触觉。

多模态互动组合使我们的日常互动成为可能。在红绿灯处，我们学会了在看到绿灯时踩下油门。黄灯让我们考虑是否踩刹车。我们听到水壶的汽笛声，关掉了燃气。我们看到路径对面有一根树枝，我们决定是跳过它还是绕过它。我们听到手机铃声，掏出手机看看是谁在打电话。我们的感官支持广泛的行为，使我们对世界、彼此和各种设备具有适应性和响应能力。我们使用每种多模态组合的次数越多，它们就会变得越强大，从而形成我们一生中使用的核心行为、习惯和技能。

通过阅读、写作和唱歌学习字母表，多模态教学已应用于教育，让孩子们具有更强的视觉、听觉或触觉以及其他感官结合的能力，各种媒介的教材都在往多模态方向不断进化。

🧑‍💻设备的多模态能力

在很长一段时间里，个人计算机的发展似乎都很稳定：从键盘和鼠标，到功能手机，再到智能手机。然后，它似乎突然加快了步伐：平板电脑、Siri、任天堂 Wii、XBox Kinect、谷歌眼镜、Nest 恒温器、可穿戴设备、无人驾驶汽车、Oculus Rift、亚马逊 Echo 和 Google Home再到现在的AI自然语言交互。

为了让人们能够更自然的互动，设备的交互方式一直在探索更多模态的融合。

设备多模态交互的构建与人类多模态感知是一种映射关系。

同一种互动场景可以有许多不同的交互方式，或者多模态同时交互来完成一个互动。当计算变得多模态（鼠标 / 键盘 / GUI / VUI）的那一刻，它才真正开始为每个人所用。

比如，拨打电话，您可以使用按钮自行拨打电话（左）或让 Siri 为您拨号（右）

🏃‍➡️人类的多模态感知 + 设备的多模态能力 = 自然的交互界面

交互技术现在可以嵌入到任何对象或环境中，无缝融入我们更广泛的物理世界体验中。甚至可以直接融入我们的身体。屏幕、锁、汽车、眼镜和许多其他物体现在可以作为交互设备，所有交互设备都在往互联和数字化发展。

我们与这些设备进行的交互范围已经远远超出了屏幕点击、滑动等。靠近装有智能锁的门可以解锁它，而走开可以再次锁上它。许多健身设备可以区分步行、跑步和骑自行车，从而触发它们开始跟踪活动。（但不幸的是，我们仍然需要自己进行锻炼，减肥这事儿害得自己来（）。

August 智能锁，可以在检测到主人靠近时自动开锁

📣单一模态的感官也具备不同层面的信息含义

VUI （语音交互界面）就是一个例子。韵律和节奏是包含在我们的日常口语表达中的。对话中的语调、语气、重音和节奏都表达了超越语言的意义和情感。语调和重音的变化可能表明讽刺，还可以将陈述语气更改为疑问语气。韵律对于设计语音界面也很重要，尤其是对所有声音设计。游戏设计师在游戏设计中会使用韵律，比如加快背景音乐的速度，让玩家知道他们的时间不多了。胜利的音乐往往是音调上升的，而挫折则以下降的音调为标志。

视频游戏 Vilmonic 使用音调音效和短旋律来加强戏剧感和叙事感

感官之间的相互替换

人们用一种感官来替换另一种感官也是很常见的现象。这种行为被称为「感官替换」（Substitution），允许我们在一种感官被限制的时候使用另一种感官模式。

天黑时，我们把手伸到面前，脚下摸索着走，这样即使看不到路也能避免路上的障碍。
当环境噪声很大时，我们可能会更仔细地观察一个人嘴唇的动作，并使用更多的手势来交流。
许多人行横道使用声音来指示信号的变化。
字幕起源于帮助听力障碍者观看电影和电视，现在也广泛使用在体育酒吧观看赛事，因为在那里根本没有人能听到电视的声音。

感官替换（Substitution）是一种非常常见的辅助功能设计策略：盲文、屏幕阅读器和手语将信息从一种感官模式重新映射到另一种感官模式。当人们无法使用自己的习惯方式来完成一项任务时，依赖另一个感官同样可以和物理世界继续交互。

🤝感官之间的相互协同

我们的视觉和听觉是非常紧密地联系在一起的，我们在它们之间发展出许多多模态行为。在多感官统合中，出现了一种称为同步性的效果，我们试图将视觉运动和听觉节奏对齐在一起。我们的视觉和听觉能力相互加强，并增加了我们更好地预测彼此的能力。

音视频组合对于基于时间或节奏的用户活动特别有效。视觉、触觉和本体感觉能力（运动能力）的结合在创建物体和环境的空间映射时相互加强。许多基于屏幕的设计都依赖于这种感官整合来创建导航和浏览等核心交互。

把人类多感官感知世界的规律运用在多模态交互设计中才能用户的交互更自然更顺滑。

人类的多感官和设备的多模态协同工作，创建反馈循环，这对于有效交互至关重要

好啦～第一篇就写到这里了，我相信能阅读到这里的读者朋友一定也是从事AI或者多模态产品的同行朋友，欢迎后台留言，也可以加微信多多交流想法呀！

下一篇预告：

物理信息与多模态交互数据
感知、理解、决策和行动：人机交互因素
注意力机制在多模态交互中的应用
通过多模态创造产品的可用性
神经适应 – 感官的期望基线
创造充满喜悦与信任的多模态交互
镜像神经元

本文由 @小末is小末原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

查看原图 128K