仿人机器人,指的是具有躯干、头和四肢,外观和动作与人类相似的机器人。仿人机器人(下文简称“机器人”)的研究,不仅涉及复杂的控制系统和先进的仪器设备,还与仿生科技息息相关。
(图源千库网)
视觉系统:
模仿人眼的结构和功能
人类通过两只眼睛的视角获取物体的深度信息。与之类似,机器人的双目摄像头可通过三角测量原理,计算出物体的距离和三维形状。一些先进的视觉系统,甚至能像人眼一样,自动调节焦距,清晰地捕捉不同距离的物体。
视觉系统的摄像头,其像素密度和分布模拟了人眼视网膜的特性。为适应不同的光照环境,该系统还配备了类似人眼瞳孔的自动光圈系统。它能够根据光线的强弱,自动调节进光量,确保在强光与弱光环境下,都能获得清晰的图像。
视觉识别
通过学习大量标注好的图像数据,机器人能够像人类一样,准确地区分不同的工具,如扳手、螺丝刀,以及生活用品,如杯子、书本等。
除物体识别外,机器人还可借助人工智能技术进行场景理解。例如,在家庭场景中,它能够判断自身所处的空间是厨房、卧室还是客厅,并理解每个区域的含义。这一过程涉及对图像中多个物体的空间关系、语义信息等进行综合分析。
在社交或安防等场景里,算法能辅助机器人提取人脸的特征向量,将其与存储在数据库中的已知人脸特征进行对比,从而识别出特定人物。
(图源《知识就是力量》杂志)
听觉系统:
模仿人耳的结构和听觉感知机制
人耳通过耳廓收集声音,并将其传导到内耳。而机器人通常采用麦克风阵列来收集声音信号。通过处理多个麦克风采集到的声音,分析声音抵达不同麦克风之间的时间差和强度差,从而实现声源定位。
在声音处理方面,机器人的听觉系统会模拟人耳的听觉频率范围,通常可感知频率在20~20000赫兹之间。同时,它还会对收集到的声音进行预处理,以便更好地识别语音和其他声音信号。
听觉感知
人工智能技术驱动的语音识别系统,帮助机器人理解人类的语音指令。通过声学模型和语言模型,机器人能够将接收到的声音信号转换为文字。甚至在面对不同口音、语速以及环境噪声的情况下,机器人也能准确识别语音,听懂用户发出的简单指令。
除语音外,机器人还能识别其他声音事件。例如,通过对环境声音进行特征提取和分类,它可以区分敲门声、电话铃声、警报声等。这有助于机器人更好地适应环境,并做出相应反应。
表情系统:
模仿人类面部表情肌肉的运动方式
机器人面部通常安装多个小型驱动器,如微型电机或气动驱动器,以此模拟人类面部肌肉的收缩和舒张。例如,嘴角部分的驱动器向上拉动,同时牵动脸颊部分的驱动器,使脸颊微微隆起,这一过程与人类微笑时的肌肉运动极为相似。
为使表情更加自然,机器人需精确控制每个驱动器的运动幅度和速度。借助预先编程的表情模式,或依据情感识别系统反馈的信息,机器人能够驱动面部驱动器,呈现出喜怒哀乐等各种表情。
(图源千库网)
情感认知与交互
机器人可利用情感识别模型,分析人类的语音语调、面部表情、肢体语言等多模态信息,从而判断人类的情绪状态,如高兴、愤怒、悲伤等,并据此调整应答策略。此外,通过情感生成模型,机器人还能依据交互的情境和目标,生成相应的情感表达,增强人机交互的亲和力。
撰文 | 王宝会 邢益凡
责任编辑 | 牛一名 张丽涵
运营编辑 | 张丽涵
❖ 来源:《知识就是力量》杂志