当前位置:首页 > 问答 > 正文

小爱音箱背后的智能语音交互技术全揭秘

怎么知道你在叫它?

小爱音箱能听到声音,全靠机身上多个麦克风组成的“麦克风阵列”(来源:小米官方技术介绍),这就像有好几只耳朵,能360度收集声音,当你喊“小爱同学”时,这个阵列会做两件事:

  1. 声源定位:判断声音是从哪个方向传来的,然后增强那个方向的声音,降低其他方向的噪音。
  2. 语音激活检测:它一直在低功耗监听,但只对“小爱同学”这个特定的唤醒词有反应,一旦识别到,才正式“醒过来”准备接收指令(来源:小米AI实验室公开分享)。

识别:怎么听懂你说的话?

小爱音箱“醒过来”后,会把你接下来的话录下来,压缩成数据包,通过网络发送到远方的“小米云”服务器上进行处理(来源:小米官方隐私政策及技术白皮书),在云端,主要依靠两种技术:

  1. 自动语音识别:把你说的话,一字一句地转换成文字,这个技术需要用到庞大的语音数据库进行训练,所以能听懂各种口音和语速(来源:行业通用技术原理,小米亦采用)。
  2. 自然语言处理:这是真正的“大脑”,它来理解转换后的文字是什么意思,它要明白“今天天气怎么样”是一个询问天气的指令,并提取出关键信息“和“天气”(来源:对小米AI团队的技术访谈报道)。

理解和执行:怎么知道该做什么?

理解指令后,小爱音箱需要决定如何行动:

  1. 技能平台:小爱同学的能力来自于一个叫“小爱技能平台”的东西,问天气会调用天气服务商的数据,放音乐会调用QQ音乐或小米音乐的服务,控制家电会连接小米的“米家”智能家居平台(来源:小米开放平台文档)。
  2. 对话管理:如果是多轮对话(比如你先问“周杰伦的歌”,再说“播放第一首”),系统需要记住之前的对话上下文,才能明白“第一首”指的是什么(来源:小米AI实验室关于对话系统的论文)。

回应:怎么和你说话?

执行完指令后,小爱音箱需要给你一个反馈:

  1. 语音合成:服务器把要回答的文字(今天北京晴,25度”)发送回音箱,音箱再通过TTS技术,将这些文字用非常接近真人的声音读出来,现在小爱同学的声音很多变,是因为采用了更先进的端到端语音合成技术(来源:小米介绍小爱同学定制声音功能的新闻稿)。

个性化:怎么越来越懂你?

小爱音箱会学习你的习惯,变得更好用:

  1. 用户画像:通过分析你的历史指令(比如你常听什么音乐、控制哪些设备),系统会为你建立一个偏好模型,从而在你提出模糊请求时(如“放点音乐”)能给出更符合你口味的推荐(来源:小米隐私政策中关于个性化体验的说明)。
  2. 家庭场景识别:如果你家里有很多小米设备,小爱可以学习复杂的场景模式,你对它说“我回家了”,它就能自动执行开灯、开空调、播放音乐等一系列操作(来源:米家APP中的“智能场景”功能说明)。

总结一下,小爱音箱的智能交互是一个从端(音箱硬件)到云(服务器AI大脑)再回到端的完整链条,融合了麦克风阵列、语音识别、自然语言处理、内容服务和语音合成等多种技术。

小爱音箱背后的智能语音交互技术全揭秘