去年去杭州阿里参加了阿里云云栖大会,顺道买了一台天猫精灵回来
天猫精灵是个联网智能音箱。机身只有几个音量加减,静音等几个原始按键。主要操控几乎都是连接wifi之后,使用语音控制。
回到正题说下这个智能音箱的实现:
1,语音识别,这部分必然需要基础部分和联网部分
基础部分:唤醒关键词一定不是联网翻译出来的
联网部分:点播的歌曲名,提问的问题,以及阿里系活动关键词肯定都得是通过天猫精灵服务器端调控实现,因此说出关键词之后,天猫精灵会将这段语音上传服务器进行分析识别,在处理结果,然后返回播放
2,服务端的语音转文字
语音识别技术,讯飞输入法已经成功实现了脱机小文件就可以识别关键字。现在主流的手机输入法似乎都扩展了语音输入。语音输入是用户环境需求,对于计算机来讲,只需要完成的步骤就是讲语音转换成文字,剩下的逻辑还是文字匹配逻辑
这种智能音箱的优点:
联网更新内容,可以更实时。传统音箱往往
相比其他联网设备,基础硬件可以更便宜,因为很多智能化的工作都是在服务器端完成,因此音箱除去必要的几个组件,其他部件要求就会降低很多。
这种智能音箱的缺点:
匹配结果可能过于模糊:对于某些互联网内容,可能语气上是反问句,但是对于计算机来讲,再高的匹配度也存在失败率的问题。曾有人发问指出天猫精灵播放恐怖音乐吓坏孕妇的负面作用。
网络依赖性太强:传输语音以为着这种设备要求高质量的网络。播放的结果也都是通过网络传输。因此那些想在非固定场所使用这款音箱的人恐怕特别依赖高流量的wifi热点。
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=310
文章的更新编辑依此链接为准。欢迎关注源站原创文章!