刘庆峰认为未来两三年将迎来语音时代(3)

编辑：小男2014-07-03 15:36:50

坚信语音创造未来奇迹的讯飞刘庆峰

　　刘庆峰认为未来两三年将迎来语音时代

　　比尔•盖茨在卸任微软董事长后进行了一场巡回演讲，当有人问“您对未来IT最看好什么?”时，这位IT巨擘列举的第一项技术就是语音。而在此之前，他已多次公开宣称，未来键盘、触摸、鼠标等外部电脑操作设备将彻底让位于语音。

　　“语音技术看起来很深奥，其实它离我们每个人都很近。语音技术的核心就是让终端变得像人一样能听会说，一是让机器说话，即语音合成技术;二是让机器听懂人说话，即语音识别技术，这样就使得人与机器之间沟通变得像人与人沟通一样简单。”刘庆峰说。

　　尽管语音技术在过去并未受到大众的关注，但随着智能终端的革新与普及，特别是移动互联网的飞速发展，语音技术几乎与人们的生活息息相关，语音产业也成为整个IT互联网产业中的一大热门。

　　“语音技术是一门交叉学科，它的突飞猛进还得仰仗着数字信号处理、人工智能、大数据等各种领域技术的突破。” 刘庆峰说。国际和国内的研发者已经苦战近40年，至今依然没有像触摸屏一样得到大范围普及。高门槛让很多创业者望而却步，尤其汉语的复杂性，使得国际IT巨头也只能望此兴叹。语音产业的高壁垒为科大讯飞留下了足够的空间实现产业化，甚至主导整个产业格局的走向。

　　随着移动互联网普及和可穿戴设备的发展，语音技术正在进入一个产业爆发期，因此语音技术也由过去印象中那种过于“高大上”的神秘技术，变为整个IT互联网产业的必备能力之一。

　　“语音是人类沟通和获取信息最自然便捷的方式，这也是将来的一个大趋势。未来两三年会变为以语音为主、触摸为辅的时代，这也是终端变迁的趋势，你打电话、发短信、听音乐、问路，都可以不用输入文字，也不用触摸，完全与终端用语音对话就可以完成。特别是穿戴式设备的普及，手表、眼镜、纽扣、项链……语音都会是主要交互方式。”刘庆峰预测。

　　其实，现在走在路上你会发现，对着手机“自言自语”的人多了。

　　你可以进行语音搜索。比如，对着手机说：“我想听×××的歌。”系统通过识别理解，很快就从手机上或者网上找到并播放歌曲给你听;或者只要轻轻哼唱一段音乐，手机就能搜索出相应的一首歌。

　　你还可以用语音输入信息。比如发送手机短信甚至长篇的电子邮件，只需对着电子终端说话，语言就能变成文字输入。

　　你也能与机器“对话交流”，它能跟你聊天、开玩笑，并满足搜寻信息等各种任务需求。

　　语音专家认为，未来的语音产品能够做到让用户随心所欲地进行语音输入，语音识别不受口音、语气、情绪等因素干扰，并且机器能更好地理解用户语音所传达的需求。

　　刘庆峰认为在未来两三年内就能看到语音应用成为主流。“未来不仅是手机，还有电视、汽车等设备中语音技术都将大规模应用，2013年是智能电视迅速发展的一年，电视已经进入无需遥控器的时代，观众只需对着电视说出想看的节目即可。”

　　语音技术未来激动人心的另一个大规模应用，将是能够沟通不同国家人群的语言隔阂，通过与机器间的无障碍沟通，不同语言的人群也能自如交流了。“我们希望利用语音识别、机器翻译，最后用语音合成说出来的翻译器，达到同声传译的效果。” 刘庆峰说。

　　这种翻译器能够达成的效果是“夹杂多种语言的文本，机器阅读时也像是同一个人在讲话”。比如中文说话的人，让他说英文，也能说得标准，就像本人说的一样，而且在多种语言述说的情况下，转换的时候达到无缝结合的效果，“以后大家都可以像会多种语言的钱钟书先生一样，用法语、拉丁文、英文、中文夹杂着说一段话。”

　　有了理想的“全球翻译器”，刘庆峰想象了一下未来的美好图景：不同语种不同肤色的人们之间都可以无障碍沟通。

　　这个目标也对语音技术中的合成技术提出了更高的要求，刘庆峰认为，目前语音合成技术需要集中精力攻克的难题是，让机器“说话”更有语气情绪的表现力，更加具备男女老幼声线的个性化差异，并且能够胜任多语种、多方言的发音。

　　在语音识别技术上，机器能不能听懂人讲话?识别的准确率是多少?能够做到90%还是80%?这就是语音产品的一个质量标准。“一般来说准确率90%是应用的门槛，而这种90%又要能胜任在各种噪音环境环境和各种发音语种条件下。”刘庆峰说。在这方面，科大讯飞早已经发起了攻势，今年，讯飞推出语音识别支持包括粤语、河南话、四川话等多种方言语种。

　　此外，刘庆峰表示，语音技术未来还将在国家安全等领域大展拳脚。“与指纹一样，没有两个人说话声音是一样的。”刘庆峰说，“声纹库是一个国家的重要资源，目前声纹识别与声纹库建设在我国已经起步，未来在金融、证券、通信、社保、公安、军队及其他民用安全认证行业有着广泛的需求。”

本文导航