刘庆峰认为未来两三年将迎来语音时代(3)

坚信语音创造未来奇迹的讯飞刘庆峰
刘庆峰认为未来两三年将迎来语音时代
比尔•盖茨在卸任微软董事长后进行了一场巡回演讲,当有人问“您对未来IT最看好什么?”时,这位IT巨擘列举的第一项技术就是语音。而在此之前,他已多次公开宣称,未来键盘、触摸、鼠标等外部电脑操作设备将彻底让位于语音。
“语音技术看起来很深奥,其实它离我们每个人都很近。语音技术的核心就是让终端变得像人一样能听会说,一是让机器说话,即语音合成技术;二是让机器听懂人说话,即语音识别技术,这样就使得人与机器之间沟通变得像人与人沟通一样简单。”刘庆峰说。
尽管语音技术在过去并未受到大众的关注,但随着智能终端的革新与普及,特别是移动互联网的飞速发展,语音技术几乎与人们的生活息息相关,语音产业也成为整个IT互联网产业中的一大热门。
“语音技术是一门交叉学科,它的突飞猛进还得仰仗着数字信号处理、人工智能、大数据等各种领域技术的突破。” 刘庆峰说。国际和国内的研发者已经苦战近40年,至今依然没有像触摸屏一样得到大范围普及。高门槛让很多创业者望而却步,尤其汉语的复杂性,使得国际IT巨头也只能望此兴叹。语音产业的高壁垒为科大讯飞留下了足够的空间实现产业化,甚至主导整个产业格局的走向。
随着移动互联网普及和可穿戴设备的发展,语音技术正在进入一个产业爆发期,因此语音技术也由过去印象中那种过于“高大上”的神秘技术,变为整个IT互联网产业的必备能力之一。
“语音是人类沟通和获取信息最自然便捷的方式,这也是将来的一个大趋势。未来两三年会变为以语音为主、触摸为辅的时代,这也是终端变迁的趋势,你打电话、发短信、听音乐、问路,都可以不用输入文字,也不用触摸,完全与终端用语音对话就可以完成。特别是穿戴式设备的普及,手表、眼镜、纽扣、项链……语音都会是主要交互方式。”刘庆峰预测。
其实,现在走在路上你会发现,对着手机“自言自语”的人多了。
你可以进行语音搜索。比如,对着手机说:“我想听×××的歌。”系统通过识别理解,很快就从手机上或者网上找到并播放歌曲给你听;或者只要轻轻哼唱一段音乐,手机就能搜索出相应的一首歌。
你还可以用语音输入信息。比如发送手机短信甚至长篇的电子邮件,只需对着电子终端说话,语言就能变成文字输入。
你也能与机器“对话交流”,它能跟你聊天、开玩笑,并满足搜寻信息等各种任务需求。
语音专家认为,未来的语音产品能够做到让用户随心所欲地进行语音输入,语音识别不受口音、语气、情绪等因素干扰,并且机器能更好地理解用户语音所传达的需求。
刘庆峰认为在未来两三年内就能看到语音应用成为主流。“未来不仅是手机,还有电视、汽车等设备中语音技术都将大规模应用,2013年是智能电视迅速发展的一年,电视已经进入无需遥控器的时代,观众只需对着电视说出想看的节目即可。”
语音技术未来激动人心的另一个大规模应用,将是能够沟通不同国家人群的语言隔阂,通过与机器间的无障碍沟通,不同语言的人群也能自如交流了。“我们希望利用语音识别、机器翻译,最后用语音合成说出来的翻译器,达到同声传译的效果。” 刘庆峰说。
这种翻译器能够达成的效果是“夹杂多种语言的文本,机器阅读时也像是同一个人在讲话”。比如中文说话的人,让他说英文,也能说得标准,就像本人说的一样,而且在多种语言述说的情况下,转换的时候达到无缝结合的效果,“以后大家都可以像会多种语言的钱钟书先生一样,用法语、拉丁文、英文、中文夹杂着说一段话。”
有了理想的“全球翻译器”,刘庆峰想象了一下未来的美好图景:不同语种不同肤色的人们之间都可以无障碍沟通。
这个目标也对语音技术中的合成技术提出了更高的要求,刘庆峰认为,目前语音合成技术需要集中精力攻克的难题是,让机器“说话”更有语气情绪的表现力,更加具备男女老幼声线的个性化差异,并且能够胜任多语种、多方言的发音。
在语音识别技术上,机器能不能听懂人讲话?识别的准确率是多少?能够做到90%还是80%?这就是语音产品的一个质量标准。“一般来说准确率90%是应用的门槛,而这种90%又要能胜任在各种噪音环境环境和各种发音语种条件下。”刘庆峰说。在这方面,科大讯飞早已经发起了攻势,今年,讯飞推出语音识别支持包括粤语、河南话、四川话等多种方言语种。
此外,刘庆峰表示,语音技术未来还将在国家安全等领域大展拳脚。“与指纹一样,没有两个人说话声音是一样的。”刘庆峰说,“声纹库是一个国家的重要资源,目前声纹识别与声纹库建设在我国已经起步,未来在金融、证券、通信、社保、公安、军队及其他民用安全认证行业有着广泛的需求。”



