不久前,Bixby中文版开始公测。虽然这不是Bixby的首次发布,但也意味着一个新的语音巨头开始进入中国市场。在我们的测试中,我们发现Bixby具有出色的识别率,可以实现语音解锁、语音转文字,用户可以对手机进行短信、软件控制、第三方内容访问等多种操作通过语音电话。从某种意义上说,手机已经实现了理解人类语音的能力。
从智障到智能光学语音识别用了100年
当我们在科幻电影中看到可以与人类交流的人工智能时,我们仍然觉得非常高科技。事实上,语音助手已经悄然走进我们的生活,让你在看到当下优秀的语音产品时会感到陌生。在我们大部分人的印象中,语音助手还是比较“弱智”的,其实这点是不能否认的。因为机器没有智能,它不能像人一样思考,或者它没有足够大的系统让它思考。但同样不可否认的是,语音识别中的人工智能已经具备了相当大的规模。
语音识别带来了极大的便利
举一个很常见的例子,目前大部分的互联网电视都支持语音搜索功能,这给电视的使用带来了极大的便利。因为电池的输入设备还是遥控器,其输入效率无法与键盘媲美,但如果支持语音,只要向电视输入语音指令即可完成交互,非常方便. 此外,语音识别交互也为盲人设备的使用带来了福音。它的作用不容小觑。
手机语音助手(图片来自网络)
相信很多没有关注语音识别功能的读者都会有这样的疑问:兄弟,你在开玩笑吧?无聊的时候可以喊几句Siri,家里的智能音箱只是普通的语音助手。你说的到底有多神秘?而且智能音箱的价格也不贵,如果是高科技,怎么可能这么便宜?更不用说,开发语音助手真的不是一个小项目。而且一般来说,语音助手很难自己实现,至少在你使用语音听写的时候,输入法厂商是不会向你收费的。因此,如果没有强大的资金支持,很难坚持到有收入的那一天。
语音识别还是有点鸡肋(图片来自网络)
现在我们去看厂家对语音助手的宣传,他们都说我们的准确率达到了多少。目前,90%以上的准确率已经相当不错了。虽然我们有这么高的准确率,但我们还是觉得语音助手有点鸡肋,这与语言的复杂性和第三方界面的完善有很大关系。本期发烧学院,我们来聊聊语音识别的实现原理,以及语音识别的现状和未来发展系统里没有语音识别,想象一下人工智能什么时候会一统天下。
语音识别实现原理:数据库
简而言之,语音识别的原理其实并不难理解。总的来说,原理和指纹识别是一样的:设备采集目标语音,然后对采集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息为与数据库中已有数据进行相似度搜索比较,得分最高的是识别结果。然后通过其他系统的接入完成设备的语音识别功能。
简要识别过程
如果你对语音识别不是很感兴趣,那么了解大致原理就足够了。事实上,语音识别的过程是相当复杂的。最直接的原因是语音的复杂性。只要输入的指纹信息与数据库中已有的信息相匹配,就可以完成指纹识别。这个数据库中包含的数据只是一些指纹信息。但声音完全不同。
《康熙字典》(引自中国古玩网)
《康熙大辞典》共收录汉字47035个,由当时30多位著名学者用六年时间编纂而成。而汉语不仅仅是一个孤立的汉字,语言中有升调和降调,有分句情感,对不同语义也有不同的理解。同时,全国各地也没有说普通话,方言也很多。构建一个完整的语言数据库的难度可想而知。中文的复杂性是Bixby中文版发布晚于英文版的原因。
高精度语音识别离不开庞大的云数据库(图片引自网络)
庞大的语言数据库很难放在移动端,这也是几乎所有手机语音助手都需要联网的原因。语音识别的发展并非没有离线版本,但不难发现,离线版本的准确率远低于在线版本。另外,我们刚才提到,很多语音厂商声称准确率在90%以上,可以说是非常了不起。毫不夸张地说,此时的准确率每提高 1%,就是一个质的飞跃。这不仅需要一个相当完整的数据库,还需要高效的识别和提取算法以及自学习系统来满足这样的准确率。
当然,我们要辩证地看待这些数据。俗话说,一句话可以说一百种,汉语可以说是博大精深;并且很难测试厂商给出的准确度数据要广泛,所以一些用户正在使用语音识别。发挥作用的时候发现还是“智障”是正常的。
语音识别实现原理:算法与自学
刚才我们提到了识别提取算法和自学习系统,这里不妨简单了解一下它们的工作过程:首先,语音识别系统对采集到的目标语音进行预处理,这已经很复杂了,包括语音信号采样,抗混叠带通滤波,去除因设备、环境等造成的个体发音差异和噪声影响。然后对处理后的语音执行特征提取。
数字语音波形(图片来自网络)
我们知道,声音的本质是振动,可以用波形来表示,识别需要对波形进行构图。多个帧构成一个状态,三个状态构成一个音素。英语中常用的音素集是卡内基梅隆大学形成的一组39个音素。在汉语中,所有声母和韵母一般都直接用作音位集。此外,汉语识别分为声调和调音。之后,通过音素系统合成单词或汉字。当然,后续的匹配和内容后处理也需要相应的算法来完成。
输出文本形式的识别过程
自学系统更适用于数据库。一个将语音转换为文本的语音识别系统需要两个数据库,一个是可以匹配提取信息的声学模型数据库,另一个是可以与之匹配的文本语言数据库。这两个数据库需要预先训练和分析大量的数据模型,也就是所谓的自学习系统,从而提取有用的数据模型形成数据库;然后将识别方法聚合到数据库中,从而使识别系统对用户更智能。
进一步总结整个识别过程:对采集到的目标语音进行处理,获取包含关键信息的语音部分——提取关键信息——识别最小单位词,分析指定语法排列——分析整个句子的语义,分析关键内容。排列句子,调整文字组成——根据整体信息修改内容略有偏差。
语音识别的现状和未来
Radio Rex 玩具狗(图片引自网络)
近两年人工智能的出现不是一朝一夕的事,语音识别也不例外。从语音识别的最初雏形到准确率达到90%以上,已有约100年的历史。生产于 1920 年代的 Radio Rex 玩具狗,一叫就会弹出,被视为语音识别的鼻祖。真正的语音识别研究始于 1950 年代。AT&T贝尔实验室构建的Audry系统实现了十位英文数字的语音识别。
最近流行的 NPU 神经网络早在 1960 年代就已用于语音识别。基于大词汇量、连续语音和非特定人的三个特点的Sphinx系统诞生于1980年代后期。自 1990 年代以来,正是语音识别发展的极好时期。政府机构已经开始关注语音识别技术。许多著名的公司已经开始在这一领域进行大量投资。一大批高水平的研究机构加入了语音识别的研究领域。时间成就显着。
科大讯飞的语音听写
今天,语音识别已经取得了突破。2017年8月20日,微软语音识别系统错误率由5.9%降至5.1%,可达到专业速记员水平;国内语音识别行业的佼佼者,科大讯飞的语音听写准确率达到95%,实力强大。国内各大公司如阿里、百度、腾讯等也在语音识别方面发力,前景看好。
科大讯飞车载语音助手飞宇系统(图片来自网络)
此外,语音识别系统将不仅仅用于上述手机交互和智能音箱命令。在玩具、家具、汽车、司法、医疗、教育、工业等诸多领域,语音识别系统将发挥不可忽视的作用。影响。毕竟,在当前人工智能时代,在设备能够轻易检测到人的思想之前,语音交互是最高效的人机交互方式。
写在最后
看到这里,相信大家对语音识别有了大概的了解。我们在手机和智能音箱上看到的语音识别只是语音识别领域的冰山一角系统里没有语音识别,未来我们会看到更多的语音识别形式应用于日常生活的方方面面,比如语音识别系统与无人驾驶汽车协同工作。只要你告诉汽车去哪里,汽车就能自动带你到目的地。
人工智能何时会统治世界,这个问题真的很难说。人工智能已经掌握了自然语言的能力,即使相比人类的语言能力还比较基础,但已经可以根据程序给出相应的内容,这就是具备智慧的条件。从某种意义上说,人类的智慧是由一个基本功能综合而成的。但显然这不是我们需要担心的,只需期待和享受人工智能带来的便利即可。