爱收集资源网

机器听懂人类的语言——有诸多困难1.语音信号的声学特征

网络整理 2022-03-27 18:00

语音识别是机器通过识别和理解的过程将人类的语音信号转换为相应的文本或命令的技术。其根本目的是开发一种具有听觉功能的机器,它可以直接接收人类的语音,理解人类的意图,并做出相应的反应。技术上,进入多维模式识别和智能界面的范畴。语音识别技术是集声学、语音学、计算机、信息处理和人工智能于一体的综合性技术。可广泛应用于信息处理、通信与电子系统、自动控制等领域。

理解人类语言一直是机器的目标。有很多困难

1.语音信号的声学特性随着前后连接的语音变化很大,连续语音流中的语音单元之间没有明显的边界;

2.语音特征因说话者而异,以及他们的身心状态变化;

3.环境噪声和传输设备的差异也会直接影响语音特征的提取

4.句子所表达的意思与上下文的内容、说话时的环境条件和文化背景有关,而且句子的语法结构是多变的,上下文信息几乎不可能被计算机使用语音识别。,都给语义理解带来了很大的困难

由于起点不同系统里没有语音识别,识别可分为说话人识别和语音识别。就说话人识别而言,可以分为两类:文本相关和文本无关。从使用的角度来看,可以分为说话人识别和说话人确认。前者确定要识别的某个语音是多个说话者之一,属于多选题,属于闭集识别范畴。后者判断要识别的声音是否是特定说话者的语音,其输出只有两个结果,分别是肯定问题或否定问题。

语音识别有不同的分类方法

小说里两生花颜宋有姐姐没?_系统里没有语音识别_siri识别不了语音

按词汇量大小:没有语音识别系统有词汇表,系统只能识别词汇表中包含的单词。通常按照词汇量的大小可以分为小词汇、中词汇和大词汇。一般小词表包含10-100个词,中词表包含100-500个词条,对应的大词表至少包含5000个词条。一般来说,语音识别的识别率会随着词汇量的增加而降低。因此,语音识别的研究难度随着词汇量的增加而逐渐增加。

按发音区分。语音识别可分为孤立词识别、连接词识别、连续语音识别和关键词检测。在孤立词识别中,只识别孤立的音节、单词或词组等,并给出具体的识别结果;在连续语音识别中,机器以书面阅读的形式识别连续自然的语音;而在连接词识别中,发音的方式是介于孤立词和连续语音之间。他表面上看起来像是连续的语音发音,但他能清楚地感觉到声音之间的停顿。这通常是通过串联使用孤立词识别技术来实现的;关键字检测通常用于说话者的发音,其方式类似于自由对话,这种发音称为自发发音模式;在这种发音模式下,影响发音不流畅的因素有很多,比如犹豫、停顿、改正等,而且说话人的发音中有很多单词不在识别的词汇中。要判断和理解说话者的意思,只能​​从一些关键部分。可以做出决定,因此只需要关键字识别。

按说话人分:可分为特定说话人和非特定说话人。前者只能识别固定人的声音。为了让其他人使用这样的系统,他们必须输入大量的语音数据并训练系统;在后者中,机器可以识别任何人的发音。由于语音信号具有很大的可变性,这种系统应该能够从大量不同人的发音样本中学习到非特定人的发音速度、发音强度、发音方式等基本特征,并总结出它们的相似性作为识别方法。标准。用户无论是否参加过培训,都可以使用一套语音识别参考模板。从难度来看,特定说话人的语音识别比较简单,可以得到很高的识别率,已经有商用产品;非特定人识别系统通用性好,应用广泛,但难度也大。,不容易获得高识别率。

从语音识别的方法来看,有模板匹配法、随机模型法和概率解析法。这些方法属于统计模式识别方法。识别过程大致如下:首先提取语音信号的特征系统里没有语音识别,构建参考模板,然后使用可以衡量未知模式与参考模板之间似然度的度量函数,选择最优准则。用专家知识做出鉴别决策,给出鉴别结果。模板匹配方法将测试语音和参考模板的参数一一进行比较匹配,判断是基于失真测量的最小准则。随机模型法是一种利用隐马尔可夫模型(HMM)估计并确定似然函数以获得相应识别结果的方法。由于隐马尔可夫模型具有状态函数,该方法可以利用语音频谱的内在变化(如说话速度、不同说话人特征等)及其相关性。概率解析方法适用于广泛的连续语音识别,它可以利用连续语音中的语法约束知识来估计和判断似然函数。其中,语法可以用参数形式或非参数形式表示。这种方法可以利用语音频谱的内在变化(例如说话速度、不同说话人特征等)及其相关性。概率解析方法适用于广泛的连续语音识别,它可以利用连续语音中的语法约束知识来估计和判断似然函数。其中,语法可以用参数形式或非参数形式表示。这种方法可以利用语音频谱的内在变化(例如说话速度、不同说话人特征等)及其相关性。概率解析方法适用于广泛的连续语音识别,它可以利用连续语音中的语法约束知识来估计和判断似然函数。其中,语法可以用参数形式或非参数形式表示。

最简单的语音识别是特定人、小词汇量、孤立词的语音识别,最复杂难解决的是非特定人、大词汇量、连续语音识别。不管是哪一种,今天使用的主流算法仍然是隐马尔可夫模型方法。近年来,基于神经网络、支持向量机和遗传算法的语音识别技术方兴未艾。

语音识别系统本质上是一个模式识别系统。它的基本框架是:语音输入---预处理和数字化---特征提取---“训练和识别---”(训练参考模式库)---“模式匹配-”后处理--”结果

与其他模式识别一样,它包括三个基本单元:特征提取、模式匹配和参考模式库。由于语音识别系统处理的信息结构复杂、内容丰富、人类语言信息丰富,其系统结构比通常的模式识别系统复杂得多。

后处理单元可能涉及句法分析、语音理解、语义网络和语言模型等。它往往不是一个孤立的单元,而是与模式匹配计算单元和参考模式库集成在一起,形成一个具有复杂逻辑关系的系统. .

语音识别 发音方法 模式识别