语音识别定义
语音识别定义
语音识别的输入
人声经由麦克风收音再通过模拟 - 数字转换芯片就获得了一维的语音信号,将一维信号通过傅里叶变换(FFT)映射到频率,获得二维的频率信号来作为语音识别系统的输入,常见的语音信号有:MFCC、PCEN、FFT、Fbank 等等。
传统语音识别的流程
传统语音识别的流程一般分为特征提取、训练声学模型、训练语言模型、解码搜索这四个步骤,其中,特征提取是将一维的音频信号转换为二维的频谱特征,声学模型是获取每一个帧每一个音素的概率值,语言模型通过获得某些词组的概率值来约束不合理的输出,解码和搜索是从大量可能的输出中找到最合理的输出文本。
语音识别的输入
人声经由麦克风收音再通过模拟 - 数字转换芯片就获得了一维的语音信号,将一维信号通过傅里叶变换(FFT)映射到频率,获得二维的频率信号来作为语音识别系统的输入,常见的语音信号有:MFCC、PCEN、FFT、Fbank 等等。
传统语音识别的流程
传统语音识别的流程一般分为特征提取、训练声学模型、训练语言模型、解码搜索这四个步骤,其中,特征提取是将一维的音频信号转换为二维的频谱特征,声学模型是获取每一个帧每一个音素的概率值,语言模型通过获得某些词组的概率值来约束不合理的输出,解码和搜索是从大量可能的输出中找到最合理的输出文本。
语音识别分类
语音识别分类
根据语音识别对象分类的语音识别应用
语音识别根据识别对象不同可以分为三类,孤立词识别、关键词识别、连续语音识别,其中孤立词识别的任务是识别已知的孤立的词,连续语音识别的任务是识别任意的连续语音,而连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,仅仅检测已知的关键词在哪里出现。
根据针对的发音人分类的语音识别应用
语音识别根据针对的发音人不同可以分为两类,特定人语音识别、非特定人语音识别,其中特定人语音识别仅仅可以识别一个或几个人的语音,但非特定人语音识别可以被任何人所使用,非特别人语音识别系统更符合实际需要,但是它比针对特定人的识别更加困难。
根据语音识别对象分类的语音识别应用
语音识别根据识别对象不同可以分为三类,孤立词识别、关键词识别、连续语音识别,其中孤立词识别的任务是识别已知的孤立的词,连续语音识别的任务是识别任意的连续语音,而连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,仅仅检测已知的关键词在哪里出现。
根据针对的发音人分类的语音识别应用
语音识别根据针对的发音人不同可以分为两类,特定人语音识别、非特定人语音识别,其中特定人语音识别仅仅可以识别一个或几个人的语音,但非特定人语音识别可以被任何人所使用,非特别人语音识别系统更符合实际需要,但是它比针对特定人的识别更加困难。
语音识别应用
语音识别应用
语音识别常见的应用系统有:语音输入系统,它更自然、高效,也更加符合人的日常习惯;智能对话查询系统,能够根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如订票系统、家庭服务、宾馆服务、旅行社服务系统、医疗服务、银行服务等等;语音控制系统,也就是用语音来控制设备运行的系统,对比手动控制来说更加方便快捷,可以被使用在类似于智能家电、声控智能玩具、工业控制、语音拨号系统等许多领域。
语音识别方法
语音识别方法
语音识别主要依靠模式匹配法,将输入语音的特征矢量,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,来完成识别阶段。语音识别将语音序列转换为了文本序列,等于是将一段话的表现形式从语音变成了文本,但是对于文本想表达的层次更深的含义,就需要其他的技术来进行处理,深层含义如情感识别、说话人识别、自然语言理解等。
语音识别发展问题
语音识别发展问题
语音识别主要有五个问题,其中之一是语音的模糊性,也就是正确识别说话者所表达的词语含义。其二是语音的信息量问题,比如,一个说话人在随意说话和认真说话的时候的语音信息是不同的,说话方式会随着时间变化。其三是对自然语言的识别和理解问题,需要将连续的讲话分解成词语和音素等单位,也要建立理解语义的规则。其四是环境噪声的干扰影响,其五是单个字母、词语的特性受到上下文的影响,导致改变发音速度等。