首页  »  云计算知识  »  什么是语音识别

什么是语音识别?

语音识别是与机器进行语音交流的方式,中国物联网校企联盟将语音识别比作“机器的听觉系统”,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,语音识别技术主要包括模式匹配准则、模型训练技术、特征提取技术这三个方面。

新用户享受中国区域 12 个月免费套餐

什么是语音识别?

首页  »  云计算知识  »  什么是语音识别

什么是智能制造?

什么是语音识别?

语音识别是与机器进行语音交流的方式,中国物联网校企联盟将语音识别比作“机器的听觉系统”,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,语音识别技术主要包括模式匹配准则、模型训练技术、特征提取技术这三个方面。

新用户享受中国区域 12 个月免费套餐

语音识别定义

语音识别定义

语音识别定义_语音识别的输入

语音识别的输入

人声经由麦克风收音再通过模拟 - 数字转换芯片就获得了一维的语音信号,将一维信号通过傅里叶变换(FFT)映射到频率,获得二维的频率信号来作为语音识别系统的输入,常见的语音信号有:MFCC、PCEN、FFT、Fbank 等等。

语音识别定义_传统语音识别的流程

传统语音识别的流程

传统语音识别的流程一般分为特征提取、训练声学模型、训练语言模型、解码搜索这四个步骤,其中,特征提取是将一维的音频信号转换为二维的频谱特征,声学模型是获取每一个帧每一个音素的概率值,语言模型通过获得某些词组的概率值来约束不合理的输出,解码和搜索是从大量可能的输出中找到最合理的输出文本。

语音识别定义_语音识别的输入

语音识别的输入

人声经由麦克风收音再通过模拟 - 数字转换芯片就获得了一维的语音信号,将一维信号通过傅里叶变换(FFT)映射到频率,获得二维的频率信号来作为语音识别系统的输入,常见的语音信号有:MFCC、PCEN、FFT、Fbank 等等。

语音识别定义_传统语音识别的流程

传统语音识别的流程

传统语音识别的流程一般分为特征提取、训练声学模型、训练语言模型、解码搜索这四个步骤,其中,特征提取是将一维的音频信号转换为二维的频谱特征,声学模型是获取每一个帧每一个音素的概率值,语言模型通过获得某些词组的概率值来约束不合理的输出,解码和搜索是从大量可能的输出中找到最合理的输出文本。

语音识别分类

语音识别分类

语音识别应用_根据语音识别对象分类的语音识别应用

根据语音识别对象分类的语音识别应用

语音识别根据识别对象不同可以分为三类,孤立词识别、关键词识别、连续语音识别,其中孤立词识别的任务是识别已知的孤立的词,连续语音识别的任务是识别任意的连续语音,而连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,仅仅检测已知的关键词在哪里出现。

语音识别应用_根据针对的发音人分类的语音识别应用

根据针对的发音人分类的语音识别应用

语音识别根据针对的发音人不同可以分为两类,特定人语音识别、非特定人语音识别,其中特定人语音识别仅仅可以识别一个或几个人的语音,但非特定人语音识别可以被任何人所使用,非特别人语音识别系统更符合实际需要,但是它比针对特定人的识别更加困难。

语音识别应用_根据语音识别对象分类的语音识别应用

根据语音识别对象分类的语音识别应用

语音识别根据识别对象不同可以分为三类,孤立词识别、关键词识别、连续语音识别,其中孤立词识别的任务是识别已知的孤立的词,连续语音识别的任务是识别任意的连续语音,而连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,仅仅检测已知的关键词在哪里出现。

语音识别应用_根据针对的发音人分类的语音识别应用

根据针对的发音人分类的语音识别应用

语音识别根据针对的发音人不同可以分为两类,特定人语音识别、非特定人语音识别,其中特定人语音识别仅仅可以识别一个或几个人的语音,但非特定人语音识别可以被任何人所使用,非特别人语音识别系统更符合实际需要,但是它比针对特定人的识别更加困难。

语音识别应用

语音识别应用

语音识别常见的应用系统有:语音输入系统,它更自然、高效,也更加符合人的日常习惯;智能对话查询系统,能够根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如订票系统、家庭服务、宾馆服务、旅行社服务系统、医疗服务、银行服务等等;语音控制系统,也就是用语音来控制设备运行的系统,对比手动控制来说更加方便快捷,可以被使用在类似于智能家电、声控智能玩具、工业控制、语音拨号系统等许多领域。

语音识别方法

语音识别方法

语音识别主要依靠模式匹配法,将输入语音的特征矢量,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,来完成识别阶段。语音识别将语音序列转换为了文本序列,等于是将一段话的表现形式从语音变成了文本,但是对于文本想表达的层次更深的含义,就需要其他的技术来进行处理,深层含义如情感识别、说话人识别、自然语言理解等。

语音识别发展问题

语音识别发展问题

语音识别主要有五个问题,其中之一是语音的模糊性,也就是正确识别说话者所表达的词语含义。其二是语音的信息量问题,比如,一个说话人在随意说话和认真说话的时候的语音信息是不同的,说话方式会随着时间变化。其三是对自然语言的识别和理解问题,需要将连续的讲话分解成词语和音素等单位,也要建立理解语义的规则。其四是环境噪声的干扰影响,其五是单个字母、词语的特性受到上下文的影响,导致改变发音速度等。

亚马逊云科技热门云产品

亚马逊云科技热门云产品

Amazon Polly

Amazon Polly


使用深度学习技术将文本转换为逼真的语音

Amazon Deep Learning AMI


快速构建深度学习应用程序

Amazon Transcribe

Amazon Transcribe


自动将语音转换为文本

Amazon SageMaker


适用于每位开发人员和数据科学家的机器学习

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域