这是什么地方| 九六年属什么的| 小孩手足口病吃什么食物好| 胃胀反酸吃什么药效果好| 农历五月十八是什么星座| 80岁是什么之年| cartoon什么意思| 手指甲看什么科室| 胆结石切除胆囊后有什么影响| sherpa是什么面料| 发烧头晕吃什么药| 不明原因腹痛挂什么科| 胸闷气短是什么病| 白带是什么样子| 布帛是什么意思| 蚊子怕什么植物| 茜读什么| 雷诺氏病是一种什么病| 虫草治什么病| min代表什么| 金匮肾气丸适合什么人吃| 鸟大了什么林子都有| 自慰是什么| 比目鱼是什么鱼| 干什么挣钱最快| 产检挂什么科| 膝盖疼吃什么药好| 男属狗配什么属相最好| 烫伤抹什么药膏| 助力车是什么车| 内瘘是什么意思| 什么是地震| 感冒咳嗽一直不好是什么原因| 她将是你的新娘是什么歌| 身份证有什么用| 重庆为什么这么热| 社会科学院是干什么的| 吃什么开胃| 78是什么意思| 空心人是什么意思| 本来无一物何处惹尘埃是什么意思| 火鸡面为什么叫火鸡面| 4.22是什么星座| 痃癖是什么病| 止血芳酸又叫什么名| 摄入是什么意思| 铁观音什么季节喝最好| 什么的衣裳| 火山飘雪是什么菜| 齐天大圣是什么级别| 什么生水| 什么星球最大| 8月10号什么星座| 腺苷脱氨酶高什么意思| 梦见杀鸡见血什么征兆| 鬓发是什么意思| 耄耋读什么| 知了猴吃什么长大的| 喉咙痛看什么科| 智齿长什么样子图片| 病人说胡话是什么征兆| 白带异常是什么原因| cab是什么意思| 少年白头发是什么原因| rf是什么的缩写| 党内警告处分有什么影响| 成都人民公园有什么好玩的| 君王是什么意思| 白芷是什么| 咖啡对心脏有什么影响| 室缺是什么意思| 腰椎间盘突出适合什么运动| 乌岽单丛是什么茶| 淀粉吃多了有什么危害| 什么叫2型糖尿病| 高压和低压差值在什么范围正常| 室性早搏吃什么药最好| 夜间盗汗是什么原因| 什么东西最养胃| 一竖一点念什么| 小翅膀车标是什么车| 希特勒为什么要杀犹太人| 煲电话粥什么意思| 八岁属什么生肖| 头尖适合什么发型| 就餐是什么意思| 似曾相识是什么意思| 木吉他什么牌子比较好| 铁达时手表什么档次| 末梢神经炎吃什么药| 什么是膜性肾病| 花中皇后是什么花| 威士忌是什么酿造的| 大便黑色是什么问题| 开封有什么好玩的地方| 南京市长是什么级别| 踩水是什么意思| 肿瘤是什么意思| 扁平疣用什么药膏| 生肖本命带红花是什么生肖| 牛鬼蛇神指什么生肖| 间谍是什么意思| 水浒传是什么朝代| 嘴唇有痣代表什么| 受益匪浅的意思是什么| 葡萄糖偏低是什么意思| 白带异味是什么原因| msa是什么| 27岁属什么| 舌炎是什么原因引起的怎样治疗| 消化功能紊乱吃什么药| 煮玉米为什么要放盐| 白头发缺什么维生素| 狮子吃什么食物| 睡眠不好吃什么药最有效| 月忌日是什么意思| 头晕吃什么食物好| 嘉字属于五行属什么| 玫瑰糠疹是什么原因引起的| 脾脏是人体的什么器官| 怀挺是什么意思| 尿检红细胞高是什么原因| 胎儿缺氧是什么原因造成的| 养老院护工都做些什么| 夏季穿什么鞋| 白起为什么被赐死| 水样分泌物是什么炎症| 人生观价值观世界观是什么意思| 黑色素沉淀是什么原因引起的| 土豆有什么营养价值| 拉伤筋用什么药好| 花中四君子是什么| 牙龈起泡是什么原因| 用什么泡脚能减肥| 诗意是什么意思| 牛有几个胃分别叫什么| 鹅蛋炒香菜治什么病| 复光是什么意思| 梦见蛇代表什么| 睾丸肿大吃什么药| 什么样的人值得爱| 红龙是什么| 支原体和衣原体有什么区别| 奶嚼口是什么| 交界痣是什么| 孕前检查挂什么科| 腰酸挂什么科| 顶针什么意思| 上焦有火吃什么中成药| hr过高是什么意思| 里急后重吃什么药| 白色舌苔厚是什么原因| 古曼童是什么| 什么车最长| 什么药不能喝酒| 炒菜用什么油最健康| d二聚体高是什么意思| 心胸狭窄是什么意思| 吃什么能降甘油三酯| 什么伤肝| 汛期什么意思| 苏州有什么特产可以带回家| HlV是什么| 阳虚吃什么药| 猪脚煲汤放什么材料好| 下午1点是什么时辰| 双肺索条灶是什么意思| 男性粘液丝高什么原因| est是什么意思| 手指头红是什么原因| 月经吃什么水果| 肺ca是什么病| 综合是什么意思| 热爱是什么意思| 属虎的和什么属相最配| 控制欲强的人最怕什么| 沙蒜是什么| 激素六项检查挂什么科| 出水痘吃什么药| 是什么颜色| 抗生素药对人体有什么危害| 舌头不舒服是什么原因引起的| pg是什么意思| 仿制药是什么意思| 偶发室上性早搏是什么意思| boss是什么意思| 贻笑大方什么意思| 舌加氏念什么| 8月11是什么星座| 什么情况要割包皮| 男性尿血是什么原因导致的| 鬼针草能治什么病| 馥字五行属什么| 扭转乾坤什么意思| 十岁小孩尿床是什么原因| 图例是什么| 为什么一吃东西就拉肚子| 本科是什么学历| 肺气肿是什么症状| 韭菜苔炒什么好吃| 蛇脱皮在家有什么预兆| 肌酸什么时候喝比较好| 葡萄和什么不能一起吃| 阴茎进入阴道是什么感觉| 1969年属什么生肖| 孕妇做梦梦到蛇是什么意思| 红点是什么原因引起的| 什么水果最有营养| 亚健康是什么意思| 为什么小腹隐隐作痛| 蹲久了站起来头晕是什么原因| 头痛是什么病的前兆| 巴西龟吃什么食物| 鱿鱼不能和什么一起吃| 肾囊肿是什么病| 绝对零度是什么意思| 什么人容易得尿毒症| 奇异果和猕猴桃有什么区别| 美的不可方物什么意思| 女人的网名叫什么好听| 吃饭老是噎着是什么原因| 什么的足迹| 肿瘤前期出现什么症状| bodywash是什么意思| 杰瑞是什么品种的老鼠| doris什么意思| 左是什么意思| 女性阴道痒是什么原因| 风疹是什么样子图片| 喝什么水最解渴| 性生活频繁有什么危害| 排卵期出血有什么症状| 皮卡丘什么意思| 先天性心脏病是什么原因造成的| 腿肿吃什么药| 梨状肌综合症吃什么药| 女人来月经吃什么好| 吴亦凡帅到什么程度| 苦瓜泡酒有什么功效和作用| 牛油果坏了是什么样| 什么牌子的保温杯好| 仙女下凡是什么生肖| 乳腺结节不能吃什么食物| 男头发稀少适合什么发型| 四季春茶属于什么茶| 结婚50年是什么婚| 生化是什么原因引起的| 什么药可以当饭吃| 漂洗什么意思| 口甜是什么原因引起的| 虎斑猫是什么品种| 精液什么颜色正常| bpo是什么意思| 斯德哥尔摩综合症是什么意思| 属马的和什么属相不合| 小布丁是什么意思| 流鼻血是什么原因| 动不动就出汗是什么原因| 知了长什么样| lv中文名叫什么| 儒雅什么意思| mg什么单位| 锶对人体有什么好处| 狼图腾是什么意思| 百度
工业控制 | 能源技术 | 汽车电子 | 通信网络 | 安防监控 | 智能电网 | 移动手持 | 无线技术 | 家用电器 | 数字广播 | 消费电子 | 应用软件 | 其他方案

电路设计->电子维修电路图->手机维修电路图->基于DSP的汉字语音识别系统

10月21号是什么星座

发布人:fanxiaoxi 时间:2025-08-04 收藏
百度 研究人员认为,与他人交往对大脑具有刺激作用,可减少患老痴风险。

  语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。本文从实现原理入手,介绍语音识别系统的实现方式。

  概述

  本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的400多个调音节(不考虑声调)以及一些常用的词组。识别系统主要用于手持设备,如手机、掌上电脑。这些设备的CPU一般是DSP,硬件资源十分有限,而且大多不支持浮点运算。那么,对系统各个部分的设计首要考虑的是系统对硬件资源的开销必须尽量的小,不能超过这些设备的限制。硬件资源的开销包括存储模型参数的开销,以及识别过程中对内存、DSP的运行时间的开销。

  2 实现流程

  一般的语音处理流程图如图1所示。

  图1 语音识别系统的处理流图

  在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。

  3 特征提取

  目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。由于本技术方案采用的语音库采样率为8 kHz,因此采用帧长为256个采样点(即32 ms),帧步长或帧移(即每一帧语音与上一帧语音不重叠的长度)为80个采样点(即10 ms)。

  现有语音识别系统采用的主要的两种语音特征包括:

  线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC),该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

  Mel 频标倒谱参数(Mel Frequency Cepstrum Coefficient,MFCC),该特征考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在汉语数码语音识别中MFCC 参数的性能明显优于LPCC参数,因此本技术方案采用MFCC参数为语音特征参数。

  求MFCC参数的大致过程为:

  对输入语音帧加Hamming窗后做快速傅里叶变换(Fast Fourier Transformation,FFT),将时域信号转化为频域信号。

  将线性频标转化为Mel频标。转化方法是将频域信号通过24个三角滤波器,其中中心频率在1 000 Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1 000 Hz以上为等比数列分布。三角滤波器的输出为:

  式中:Xk为频谱上第k个频谱点的能量;Yi为第i个滤波器的输出;Fi为第i个滤波器的中心频率。

  用离散余弦变换(Discrete Cosine Transformation,DCT)将滤波器输出变换到倒谱域:

  式中:p为MFCC参数的阶数,这里取p = 12.{Ck}k = 1,2,…,12即为所求的MFCC参数。

  为体现语音的动态特性,在语音特征中加入了一阶差分倒谱,其计算方法如下式所示:

  式中下标l与l - k表示第l与l - k帧;m表示第m维。

  MFCC参数计算的要点是将线性功率谱S(n)转换成为Mel频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1.M为滤波器个数,N为一帧语音信号的点数。每个滤波器具有三角形特性,其中心频率为fm,它们在Mel频率轴上是均匀分布的。在线性频率上,当m 较小时相邻的fm间隔很小,随着m的增加相邻的fm间隔逐渐拉开。Mel频率和线性频率的转换关系如下:

  这些带通滤波器的参数是事先计算好的。图2给出了滤波器组的分布图,其中M 选择为26,FFT点数N为256,语音信号的采样频率为8000 Hz。

  图2 利用人耳仿生学特性设计的Mel尺度滤波器组

  4 测度估计

  测度估计技术可以采用动态时间弯折DTW、隐马尔可夫模型HMM或人工神经网ANN等算法,本项目采用国际上的HMM,这样能够比较容易的实现非特定人,而且系统结构也比较灵活、一致。

  根据描述的语音单位的大小,HMM可分为:基于整词模型的HMM(Word based HMM)。其优点为可以很好地描述词内音素协同发音的特点,建模过程也较为简单。因此很多小词汇量语音识别系统均采用整词模型HMM.但在大词汇量语音识别中由于所需建立的模型太多而无法使用。

  基于子词模型的HMM(Sub Word based HMM)。该类HMM描述的语音单位比词小,如英语语音识别中的基本音素,汉语语音识别中的半音节等。其优点为模型总数少,所以在大词汇量语音识别中得到了广泛的应用。其缺点在于其描述词内协同发音的能力劣于整词模型,但由于子词模型已经得到了非常充分的研究,所以近年来在很多小词表应用识别系统中也用了子词模型。本技术方案采用基于半音节(即声、韵母)的语音建模方法,其识别模型拓扑结构如图3 所示,其中静音HMM采用1个状态,每一声母模型采用2个状态,每一韵母模型采用4个状态。

  图3 识别模型拓扑结构

  根据输出概率分布的不同,HMM(隐含马尔科夫模型)可分为:

  离散HMM(Discrete HMM,DHMM)。其输出概率是基于一套码本的离散概率分布,其优点在于由于实现了存储量和计算量都较小,所需的训练语音也较少,但其矢量量化的过程会造成性能的损失。

  连续HMM(Continuous Density HMM,CDHMM)。其输出概率是连续概率密度函数(一般是高斯混合密度函数)。其所需的训练语音较多,模型参数存储量和计算量都较大,在训练语音足够时,其性能优于DHMM.

  半连续HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,与DHMM相似,其输出为一套码本,但每个码字均为一个连续概率密度分布函数,这一点与CDHMM相近。其性能和所需的训练语音等均介于DHMM和CDHMM之间。

  考虑到汉语数码语音所需的模型较少,很容易获得足够多的训练语音,因此本技术方案采用了CDHMM为语音模型。

  状态输出概率分布为混合高斯密度函数。其各分量计算如下:

  总的概率输出即为各分量的加权和:

  式中:s表示当前状态;M为混合分量数;u,Σ ,c分别为各混合分量的均值矢量、协方差矩阵和混合分量系数。

  该算法利用Viterbi译码的过程进行帧同步的搜索,易于实时实现,也容易纳入语法信息。考虑到系统的实时实现性,本技术方案采用Viterbi译码作为系统的搜索算法。

  5 试验结果

  在汉语全音节与词组混合的语音识别任务中,得到的初步实验结果为:PC微机浮点算法条件下正确覆盖率不低于98%,定点算法的正确覆盖率不低于97%。DSP嵌入系统定点条件下正确覆盖率不低于96%。系统的响应时间满足实时识别的要求。通过测试组严格的检查及抽样测试,证明上述结果真实可靠,该输入法基本达到实用化要求。

  6 结语

  语音汉字输入技术的研发是具有重大经济和社会意义的课题,该项目采用孤立语音的全音节和词组的混合识别模式,使用连续概率分布非特定人的声学模型,并辅以多候选的人机交互方式,较好地实现了在移动(便携式)电子设备上资源有限的条件下方便快捷的汉字语音输入。


关键词: DSP

评论

技术专区

精子什么味道 甲功四项是什么检查项目 男士脸黑穿什么颜色好 评头论足什么意思 土地出让和划拨有什么区别
心包积液挂什么科 七宗罪是什么 肝回声细密是什么意思 甲状旁腺分泌什么激素 为什么乳头会有白色分泌物
拉格啤酒是什么意思 小便泡沫多是什么原因 具备是什么意思 绿茶是什么意思 屏蔽一个人意味着什么
大象的鼻子有什么作用 荨麻疹是由什么引起的 colorful是什么牌子 左眼皮跳跳好事要来到是什么歌 背上长痘痘是什么原因
寒战是什么症状hcv7jop6ns0r.cn 坐月子可以吃什么水果hcv7jop6ns6r.cn 5月12号是什么日子hcv8jop1ns0r.cn 墨绿的什么hcv7jop5ns1r.cn 试纸一深一浅说明什么hcv9jop2ns9r.cn
房颤与早搏有什么区别zsyouku.com 玉五行属什么hcv9jop7ns2r.cn avg什么意思hcv7jop6ns7r.cn 蛋白石是什么石头hcv9jop5ns5r.cn 医院挂号用什么apphcv8jop2ns1r.cn
胆红素高有什么症状hcv7jop4ns8r.cn 船舷是什么意思hcv8jop0ns2r.cn 洗涤剂是什么hcv8jop3ns8r.cn 磁共振和核磁共振有什么区别hcv9jop1ns5r.cn 热痱子是什么原因引起的hcv8jop1ns1r.cn
百废待兴是什么意思hcv8jop6ns8r.cn 阿玛施属于什么档次hcv7jop4ns7r.cn 为什么要延迟退休hcv7jop5ns2r.cn 人什么什么什么hcv7jop9ns9r.cn 卵泡生成素高是什么原因hcv8jop0ns3r.cn
百度