语音识别:原理与应用(第2版)
定价:¥138.00
                            								作者: 洪青阳
出版时间:2024-01
出版社:电子工业出版社
- 电子工业出版社
 - 9787121446337
 - 1-4
 - 461661
 - 48253710-7
 - 平塑
 - 16开
 - 2024-01
 - 380
 - 364
 - 计算机科学与技术
 - 本科 研究生及以上
 
                                作者简介
                            
                            
                                                                                        
                            内容简介
                        
                        
                                本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书最后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。                            
                            
                        
                            目录
                        
                        
                                第1章  语音识别概论	1__eol__1.1  语音的产生和感知	1__eol__1.2  语音识别过程	4__eol__1.3  语音识别发展历史	8__eol__1.4  国内语音识别现状	15__eol__1.5  语音识别建模方法	18__eol__1.5.1  DTW	19__eol__1.5.2  GMM-HMM	19__eol__1.5.3  DNN-HMM	20__eol__1.5.4  E2E模型	22__eol__1.6  语音识别开源工具	22__eol__1.7  常用语音识别数据库	23__eol__1.8  语音识别评价指标	24__eol__1.9  参考资料	25__eol__第2章  语音信号基础	28__eol__2.1  声波的特性	28__eol__2.2  声音的接收装置	29__eol__2.2.1  麦克风的性能指标	30__eol__2.2.2  麦克风阵列	31__eol__2.3  声音的采样	32__eol__2.4  声音的量化	33__eol__2.5  语音的编码	35__eol__2.6  WAV文件格式	39__eol__2.7  WAV文件分析	40__eol__2.8  本章小结	43__eol__思考练习题	43__eol__第3章  语音特征提取	44__eol__3.1  预处理	44__eol__3.2  短时傅里叶变换	48__eol__3.3  听觉特性	51__eol__3.4  线性预测	54__eol__3.5  倒谱分析	55__eol__3.6  常用的声学特征	56__eol__3.6.1  语谱图	57__eol__3.6.2  FBank	58__eol__3.6.3  MFCC	59__eol__3.6.4  PLP	60__eol__3.7  本章小结	62__eol__思考练习题	63__eol__第4章  HMM	64__eol__4.1  HMM的基本概念	66__eol__4.1.1  马尔可夫链	67__eol__4.1.2  双重随机过程	68__eol__4.1.3  HMM的定义	69__eol__4.2  HMM的三个基本问题	70__eol__4.2.1  模型评估问题	71__eol__4.2.2  最佳路径问题	74__eol__4.2.3  模型训练问题	76__eol__4.3  本章小结	78__eol__4.4  参考资料	79__eol__思考练习题	79__eol__第5章  GMM-HMM	80__eol__5.1  概率统计	81__eol__5.2  高斯分布	82__eol__5.3  GMM	85__eol__5.3.1  初始化	86__eol__5.3.2  重估计	87__eol__5.4  GMM与HMM的结合	88__eol__5.5  GMM-HMM的训练	94__eol__5.6  模型自适应	96__eol__5.6.1  MAP	96__eol__5.6.2  MLLR	97__eol__5.6.3  fMLLR	97__eol__5.6.4  SAT	98__eol__5.7  本章小结	98__eol__5.8  参考资料	98__eol__思考练习题	99__eol__第6章  基于HMM的语音识别	100__eol__6.1  建模单元	100__eol__6.2  发音过程与HMM状态	103__eol__6.3  串接HMM	104__eol__6.4  固定语法的识别	108__eol__6.5  随机语法的识别	113__eol__6.6  音素的上下文建模	119__eol__6.6.1  协同发音	120__eol__6.6.2  上下文建模	121__eol__6.6.3  决策树	122__eol__6.6.4  问题集	123__eol__6.6.5  三音子模型的训练	128__eol__6.7  本章小结	129__eol__思考练习题	130__eol__第7章  DNN-HMM	131__eol__7.1  深度学习	131__eol__7.2  DNN	132__eol__7.2.1  激活函数	133__eol__7.2.2  损失函数	135__eol__7.2.3  梯度下降算法	136__eol__7.3  DNN与HMM的结合	138__eol__7.4  不同的DNN结构	142__eol__7.4.1  CNN	143__eol__7.4.2  LSTM	147__eol__7.4.3  GRU	147__eol__7.4.4  TDNN	148__eol__7.4.5  TDNN-F	151__eol__7.5  本章小结	154__eol__7.6  参考资料	155__eol__思考练习题	155__eol__第8章  语言模型	156__eol__8.1  n-gram模型	158__eol__8.2  评价指标——困惑度	162__eol__8.3  平滑技术	163__eol__8.3.1  Good-Turing折扣法	163__eol__8.3.2  Witten-Bell折扣法	165__eol__8.3.3  Katz回退法	166__eol__8.3.4  Jelinek-Mercer插值法	169__eol__8.3.5  Kneser-Ney插值法	170__eol__8.4  语言模型的训练	172__eol__8.5  神经网络语言模型	175__eol__8.6  本章小结	180__eol__8.7  参考资料	180__eol__思考练习题	181__eol__第9章  WFST解码器	183__eol__9.1  基于动态网络的Viterbi解码	184__eol__9.2  WFST理论	189__eol__9.3  HCLG构建	193__eol__9.3.1  H的构建	194__eol__9.3.2  C的构建	195__eol__9.3.3  L的构建	196__eol__9.3.4  G的构建	197__eol__9.3.5  HCLG合并	200__eol__9.4  WFST的Viterbi解码	202__eol__9.4.1  Token的定义	202__eol__9.4.2  Viterbi算法	203__eol__9.5  Lattice解码	210__eol__9.5.1  主要数据结构	211__eol__9.5.2  令牌传播过程	212__eol__9.5.3  剪枝策略	215__eol__9.5.4  Lattice	216__eol__9.6  本章小结	218__eol__9.7  参考资料	218__eol__思考练习题	218__eol__第10章  序列区分性训练	219__eol__10.1  区分性准则	220__eol__10.1.1  MMI	220__eol__10.1.2  BMMI	221__eol__10.1.3  MPE/sMBR	221__eol__10.2  MMI求导过程	222__eol__10.3  Lattice-based MMI	224__eol__10.4  Lattice-free MMI	226__eol__10.5  Kaldi Chain模型	228__eol__10.6  本章小结	230__eol__10.7  参考资料	230__eol__思考练习题	231__eol__第11章  端到端语音识别	232__eol__11.1  CTC	233__eol__11.1.1  损失函数	234__eol__11.1.2  前向算法	238__eol__11.1.3  后向算法	241__eol__11.1.4  求导过程	242__eol__11.1.5  CTC解码	244__eol__11.2  RNN-T	247__eol__11.3  基于Attention的Encoder-Decoder模型	250__eol__11.4  Hybrid CTC/Attention	253__eol__11.5  Transformer	255__eol__11.6  Conformer	258__eol__11.7  本章小结	259__eol__11.8  参考资料	259__eol__思考练习题	261__eol__第12章  Kaldi实践	262__eol__12.1  下载与安装Kaldi	263__eol__12.1.1  获取源代码	263__eol__12.1.2  编译	264__eol__12.2  创建和配置基本的工程目录	265__eol__12.3  aishell语音识别工程	266__eol__12.3.1  数据集映射目录准备	267__eol__12.3.2  词典准备和lang目录生成	269__eol__12.3.3  语言模型训练	271__eol__12.3.4  声学特征提取与倒谱均值归一化	273__eol__12.3.5  声学模型训练与强制对齐	275__eol__12.3.6  解码测试与指标计算	277__eol__12.4  本章小结	279__eol__第13章  ESPnet实践	280__eol__13.1  数据准备	280__eol__13.1.1  映射文件准备	280__eol__13.1.2  特征提取	281__eol__13.1.3  数据                            
                            
                        
                        
                        
                    



