书目

语音识别基本法:Kaldi实践与探索

内容简介

语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标,只展示*基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书目。

作者简介

汤志远,中国科学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、口语测评等,在国际重要期刊或会议上累计发表论文数十篇。个人主页:http://tangzy.cslt.org。 李蓝天,清华大学博士、博士后,专注于机器学习在语音信号处理中的方法研究,研究领域涉及说话人识别、语音识别、音频事件检测、语种识别、情感识别等,现已在国际期刊或会议上发表学术论文50余篇。个人主页:http://lilt.cslt.org。 王东,清华大学副研究员,清华大学语音和语言技术中心副主任,英国爱丁堡大学博士,历任Oracle中国软件工程师、IBM中国高级软件工程师、英国爱丁堡大学MarieCurie研究员、法国EURECOM博士后研究员、美国Nuance公司高级研究科学家,在语音领域国际重要期刊或会议上发表论文150余篇,是IEEE高级会员,APSIPA(亚太信号与信息处理协会)SLA(服务等级协议)主席。个人主页:http://wangd.cslt.org。 石颖,哈尔滨工业大学在读博士,曾任清华大学语音和语言技术中心语音算法工程师,专注于语音相关技术,研究领域涉及语音识别、小语种语音识别、命令词识别、语音增强。个人主页:http://shiying.cslt.org。 蔡云麒,中国科学院物理研究所与美国橡树岭国家实验室联合培养博士研究生,清华大学博士后,目前研究方向为语音领域的机器学习算法研究。在国际期刊和会议上发表论文十多篇。个人主页:http://caiyq.cslt.org。 郑方,清华大学研究员、博士生导师,清华大学语音和语言技术中心主任,清华大学人工智能研究院听觉智能研究中心主任,北京信息科学与技术国家研究中心智能科学部常务副主任,得意音通公司创始人。个人主页:http://cslt.riit.tsinghua.edu.cn/~fzheng。

目录

—  END  —