书目

人与机器听觉:听见声音的意义

内容简介

《人与机器听觉:听见声音的意义》由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。《人与机器听觉:听见声音的意义》中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。《人与机器听觉:听见声音的意义》内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。《人与机器听觉:听见声音的意义》对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。《人与机器听觉:听见声音的意义》构建了一套完整的听觉理论框架,具有鲜明的学术观点和创作特色:创造性地提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,强调将听觉模型引入机器听觉应用,反对将耳蜗视作傅里叶频率分析器的做法。将听觉系统划分为四层,在底层听觉过程模拟的基础上探索高层信息处理机制并验证模型的有效性,为远近场模型等问题的解决以及CASA等技术的落地提供理论支撑,同时拓展了研究思路。全面涵盖人类听觉原理、机器听觉理论、精密听觉模型建模方法以及利用机器学习方法构建的应用实例,不仅对研究现状进行了系统梳理,而且穿插着对听觉研究史上标志性人物和事例的介绍。对听觉问题的阐释直击本质,对相关数学表述及推导过程的讲解尤为清晰明了,无须复杂的专业知识也能逐步理解。此外,所有听觉处理算法均配有可免费下载的源代码,便于读者实践。

作者简介

理查德・F.里昂(RichardF.Lyon),谷歌公司首席科学家,IEEEFellow,ACMFellow。他目前主要负责谷歌机器听觉方向的研发工作,其团队开发了用于谷歌街景的相机系统。他的研究兴趣包括用于声音分析及可视化的耳蜗模型和听觉相关谱图,以及这些模型的模拟电路及VLSI数字实现。在加入谷歌之前,他曾在施乐公司、斯伦贝谢公司和苹果公司从事相关研发工作。此外,他还拥有包括光电鼠标在内的58项美国发明专利授权。朱维彬,博士,北京交通大学信息科学研究所副教授,主要从事言语信息处理理论及应用研究,涉及语义的言语表现及计算、言语情感分析及建模。曾在IBM中国研究中心任研究员,从事语音声学模型、韵律建模和言语数据库的研究。高莹莹,博士,毕业于北京交通大学信息科学研究所,研究方向为言语情感生成建模。现就职于中国移动研究院人工智能与智慧运营中心,主要从事语音识别、端到端一体化建模的研究。

目录

—  END  —