书目

自然语言处理Python进阶

内容简介

第1章教你使用内置的NLTK语料库和频率分布。我们还将学习什么是WordNet,并探索其特点和用法。第2章演示如何从各种格式的数据源中提取文本。我们还将学习如何从网络源提取原始文本。zui后,我们将从这些异构数据源中对原始文本进行规范并构建语料库。第3章介绍一些关键的预处理步骤,如分词、词干提取、词形还原和编辑距离。第4章介绍正则表达式,它是zui基本、zui简单、zui重要和zui强大的工具之一。在本章中,你将学习模式匹配的概念,它是文本分析的一种方式,基于此概念,没有比正则表达式更方便的工具了。第5章将学习如何使用和编写自己的词性标注器和文法规则。词性标注是进一步句法分析的基础,而通过使用词性标记和组块标记可以产生或改进文法规则。第6章帮助你了解如何使用内置分块器以及训练或编写自己的分块器,即依存句法分析器。在本章中,你将学习评估自己训练的模型。第7章介绍信息抽取和文本分类,告诉你关于命名实体识别的更多信息。我们将使用内置的命名实体识别工具,并使用字典创建自己的命名实体。我们将学会使用内置的文本分类算法和一些简单的应用实例。第8章介绍高阶自然语言处理方法,该方法将目前为止你所学的所有课程结合到一起,并创建应对你现实生活中各种问题的适用方法。我们将介绍诸如文本相似度、摘要、情感分析、回指消解等任务。第9章介绍深度学习应用于自然语言处理所必需的各种基本原理,例如利用卷积神经网络(CNN)和长短型记忆网络(LSTM)进行邮件分类、情感分类等,zui后在低维空间中可视化高维词汇。第10章描述如何利用深度学习解决zui前沿的问题,包括文本自动生成、情景数据问答,预测下一个优词的语言模型以及生成式聊天机器人的开发。

作者简介

克里希纳·巴夫萨(KrishnaBhavsar)花了大约10年时间在各行业领域如酒店业、银行业、医疗行业等进行自然语言处理、社交媒体分析和文本挖掘方面的研究。他致力于用不同的NLP语料库如StanfordCoreNLP、IBM的SystemText和BigInsights、GATE和NLTK来解决与文本分析有关的行业问题。克里希纳还致力于分析社交媒体给热门电视节目和流行零售品牌以及产品带来的效应。2010年,他在NAACL上发表了一篇关于情感分析增强技术的论文。近期,他创建了一个NLP管道/工具集并开源以便公众使用。除了学术和科技,克里希纳还热衷于摩托车和足球,空闲时间喜欢旅行和探索。他骑摩托车参加过环印度公路旅行并在东南亚和欧洲大部分国家徒步旅行过。纳雷什·库马尔(NareshKumar)曾为财富500强企业设计、实施和运行超大型因特网应用程序,在这方面他拥有超过十年的专业经验。他是一位全栈架构师,在电子商务、网络托管、医疗、大数据及分析、数据流、广告和数据库等领域拥有丰富的实践经验。他依赖开源并积极为其做贡献。纳雷什一直走在新兴技术的前沿,从Linux系统内部技术到前端技术。他曾在拉贾斯坦邦的BITS-Pilani学习,获得了计算机科学和经济学的双学位。普拉塔普·丹蒂(PratapDangeti)在班加罗尔的研究和创新实验室开发机器学习和深度学习方法,以用于结构化、图像和TCS文本数据。他在分析和数据科学领域拥有丰富的经验,并在IITBombay获得了工业工程和运筹学项目的硕士学位。普拉塔普是一名人工智能爱好者。闲暇时,他喜欢阅读下一代技术和创新方法。他还是Packt出版的《StatisticsforMachineLearning》一书的作者。

—  END  —