书目

Spark机器学习实战

内容简介

机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。ApacheSpark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。本书提供了ApacheSpark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和SparkSteaming的使用。本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解SparkML库及其生态系统。

作者简介

西亚玛克・阿米尔霍吉(SiamakAmirghodsi)是***的高级技术执行主管,在大数据战略、云计算、定量风险管理、高级分析、大规模监管数据平台、企业架构、技术路线图、多项目执行等领域具有丰富的企业管理经验,而且入选了《财富》全球二十大人物。明那什・拉杰德兰(MeenakshiRajendran)是一位大数据分析和数据管理经理,在大规模数据平台和机器学习方面非常专业,在全球技术人才圈中也非常出类拔萃。她为**金融机构提供一整套全面的数据分析和数据科学服务,经验非常丰富。Meenakshi拥有企业管理硕士学位,获得PMP认证,在全球软件交付行业拥有十几年的经验,不仅了解大数据和数据科学技术的基础知识,而且对人性也有很深刻的理解。布罗德里克・霍尔(BroderickHall)是一位大数据分析专家,拥有计算机科学硕士学位,在设计和开发大规模的实时性和符合制度要求的复杂企业软件应用程序方面拥有20多年的经验。曾经为美国的一些**金融机构和交易所设计和构建实时金融应用程序,在这些方面拥有丰富的经验。此外,他还是深度学习的早期开拓者,目前正在开发具有深度学习网络扩展功能的大规模基于云的数据平台。肖恩・梅(ShuenMei)是一位大数据分析平台专家,在金融服务行业已经从业超过15年,在设计、构建和执行具有关键任务、低延迟要求的大型企业分布式财务系统方面具有丰富的经验。目前已通过ApacheSpark、Cloudera大数据平台(包括Developer、Admin和HBase)的认证。

目录

—  END  —