书目

Spark权威指南

内容简介

通过本书你将了解到如何使用、部署和维护ApacheSpark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。本书的主要内容有:大数据技术和Spark概述。通过实例学习DataFrame、SQL、Dataset等Spark的核心API。了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。了解Spark如何在集群上运行。Spark集群和应用程序的调试、监控、和调优。学习Spark强大的流处理引擎——结构化流处理。学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。

作者简介

BillChambers是Databricks的一名产品经理,致力于使用Spark和Databricks帮助客户完成大规模数据分析的任务。Bill还定期写关于数据科学和大数据方面的博客,并常在各种会议和见面会上展示产品。他拥有加州大学伯克利分校信息学院的信息系统硕士学位,研究方向为数据科学。MateiZaharia是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校创立了Spark项目,那时他是一名博士生,并继续担任ApacheSpark项目的副主席。MateiZaharia还是ApacheMesos项目的联合创始人,也是ApacheHadoop项目的贡献者。MateiZaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖和VMware系统研究奖。

—  END  —