Spark快速大数据分析第2版

作者 [美]朱尔斯·S. 达米吉 (美) 布鲁克·韦尼希 (印) 泰瑟加塔·达斯
出版社人民邮电出版社
出版时间 2021年11月第1版
ISBN 9787115576019
定价 119.80

内容简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用SparkSQL进行交互式查询，掌握Spark应用的优化之道，用Spark和DeltaLake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark3.0引入的新特性。

作者简介

【作者简介】朱尔斯·S.达米吉（JulesS.Damji）是Databricks的高级开发人员，也是MLflow的贡献者。布鲁克·韦尼希（BrookeWenig）是Databricks的机器学习专家。泰瑟加塔·达斯（TathagataDas）是Databricks的软件工程师，也是ApacheSparkPMC成员。丹尼·李（DennyLee）是Databricks的软件工程师。【译者简介】王道远目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉Spark源码，从2014年开始参与Spark项目，曾为Spark贡献大量修复和新特性，也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。

Spark快速大数据分析 第2版

内容简介

作者简介

目录

Spark快速大数据分析第2版