书目

数据清洗

内容简介

数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章:第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的*步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,*后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。

作者简介

江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。

目录

—  END  —