大数据：互联网大规模数据挖掘与分布式处理

作者 [美]Anand著[美]Jeffrey David Ullman著王斌译
出版社人民邮电出版社
出版时间 2012年9月第1版
ISBN 9787115291318
定价 59.00

内容简介

《大数据：互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料，主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法，介绍了目前Web应用的许多重要话题。主要内容包括：分布式文件系统以及Map-Reduce工具；相似性搜索；数据流处理以及针对易丢失数据等特殊情况的专用处理算法；搜索引擎技术，如谷歌的PageRank；频繁项集挖掘；大规模高维数据集的聚类算法；Web应用中的关键问题：广告管理和推荐系统。

作者简介

AnandRajaraman，数据库和Web技术领域专业，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功：1996年创办Junglee公司，2000年与人合创Cambrian，孵化出几个后来被谷歌收购的公司；2005年创办Kosmix公司并任CEO，该公司2011年被沃尔玛集团收购。Rajaraman生于印度，在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。JeffreyDavidUllman，美国国家工程院院士，计算机科学家，斯坦福大学教授。Ullman早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。他是ACM会员，曾获SIGMOD贡献奖、Knuth奖等多项科研大奖；他是“龙书”《编译原理》、数据库领域专业指南《数据库系统实现》的合著者；麾下多名学生成为了数据库领域的专家，其中最有名的当属谷歌创始人SergeyBrin。译者简介：王斌，博士，中国科学院计算技术研究所博士生导师。中国科学院信息工程研究所客座研究员。主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项，发表学术论文120余篇。现为ACM会员、中国中文信息学会理事、中文信息学会信息检索专委会委员、《中文信息学报》编委、中国计算机学会高级会员及计算机学会中文信息处理专委会委员。自2006年起在中国科学院研究生院（现改名“中国科学院大学”）讲授《现代信息检索》研究生课程，选课人数累计近千人。2001年开始指导研究生，迄今培养博士、硕士研究生30余名。

丛书

图灵程序设计丛书

— END —

大数据：互联网大规模数据挖掘与分布式处理

内容简介

作者简介

目录

丛书