spark项目实战代码(spark菜鸟教程)

Spark 开创至今,已经走过了近 12 年。12 年间,时代的脚步不断前进,我们看到互联网不断发展,各种初创公司崭露头角,在公司日常业务中需要处理的数据量也飞速增长。数据中心也从云下逐渐迁往云上,从单一云走向多云,批处理和流计算逐渐融合,数据仓库逐渐走向湖仓一体,集群资源调度也越来越轻量化。现在,Spark 即将发布 3.2 版本。从问世至今,Spark 不断增强,在大数据蓬勃发展的浪潮中占据越来越重要的位置。Spark 3.0 的发布标志着 Spark 进入了一个全新的时代。Spark 发展至今,有很多人都与Spark 产生了或多或少的交集,王道远老师也是其中一位。本文选自《Spark快速大数据分析(第2版)》的译者序,让我们跟随王老师的脚步,看看他与Spark 的那些事。

我与Spark的那些事8 年前,刚刚从大学毕业的我,有幸误打误撞地走进了大数据这个领域,第一次接触到各种各样的大数据软件。业界的这些大数据软件基本上是开源的,在大数据这个领域似乎商业软件完全无法望其项背。2014 年,我开始参与 Spark 社区的开发,当时 1.0 版本尚未发布,我对大数据也没有特别深入的认知,当时纯粹以自己掌握的数据库和编译原理的皮毛知识参与其中。在这个过程中,我看到了很多牛人的代码,也结识了很多社区大佬,渐渐对 Spark 有了一些了解。后来,我加入阿里云。在大量的客户支持工作中,我才逐渐对整个大数据生态有了一定的了解,也见证了 Spark 被越来越多的客户使用,替换原有的技术栈。

毫无疑问,Spark 在开源软件中是比较成功的,活跃的开源社区为 Spark 贡献了非常多的重要功能和改进,日益好用的 Spark 也正是开源社区给所有人的回馈。在开源世界里,遇到问题谁都可以自己寻找解法,也可以和其他人一起交流、分享。越是流行的软件,发展得越快,也就越能及时跟上这个日新月异的时代。也许有一天,Spark 也会式微,但开源精神一定会继续发扬光大。对个人而言,开源是一种有趣的经历。有条件的话,你也不妨为开源贡献自己的一份力。

我与《Spark快速大数据分析》的不解之缘机缘巧合之下,我在 2015 年翻译出版了《Spark快速大数据分析》。从此,我好像和翻译结下了一段缘分。之后我又翻译了《Spark快速大数据分析(第2版)》,虽然译文不是在社区免费公开的,但我觉得这也是对开源社区的一种贡献。

spark项目实战代码(spark菜鸟教程)

译者:王道远

然而,虽然开源技术没有国界,但世界很大,人类终究说着不同的语言(哪怕代码世界都有那么多种不同的语言,甚至世界上最好的语言都有很多种),偏偏我们搞技术的,即使英文尚可,读起英文书也总是难以如母语般一目十行,由专人花时间把技术书翻译成母语的工作也还算有些价值。在翻译《Spark快速大数据分析(第2版)》这个过程中,我也一直保持着对原书的敬畏,用我有限的语文水平以及我对 Spark 的认识,尽量用平实而避免歧义的文字还原出原书的意思。这本书的翻译从去年 10 月持续到今年 3 月。

第 2 版相比第 1 版多了不少篇幅,涉及的内容也更为丰富,并且兼顾旧版本保留了基本原理与大数据发展的新趋势。相信新老用户都可以从这本书中得到新的收获,可以与 Spark 交个朋友。

01

Databricks 工程师诚意之作,比官方文档更实用的 Spark 入门教程

前一版印刷 32 次,销量超 6 万册

新版全面更新,覆盖 Spark 3.0 新特性

02

本书简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据 API,利用 Spark SQL 进行交互式查询,掌握 Spark 应用的优化之道,用 Spark 和 Delta Lake 等开源工具构建可靠的数据湖,并用 MLlib 库实现机器学习流水线。随着 Spark 从 2.x 版本升级到 3.0 版本,本书第 2 版做了全面的更新,以体现 Spark 生态系统在机器学习、流处理技术等方面的发展,另新增一章详解 Spark 3.0 引入的新特性。

学习使用 Python、Java、Scala 的结构化数据 API

理解 Spark SQL 引擎的原理

掌握 Spark 应用的优化技巧

了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC 等

使用 Structured Streaming 分析批式数据和流式数据

使用 Spark 和 Delta Lake 构建湖仓一体的系统

使用 MLlib 开发机器学习流水线

04作译者介绍

朱尔斯·S. 达米吉(Jules S. Damji)是 Databricks 的高级开发人员,也是 MLflow 的贡献者。

布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。丹尼·李(Denny Lee)是Databricks的软件工程师。译者王道远目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉 Spark 源码,从 2014 年开始参与 Spark 项目,曾为 Spark 贡献大量修复和新特性,也曾作为主要贡献者参与了 OAP 和 SparkCube 等 Spark 生态开源项目的开发。05业内佳评

“这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。”——Reynold Xin
Databricks联合创始人、Apache Spark PMC成员“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。”——Ben Lorica
Databricks数据科学家、Spark AI峰会项目主席“在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。”——王峰,花名“莫问”
阿里云开源大数据平台负责人“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的‘火花’。”——邵赛赛
腾讯专家工程师,数据湖团队负责人“这是一个数据驱动创新的时代,一个数据改变世界的时代,一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南,也是大数据行业的敲门砖。”

——李潇
Databricks Spark研发部主管,Apache Spark PMC成员

赠书福利又来啦!

留言说说你在应用Spark时,有遇到什么问题吗?我们将随机选取2位读者朋友,送出《Spark快速大数据分析(第2版)》一书。12月13日截止。

发表评论

登录后才能评论