零基础入门Spark - 从项目入手,带你深入浅出玩转 Spark
你将获得
- 快速构建 Spark 核心知识体系
- Spark 三大计算场景案例实操
- 逐句注释的保姆级代码讲解
- 在故事中搞懂 Spark 开发实战技巧
作者简介:
吴磊,现任 Freewheel 机器学习研发经理,负责计算广告业务中机器学习应用的实践、落地与推广。他还曾任职于 IBM、联想研究院、新浪微博,具备丰富的数据库、数据仓库、大数据开发与调优经验。
吴磊热爱技术分享,擅长使用轻松幽默的故事去解读枯燥的技术。曾于 Spark 中国峰会、AWS re:Invent 分享大规模机器学习应用与落地经验,荣获 AWS Machine Leanring Hero 称号。他在 InfoQ 上发表过多篇文章,更是在今年 3 月份出品了《Spark 性能调优实战》这个专栏,深入浅出、风趣幽默。
课程简介:
说到学习 Spark,如果你对“Spark 还有那么火吗?会不会已经过时了?”这个问题感到困惑,那大可不必。
因为经过十多年的发展,Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱,早已成为各大头部互联网公司的标配。比如,字节跳动、美团、Netflix 等公司基于 Spark 构建的应用,在为公司旗下的核心产品提供服务。
这也就意味着,对于数据应用领域的任何一名工程师来说,Spark 开发都是一项必备技能。
虽然 Spark 好用,而且是大数据从业者的一门必修课,但对于入门这件事儿,却也面临着这样一些难题:
- 学习资料多且杂,自己根本就梳理不出脉络,更甭提要构建结构化的知识体系了。
- 学习 Spark,一定要先学 Scala 吗?新学一门编程语言,真不是件容易的事儿。
- Spark 的开发算子太多,记不住,来了新的业务需求,又不知道该从哪里下手。
- ……
那么,该如何解决这些问题,从而打开 Spark 应用开发的大门呢?
为此,我们邀请到了吴磊老师。他会结合自己这些年学习、应用和实战 Spark 的丰富经验,为你梳理一套零基础入门 Spark 的“三步走”方法论:熟悉 Spark 开发 API 与常用算子、吃透 Spark 核心原理、玩转 Spark 计算子框架,从而帮助你零基础上手 Spark 。--[引用请说明:www.iquizhi.com(爱求知-知识付费下载)]--
这个“三步走”方法论再配合 4 个不同场景的小项目,吴磊老师会从基本原理到项目落地,带你深入浅出玩转 Spark。
课程大纲:
- 开篇词 | 入门Spark,你需要学会“三步走”
- Spark:从“大数据的Hello World”开始
- RDD与编程模型:延迟计算是怎么回事?
- RDD常用算子(一):RDD内部的数据转换
- 进程模型与分布式部署:分布式计算是怎么回事?
- 调度系统:如何把握分布式计算的精髓?
- Shuffle管理:为什么Shuffle是性能瓶颈?
- RDD常用算子(二):Spark如何实现数据聚合?
- 内存管理:Spark如何使用内存?
- RDD常用算子(三):数据的准备、重分布与持久化
- 广播变量 & 累加器:共享变量是用来做什么的?