主要分为7个阶段:
入门知识
→Java基础
→Scala基础
→Hadoop技术模块
→Hadoop项目实战
→Spark技术模块
→大数据项目实战
阶段一:入门知识
学习入门知识这一部分主要针对的是新手,在学习之前需要先掌握基本的数据库知识。 MySQL是一个DBMS(数据库管理系统),是最流行的关系型数据库管理系统(关系数据库, 是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据)。 MongoDB是IT行业非常流行的一种非关系型数据库(NoSQL), 其灵活的数据存储方式备受当前IT从业人员的青睐。 而Redis是一个开源、支持网络、基于内存、键值对存储数据库。两者都非常有必要了解。
- Linux基础入门
- Vim编辑器
- Git实战教程
- MySQL基础课程
- MongoDB基础教程
- Redis基础教程
阶段二:Java基础
Java是目前使用最为广泛的编程语言,它具有的众多特性,特别适合作为大数据应用的开发语言。 Java语言具有功能强大和简单易用两个特征,跨平台应用能力比C、C++更易用,更容易上手。 同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。 最重要的一点是Hadoop是用Java编写的。
- Java编程语言
- Java进阶之设计模式
- J2SE核心开发实战
- JDK核心API
- JDBC入门教程
- Java8新特性指南
阶段三:Scala基础
Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。 由于Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序, 所以Scala可以和大数据相关的基于JVM的系统很好的集成。
- Scala开发教程
- Scala专题教程 – Case Class和模式匹配
- Scala专题教程 – 隐式变换和隐式参数
- Scala专题教程 – 抽象成员
- Scala专题教程 – Extractor
- Scala开发二十四点游戏
阶段四:Hadoop技术模块
Hadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架, 它能搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务。 编程语言你可以选,但Hadoop一定是大数据必学内容。
- Hadoop入门进阶课程
- Hadoop部署及管理
- HBASE教程
- Hadoop分布式文件系统 – 导入和导出数据
- 使用Flume收集数据
阶段五:Hadoop项目实战
当然,学完理论就要进行动手实战了,Hadoop项目实战可以帮助加深对内容的理解,并锻炼动手能力。
- Hadoop图处理 – hadoop应用框架
阶段六:Spark技术模块
Spark和Hadoop都是大数据框架。Hadoop提供了Spark所没有的功能特性, 比如分布式文件系统,而Spark为需要它的那些数据集提供了实时内存处理。所以学习Spark也非常必要。
- Spark2.x快速入门教程
- Spark大数据动手实验
- Spark基础之GraphX图计算框架学习
- Spark基础之DataFrame基本概念学习
- Spark基础之DataFrame高阶应用技巧
- Spark基础之Streaming快速上手
- Spark基础之SQL快速上手
- Spark基础之使用机器学习库MLlib
- Spark基础之SparkR快速上手
- 流式实时日志分析系统 – Spark最佳实践
- 使用Spark和D3.js分析航班大数据
阶段七:大数据项目实战
最后阶段提供了大数据实战项目,这是对常用技能的系统运用, 例如使用常用的机器学习进行建模、分析和运算,这是成为大数据工程师过程中的重要一步。
- Ebay在线拍卖数据分析
- 流式实时日志分析系统 – Spark最佳实践
- 大数据带你挖掘打车的秘籍
- Twitter数据情感分析
- 使用Spark进行流量日志分析
- Spark流式计算电商商品关注度
- Spark的模式挖掘 – FPGrowth算法