0%

大数据学习路线

主要分为7个阶段:

入门知识Java基础Scala基础Hadoop技术模块Hadoop项目实战Spark技术模块大数据项目实战

阶段一:入门知识

学习入门知识这一部分主要针对的是新手,在学习之前需要先掌握基本的数据库知识。 MySQL是一个DBMS(数据库管理系统),是最流行的关系型数据库管理系统(关系数据库, 是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据)。 MongoDB是IT行业非常流行的一种非关系型数据库(NoSQL), 其灵活的数据存储方式备受当前IT从业人员的青睐。 而Redis是一个开源、支持网络、基于内存、键值对存储数据库。两者都非常有必要了解。

  1. Linux基础入门
  2. Vim编辑器
  3. Git实战教程
  4. MySQL基础课程
  5. MongoDB基础教程
  6. Redis基础教程

阶段二:Java基础

Java是目前使用最为广泛的编程语言,它具有的众多特性,特别适合作为大数据应用的开发语言。 Java语言具有功能强大和简单易用两个特征,跨平台应用能力比C、C++更易用,更容易上手。 同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。 最重要的一点是Hadoop是用Java编写的。

  1. Java编程语言
  2. Java进阶之设计模式
  3. J2SE核心开发实战
  4. JDK核心API
  5. JDBC入门教程
  6. Java8新特性指南

阶段三:Scala基础

Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。 由于Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序, 所以Scala可以和大数据相关的基于JVM的系统很好的集成。

  1. Scala开发教程
  2. Scala专题教程 – Case Class和模式匹配
  3. Scala专题教程 – 隐式变换和隐式参数
  4. Scala专题教程 – 抽象成员
  5. Scala专题教程 – Extractor
  6. Scala开发二十四点游戏

阶段四:Hadoop技术模块

Hadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架, 它能搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务。 编程语言你可以选,但Hadoop一定是大数据必学内容。

  1. Hadoop入门进阶课程
  2. Hadoop部署及管理
  3. HBASE教程
  4. Hadoop分布式文件系统 – 导入和导出数据
  5. 使用Flume收集数据

阶段五:Hadoop项目实战

当然,学完理论就要进行动手实战了,Hadoop项目实战可以帮助加深对内容的理解,并锻炼动手能力。

  1. Hadoop图处理 – hadoop应用框架

阶段六:Spark技术模块

Spark和Hadoop都是大数据框架。Hadoop提供了Spark所没有的功能特性, 比如分布式文件系统,而Spark为需要它的那些数据集提供了实时内存处理。所以学习Spark也非常必要。

  1. Spark2.x快速入门教程
  2. Spark大数据动手实验
  3. Spark基础之GraphX图计算框架学习
  4. Spark基础之DataFrame基本概念学习
  5. Spark基础之DataFrame高阶应用技巧
  6. Spark基础之Streaming快速上手
  7. Spark基础之SQL快速上手
  8. Spark基础之使用机器学习库MLlib
  9. Spark基础之SparkR快速上手
  10. 流式实时日志分析系统 – Spark最佳实践
  11. 使用Spark和D3.js分析航班大数据

阶段七:大数据项目实战

最后阶段提供了大数据实战项目,这是对常用技能的系统运用, 例如使用常用的机器学习进行建模、分析和运算,这是成为大数据工程师过程中的重要一步。

  1. Ebay在线拍卖数据分析
  2. 流式实时日志分析系统 – Spark最佳实践
  3. 大数据带你挖掘打车的秘籍
  4. Twitter数据情感分析
  5. 使用Spark进行流量日志分析
  6. Spark流式计算电商商品关注度
  7. Spark的模式挖掘 – FPGrowth算法