Hadoop学习笔记(1)

网上找了一些Hadoop的资料,学习了一番,做做笔记,也许以后会用到。

涉及到大数据,所以简单的聊聊大数据吧。

什么是大数据?

“大“,并不仅仅是数据的”多“,对于大数据而言,可以用四个词来表示:Volume(大量的),Variety(复杂多样),Velocity(快速的),Veracity(真实性)。

Volume:这个大家都知道,大量的数据,想想淘宝,QQ,Facebook,每天所产生的数据就大得让人难以想象。

Variety:数据的多样性,指数据的种类,格式,可能是结构型数据,也可能是非结构的文本、图片、语音等等。

Velocity:快速,即时。大数据需要快速、实时的进行处理,如果对数据进行处理,等十天半个月出来的结果,哪还有什么意义?

Veracity:真实性,也就是说数据具有不确定性。信息尚且有虚假,更何况数据?

 

根据以上这些特点,我们可能需要一个东西,来完成以下功能:

  1. 存储大量数据;
  2. 快速的处理大量数据;
  3. 对大量数据进行分析。

 

于是就有了Hadoop。

 

Hadoop是实现了分布并行处理任务的系统框架,其核心组成是HDFS和MapReduce两个子系统,能 够自动完成大任务计算和大数据存储的分割工作。随着Hadoop近几年的发展,现在Hadoop已经包括很多项目,可以称为Hadoop的子集。很多Hadoop相关的生态项目也应运而生,例如Common、Yarn、Avro、Chukwa、Hive、Hbase、Zookeeperdeng。这些生态工具对Hadoop的核心起到了良好的补充作用。

简单理解,Hadoop就想一个生态系统,HDFS和MapReduce是这套系统的核心,Hive、Zookeeper、Hbase等,都是这套系统上的一些软件、应用。

Hadoop模型图:
hadoop模型图

Leave a Reply