我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Hadoop学习1

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Hadoop学习1

Hadoop学习1

一.Hadoop社区版和发行版

  1. 社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp://hadoop.apache.org/
  2. 发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系列定制的管理工具和软件。

二.Hadoop社区版版本号

     一直以来,Hadoop的版本号一直困扰着广大Hadoop爱好者,各版本层出不穷。如果你想使用Apache Hadoop,你必须知道自己要使用哪个版本的Hadoop,搞清楚Hadoop版本号就尤为重要了。

 

三.Hadoop发行版

  •  Cloudera
    • 2009年开始Hadoop,Lutch,Lucene,Solr创始人Doug Cutting任职于Cloudera公司。
    • Cloudera的主要产品是Cloudera Manager(CDH)。
    • CDH3基于Apache Hadoop 0.20.2(简单理解为Apche Hadoop 1);CDH4基于Apache Hadoop 0.20.3(简单理解为Apche Hadoop 2),但是它采用新的MapReduce2.0,即Yarm。
  • Hortonworks
    • Hortonworks 2011年成立,由Yahoo于硅谷风投公司Benchmark Capital组成。公司成立的时候吸纳了许多原来在Yahoo工作的Hadoop工程师,Apache Hadoop社区70%的代码是雅虎工程师贡献的。2006年开始Doug Cutting任职于Yahoo公司。
    • Hortonworks的主要产品是Hortonworks Data Platform(HDP)。
    • HDP主要基于Apache Hadoop 1。
  • MapR
    • 用自己的新架构重写Hadoop,提供和Apache Hadoop相同的API。
    • NameNode默认存储三份,不存在NameNode单点故障Single Point Of Failure(SPOF)。
  • IBM
  • 华为
    • 网络,PC,虚拟化方面的硬件实力。
  • Intel
    • Intel的发行版最先进入中国市场。
    • 提供全面的硬件解决方案,针对硬件的性能优化。

 

四.你也可以阅读以下文档

  1.  hadoop版本总结http://dijunzheng2008.blog.163.com/blog/static/98959897201210171340254/
  2. 关于Apache Hadoop 1.0 http://f.dataguru.cn/thread-23223-1-1.html
  3. 突破社区版Hadoop各商业发行版比较 http://cloud.chinabyte.com/news/206/12446706.shtml
  4. 如何选择不同的Hadoop发行版 http://www.searchbi.com.cn/showcontent_70957.htm

 

一.Hadoop来历

  1.  2004年12月。Google发表了MapReduce论文,MapReduce允许跨服务器集群,运行超大规模并行计算。Doug Cutting意识到可以用MapReduce来解决Lucene的扩展问题。
  2. Google发表了GFS论文。
  3. Doug Cutting根据GFS和MapReduce的思想创建了开源Hadoop框架。
  4. 2006年1月,Doug Cutting加入Yahoo,领导Hadoop的开发。
  5. Doug Cutting任职于Cloudera公司。
  6. 2009年7月,Doug Cutting当选为Apache软件基金会董事,2010年9月,当选为chairman。
  7. 各大企业开发自己的发行版,并为Apache Hadoop贡献代码。

二.Google-->Apache

    •  Chubby-->ZooKeeper
    • GFS-->HDFS
    • BigTable-->HBase
    • MapReduce-->MapReduce

三.Google论文

  •  GFShttp://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/de//archive/gfs-sosp2003.pdf
  • BigTable http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/zh-CN//archive/bigtable-osdi06.pdf
  • MapReduce http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

四.你也可以阅读一下文档

  1. Wiki Doug Cutting http://en.wikipedia.org/wiki/Doug_Cutting
  2. Hadoop源代码分析一 http://caibinbupt.iteye.com/blog/262412

 

一.NameNode物理文件夹

 

 

二.DataNode物理文件夹

 

 

一.NameNode概述

  •  NameNode存放了所有文件和文件夹的元数据信息
    • 内存中:在系统启动时,会把fsimage和editlog记录的元数据信息加装到内存中;在系统启动时,NameNode收集DataNode心跳,在内存中形成file->blocks的对应关系。
    • 硬盘上:操作日志以fsimage和editlog的形式持久化在硬盘上。
  • NameNode分类
    • NameNode,Secondary NameNode。
    • NameNode,Checkpoint Node,Backup NameNode。

二.fsimage editLog

  1. editLog:客户端对文件系统每次读写等操作时,元数据节点首先修改内存中的数据结构,然后记录到editlog中。
  2. fsimage:二进制文件;当editlog达到一定量(fs.checkpoint.size)或者距离上次归并到fsimage达到一定时间(fs.checkpoint.period)时, editlog会被归并到fsimage中。此过程被称为checkpoint。另外一个checkpoint的时间是NameNode启动时。

三.NameNode + Secondary NameNode

  1. Secondary NameNode通知NameNode准备chekpoint。
  2. NameNode产生edits.new,用来接受checkpoint过程中的editlog。
  3. Secondary NameNode通过http get方式获取NameNode的fsimage与editlog。
  4. Secondary NameNode开始合并获取的上述两个文件,产生一个新的fsimage文件fsimage.ckpt。
  5. Secondary NameNode用http post方式发送fsimage.ckpt至NameNode。
  6. NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits,然后更新fstime,整个checkpoint过程到此结束。

四.NameNode + Checkpiont NameNode + Backup NameNode

  •  在Hadoop 0.21.0中,Secondary NameNode被Checkpoint NameNode和Backup NameNode取代。
  • Checkpoint NameNode功能同Secondary NameNode,主要作用是合并元数据。
  • Backup NameNode:NameNode实时主动把editlog和fsimage传送给Backup NameNode,主要作用是备份。但其还不能作热备,比喻Backup NameNode的内存中未保存Block的位置信息,仍需要等DataNode上报。 

五.你也可以阅读以下文章

  1. http://www.happyang.com/?p=6
  2. http://blog.sina.com.cn/s/blog_7ead58ad0100umd9.html

 

 

一.数据块

  1. HDFS默认数据块大小64M。{现在的版本已经是128M,下面不在修改了}
  2. 文件大于64M,将被分为若干份64M+其它M存储;文件小于64M,并不会占用整个64M大小,对于小文件,HDFS提供了几种解决方案:Hadoop Archive,Sequence file和CombineFileInputFormat,后面看源码时详解。

 

二.DataNode

  1.  数据节点是真正存储数据的地方。
  2. 周期性向NameNode汇报心跳,并带回NameNode要下达的指令。NameNode并不主动向DataNode发送请求。
  3. DataNode可以作为服务器,接受客户端的读写请求。
  4. DataNode之间会互相通信,复制数据块。

转载:http://www.iteye.com/blogs/subjects/zy19982004?page=2

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Hadoop学习1

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Hadoop学习1

一.Hadoop社区版和发行版社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp://hadoop.apache.org/发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系
Hadoop学习1
2015-09-17

hadoop学习摘要

参考链接:https://www.zhihu.com/question/333417513https://www.oschina.net/p/hbasehadoop环境搭建:https://blog.csdn.net/hliq5399/article/deta
hadoop学习摘要
2017-04-01

python学习1

python:    模块导入:    from 模块名 import 方法名        变量    a = 100    s = 'hello world'    d = 1.99    b = True    if 条件 :    
2023-01-31

python3学习(1)

判断编码格式import chardetchardet.detect("abc迭代".encode("gbk"))#需要加encode{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'langu
2023-01-31

Python学习 (1)

一、基本语法:import 与 from...import在 python中 用import 或者from...import 来导入相应的模块。将整个模块(somemodule)导入,格式为:import somemodule从某个模块中导
2023-01-30

python 学习总结1

计算机与程序设计一、计算机的概念  1.计算机是根据指令操作数据的设备。  2.计算机主要包括两个功能性一个是功能性另一个是计算性  功能性是对数据的操作,表现为数据计算,输入输出处理和结果存储  可编程性是根据一系列指令自动的,可预测的,
2023-01-30

python模块学习(1)

模块让你能够有逻辑地组织你的Python代码段。把相关的代码分配到一个 模块里能让你的代码更好用,更易懂。模块也是Python对象,具有随机的名字属性用来绑定或引用。简单地说,模块就是一个保存了Python代码的文件。模块能定义函数,类和变
2023-01-31

python 学习日志(1)

信号槽,这与qt的机制一样,但是整个运行的过程少有差异,在多次实验以后总结如下:在设计好窗体后,要生成窗体代码和Ui代码,这两者是分开的,一般自动生成的Ui不用动它,而是再Generating Dialog Code在这里面修改对信号槽的处
2023-01-31

python 异常学习1

python用异常对象(exception object)来表示异常情况。遇到错误后,会引发异常。如果异常对象并未被处理或捕捉,程序就会用所谓的 回溯(Traceback, 一种错误信息)终止执行:>>> 1/0Traceback (mos
2023-01-31

Python学习笔记(1)

1 def sum_args(*args):2 return sum(args))3 4 def run_with_positional_args(func, *args):5 return func(*args)6
2023-01-31

Python学习笔记(1)

Python开发框架:      a.Python基础;      b.网络编程;      c.WEB框架;      d.设计模式+算法;      e.项目阶段;开发:  开发语言:      高级语言:Python,Java,  
2023-01-30

python学习笔记(1

关于随笔python随笔只是个人笔记,可能会有遗漏或错误,仅供参考学习文档地址 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c
2023-01-30

python基础学习1

一.python第一个程序print("hello world")二.变量的命名规则  1. 字母数字下划线组成  2. 不能以数字开头,不能含有特殊字符和空格  3. 不能以保留字命名  4. 不能以中文命名  5. 定义的变量名应该有意
2023-01-30

python学习之路(1)

今天刚入门python,对于有c和java基础的我,学习起来还是比较容易的,我并没有用PyCharm写,而是最基础的IDLE,学习python比java容易的地方就是不要写分号,不要打包,不要定义等等,可能是我还学习的不够深入吧。今天的知识
2023-01-31

Python学习日记-1

*使用input和raw_input都可以读取控制台的输入,但是input和raw_input在处理数字时是有区别的。1.当输入为纯数字时,Input返回的是数值类型,如int,float。raw_inpout返回的是字符串类型,strin
2023-01-31

学习hadoop需要哪些基础

这篇文章主要介绍学习hadoop需要哪些基础,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!所谓的难不会,会不难,必然也是建立你现在的基础之上的。假定你连基础的计算机基础都没有,那可能真的就是“难不会”了。如果你是有一
2023-06-02

Hadoop与深度学习的结合

Hadoop和深度学习可以结合使用,以实现大规模数据处理和深度学习模型训练的目的。Hadoop是一个分布式存储和计算框架,用于处理大规模数据集,而深度学习是一种利用多层神经网络进行机器学习的方法。通过结合Hadoop和深度学习,可以实现以
Hadoop与深度学习的结合
2024-02-29

学习hadoop需要什么基础

这篇文章主要为大家展示了“学习hadoop需要什么基础”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“学习hadoop需要什么基础”这篇文章吧。学习hadoop需要什么基础“学习hadoop需要什
2023-06-02

编程热搜

目录