Hadoop学习01-hdfs概念

hadoop解决什么问题
1.海量数据如何存储(hdfs)
2.海量数据如何计算(mapreduce)

1.HDFS

两个核心 namenode与datanode
namenode:管理datanode,类似仓库管理员,管理元数据信息,有单点故障问题
datanode:存储数据的节点,数据存放具有备份。
1.保存具体的block数据,
2.负责数据的读写操作和复制操作
3.DataNode启动会想NameNode报告当前存储的block信息,
4.DataNode之间会进行通信(RPC),保证数据的冗余性
SecondaryNameNode不是热备,它的职责是合并NameNode 的edit log,到 fsiamge这个文件中。
tip:hdfs不适合存储海量小文件
原因:20kB放在128M的block里,他只占用了20Kb,但是需要一个装128M的袋子装,这个袋子不能再装其他东西了。
假设我有1000w * 1Kb,则namenode需要这么多元数据信息,导致NameNode 瘫痪。

hdfs是磁盘,也就是涉及两个问题:写与读。
Hadoop学习01-hdfs概念_第1张图片

你可能感兴趣的