解决主要问题:海量数据存储(HDFS),分布式运算(Map Reduce)
存储单位——“Block”,每个块存3份
HDFS特点
水平扩展存储(运算)能力
数据备份
HDFS中主要角色:
Namenode(负责协调)
Datanode(负责干活)
map reduce是一种数据处理的编程模型,下面两个例子将说明它的处理过程:
一、SHELL命令举例:
ls | grep 2008 #查询文件名包含2008的文件
ls | grep 2008 | wc -l #计算上述指令查询文件个数
二、SQL举例:
select * from device t where t.name like 'CNC-Bj%'
select count(*) from device t where t.name like 'CNC-Bj%
前一个动作是map 后一个动作是reduce
Map reduce 框架包含两个程序:
Jobtracker(Job协调)
Tasktracker(干活)
不足:小文件
namenode小文件问题,大量小文件会导致其内存溢出,mapreduce job运行效率低下
分享到:
相关推荐
Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。
Hadoop 学习笔记.md
hadoop学习笔记,hadoop简介,适用于hadoop入门,讲解hadoop安装,使用,基本原理,大数据,分布式等概念
hadoop 学习笔记,从搭建环境开始到具体实验。包括hdfs配置,yarn配置,分布式配置,如何编写mapreuduce 一步一步手把手,最后项目是hadoop 与 javaweb
云计算,hadoop,学习笔记, dd
我学习hadoop的笔记,并在公司做的报告,给大家共享下
Hadoop学习笔记
Hadoop学习笔记AAAAAAAAAAA
hadoop学习笔记.rarhadoop学习笔记.rarhadoop学习笔记.rarhadoop学习笔记.rarhadoop学习笔记.rarhadoop学习笔记.rarhadoop学习笔记.rar
踏入hadoop的世界,一个不一样的世界
Hadoop 适合初学者 Hadoop2.0 hbase 什么时候用HBase: 确信有足够多数据 确信可以不依赖所有RDBMS的额外特性(列数据类型/第二索引/事物/高级查询语言) 确信有足够硬件
hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。
踏入hadoop的世界,一个不一样的世界
云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建云计算平台的搭建
这是自己学习大数据时整理的笔记,希望能够不使用资源分,免费分享!