029-89565337

当前位置:首页 > 辅助栏目

什么是hadoop

2017-12-28点击数:750


Hadoop产生的历史

最早来自于google的三大论文

后来经过doug cutting的山寨,出现了java版本的 hdfs   mapreduce 和 hbase

以上三个组件整合起来成为apache的一个顶级项目  hadoop经过演化,hadoop的组件又多出一个yarn(mapreduce+ yarn + hdfs)

而且,hadoop外围产生了越来越多的工具组件,形成一个庞大的hadoop生态体系

zookeeper  hive hbase  flume….

hadoop

理解hadoop

1)hadoop是用于处理(运算剖析)海量数据的,且是选用分布式集群的方法;

2)浅显来说,能够把hadoop理解为一个编程结构(比方springmvc、spring、hibernate/mybatis),有着自己特定的API封装和用户编程规范,用户可凭借这些API来完成数据处理逻辑;

3)从另一个视点,hadoop又能够理解为一个供给效劳的软件(比方数据库效劳oracle/mysql、索引效劳solr,缓存效劳redis等),用户程序的功用都是经过客户端向hadoop集群恳求效劳来完成;

能够在windows上操作长途的mysql效劳器

我们也能够在windows上操作长途的hadoop集群

4)具体来说,hadoop两个大的功用:海量数据的存储;海量数据的剖析


hadoop中的核心组件

分布式文件体系:HDFS —— 实现将文件分布式存储在许多的服务器上(海量数据的存储服务)

分布式运算编程结构:MAPREDUCE —— 实现在许多机器上分布式并行运算(导jar包,写程序) 进行海量数据分析(替代品: spark等) 思维

分布式资源调度渠道:YARN —— 帮用户调度很多的mapreduce程序,并合理分配运算资源



上一篇:什么是大数据

下一篇:hdfs全体运行机制