什么是hadoop?

admin

2023-05-12 10 0条评论

　　所谓Hadoop其实就是Apache开发的分布式系统基础架构，主要解决海量数据存储与计算的问题，是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理，主要特点如下：

　　1、海量数据存储

　　HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据，适合那些有着超大数据集(large data set)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode 管理一部分数据，然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。

　　2、资源管理，调度和分配

　　Apache Hadoop YARN(Yet Another Resource Negotiator，另一种资源协调者)是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

　　3、并行数据处理

　　MapReduce算法要求你可以并行化你的数据处理。MapReduce在变量逐个处理的情况下工作得很好(例如，计数或聚合);但是，当您需要共同处理变量(例如，变量之间有许多相关性)时，此模型不起作用。

　　任何基于图形的数据处理(意味着依赖于其他数据的复杂数据网络)都不适合Hadoop的标准方法。话虽如此，相关的Apache Tez框架确实允许使用基于图形的方法来处理数据，而不是更线性的MapReduce工作流程。

　　以上就是什么是hadoop?的内容。

打赏

海报

文章版权及转载声明

本文作者：admin 网址：http://news.edns.com/post/8423.html 发布于 2023-05-12
文章转载或复制请以超链接形式并注明出处。

相关文章