hadoop数据存储系统的主要组成部分是:1.Hadoop分布式文件系统(HDFS);2.MapReduce技术;3. YARN。其中,HDFS是一个专用文件系统,用于通过流访问模式,用普通、廉价硬件集群来存储大数据。
HDFS是一个专用文件系统,用于通过流访问模式,用普通、廉价硬件集群来存储大数据。该系统便于将数据存储在集群中的多个节点上,从而保证了数据的安全性和容错性。Hadoop 将每个数据集的三个副本存储在三个不同的位置,确保 Hadoop 不会出现单点故障。
为了处理存储在 HDFS 中的数据,一个查询会被发出,用来处理 HDFS 中的数据集。Mapping出现在 Hadoop 检测数据的存储位置,并将查询分解为多个部分,以同时处理数据。这种方法称为并行执行(Parallel Execution)。将多个部分的结果连接起来,然后将整体的结果发回给用户,这称为Reduce过程。
Yet Another Resource Negotiator被用于管理集群的资源,同时也是 Hadoop 中协调应用程序运行时的作业调度框架。通过 YARN 管理 Hadoop 的资源,Hadoop可以更好地运行大数据。
延伸阅读:
它是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
以上就是关于hadoop的内容希望对大家有帮助。
最后建议,企业在引入信息化系统初期,切记要合理有效地运用好工具,这样一来不仅可以让公司业务高效地运行,还能最大程度保证团队目标的达成。同时还能大幅缩短系统开发和部署的时间成本。特别是有特定需求功能需要定制化的企业,可以采用我们公司自研的企业级低代码平台:织信Informat。 织信平台基于数据模型优先的设计理念,提供大量标准化的组件,内置AI助手、组件设计器、自动化(图形化编程)、脚本、工作流引擎(BPMN2.0)、自定义API、表单设计器、权限、仪表盘等功能,能帮助企业构建高度复杂核心的数字化系统。如ERP、MES、CRM、PLM、SCM、WMS、项目管理、流程管理等多个应用场景,全面助力企业落地国产化/信息化/数字化转型战略目标。 版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们微信:Informat_5 处理,核实后本网站将在24小时内删除。版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系邮箱:hopper@cornerstone365.cn 处理,核实后本网站将在24小时内删除。