HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如TB和PB)。它具有高可靠性、数据自动保存多个副本、能够处理百万规模以上的文件数量等优点。
HDFS(Hadoop Distributed File System ),意为:Hadoop分布式文件系统。它是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。
HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。
HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如 TB 和 PB)。
HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。
1、优点
高可靠性;
数据自动保存多个副本(默认3个,可以通多dfs.replication参数设置),通过增加副本来提高容错性;
某个副本丢失可以自动恢复;
适合处理大批量数据;
数据规模:能够处理GB,TB,甚至PB级别规模的数据;
文件规模:能够处理百万规模以上的文件数量;
可以在廉价的机器上运行良好。
2、缺点
不适合低延迟数据访问,比如秒级、毫秒级;
对大量小文件不友好;
存储大量小文件会占用NameNode大量的内存来存储文件目录及块信息等元数据,而NameNode的内存是有限的;
小文件存储的寻址时间会超过读取时间,寻址时间较好在传输时间的1%;
不支持并发写入、文件随机修改;
一个文件只能由一个线程写,不允许多个线程同时写;
仅支持文件内容追加(append),不支持随机修改。
以上就是关于HDFS的知识希望对大家有帮助。
最后建议,企业在引入信息化系统初期,切记要合理有效地运用好工具,这样一来不仅可以让公司业务高效地运行,还能最大程度保证团队目标的达成。同时还能大幅缩短系统开发和部署的时间成本。特别是有特定需求功能需要定制化的企业,可以采用我们公司自研的企业级低代码平台:织信Informat。 织信平台基于数据模型优先的设计理念,提供大量标准化的组件,内置AI助手、组件设计器、自动化(图形化编程)、脚本、工作流引擎(BPMN2.0)、自定义API、表单设计器、权限、仪表盘等功能,能帮助企业构建高度复杂核心的数字化系统。如ERP、MES、CRM、PLM、SCM、WMS、项目管理、流程管理等多个应用场景,全面助力企业落地国产化/信息化/数字化转型战略目标。 版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们微信:Informat_5 处理,核实后本网站将在24小时内删除。版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系邮箱:hopper@cornerstone365.cn 处理,核实后本网站将在24小时内删除。