• 全国 [切换]
  • 亿企商贸

    扫一扫关注

    一篇文看懂Hadoop:风雨十年,未来何去何从

       2016-06-25 2110
    导读

    我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天

     我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。

    本文分为技术篇、产业篇、应用篇、展望篇四部分

    技术篇

    一篇文看懂Hadoop:风雨十年,未来何去何从

    2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态系统组成。

    现在Hadoop在一月发布了2.7.2的稳定版, 已经从 传统的Hadoop三驾马车HDFS,MapReduce和Hbase社区发展为60多个相关组件组成的庞大生态 ,其中包含在各大发行版中的组件就有25个以上,包括数据存储、执行引擎、编程和数据访问框架等。

    Hadoop在2.0将资源管理从MapReduce中独立出来变成通用框架后,就从1.0的三层结构演变为了现在的四层架构:

    底层——存储层,文件系统HDFS

    中间层——资源及数据管理层,YARN以及Sentry等

    上层——MapReduce、Impala、Spark等计算引擎

    顶层——基于MapReduce、Spark等计算引擎的高级封装及工具,如Hive、Pig、Mahout等等

    一篇文看懂Hadoop:风雨十年,未来何去何从

    存储层

    HDFS已经成为了大数据磁盘存储的事实标准,用于海量日志类大文件的在线存储。经过这些年的发展,HDFS的架构和功能基本固化,像HA、异构存储、本地数据短路访问等重要特性已经实现,在路线图中除了Erasure Code已经没什么让人兴奋的feature。

    随着HDFS越来越稳定,社区的活跃度也越来越低,同时HDFS的使用场景也变得成熟和固定,而上层会有越来越多的文件格式封装:列式存储的文件格式,如Parquent,很好的解决了现有BI类数据分析场景;以后还会出现新的存储格式来适应更多的应用场景,如数组存储来服务机器学习类应用等。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。

    2015年Hbase 发布了1.0版本,这也代表着 Hbase 走向了稳定。最新Hbase新增特性包括:更加清晰的接口定义,多Region 副本以支持高可用读,Family粒度的Flush以及RPC读写队列分离等。未来Hbase不会再添加大的新功能,而将会更多的在稳定性和性能方面进化,尤其是大内存支持、内存GC效率等。

    Kudu是Cloudera在2015年10月才对外公布的新的分布式存储架构,与HDFS完全独立。其实现参考了2012年Google发表的Spanner论文。鉴于Spanner在Google 内部的巨大成功,Kudu被誉为下一代分析平台的重要组成,用于处理快速数据的查询和分析,填补HDFS和Hbase之间的空白。其出现将进一步把Hadoop市场向传统数据仓库市场靠拢。

    Apache Arrow项目为列式内存存储的处理和交互提供了规范。目前来自Apache Hadoop社区的开发者们致力于将它制定为大数据系统项目的事实性标准。

    一篇文看懂Hadoop:风雨十年,未来何去何从

    Arrow项目受到了Cloudera、Databricks等多个大数据巨头公司支持,很多committer同时也是其他明星大数据项目(如Hbase、Spark、Kudu等)的核心开发人员。再考虑到Tachyon等似乎还没有找到太多实际接地气的应用场景,Arrow的高调出场可能会成为未来新的内存分析文件接口标准。

     
    (文/小编)
     
    反对 0 举报 0 收藏 0 打赏 0 评论 0
    0相关评论
    免责声明
    • 
    本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:https://news.eeeqi.net/show-19449.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
     

    2B SYSTEM All Rights Reserved 本平台由浙江到门口科技有限公司运营与监管

    浙ICP备17023505号-1公网安备浙公网安备33100402331026号号