当前位置:首页 > 新闻中心 > 企业动态

细数2015大数据十大关键技术

发布时间:2016-02-24 10:33:57作者:admin

2015年,大数据市场的发展迅猛,放眼国际,总体市场规模持续增加,随着人工智能、物联网、智慧城市的发展,几乎所有人将目光瞄准了“数据”产生的价值。而国内,“十三五规划“提出将实施国家大数据战略。

接下来让我们细数2015年大数据行业十大关键技术,管窥这一年行业内的发展。

  • Hadoop

Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,适合处理非结构化数据,包括Yarn和HDFS以及MapReduce。Hadoop最近的比较大的进步都是在运维稳定性和性能上的,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,例如HA(High Availablility)for YARN ResourceManager,Rolling Upgrades,ErasureCoding Support inside HDFS 等等。相对来说,用户可用的新功能较少。

  • HDFS

Hadoop分布式文件系统(HDFS)是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,提供一种跨服务器的弹性数据存储系统。HDFS 在 2015 年有几个重大特性发布,主要有异构存储介质、Truncate 操作的支持、异构数据块的支持。异构存储介质的支持,使得 HDFS 朝着异构混合存储方向发展。

  • YARN

YARN是Hadoop 2.0中的资源管理系统,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN最初是为了修复MapReduce实现里的明显不足,并对可伸缩性、可靠性和集群利用率进行了提升。2015年YARN 取得了重大进展,新增了基于标签的调度、对长服务的支持、对 Docker 的支持等多项重大功能。

  • Spark

Spark
Spark是一个新兴的大数据处理的引擎,主要特点是提供了一个集群的分布式内存抽象,以支持需要工作集的应用。简单说Spark就是内存计算(包含迭代式计算,DAG计算,流式计算)框架,之前MapReduce因效率低下大家经常嘲笑,而Spark的出现让大家很清新。Spark的生态系统发展非常迅速,成为2015年大数据领域最火的开源软件,这个得益于大量的项目参与贡献者,IBM也在2015年宣布加入Spark的阵营。而且Spark的版本更新速度也是非常之快,2016年一季度将迎来重要的2.x版本,确立以DataFrame和Dataset为核心的体系架构。同时在各方面的性能上会有很大的提升。

  • Spark SQL

Spark SQL是一个用于处理结构化数据的Spark组件,让开发者用更精简的代码处理尽量少的数据,同时让Spark SQL自动优化执行过程,以达到降低开发成本,提升数据分析执行效率的目的。作为Shark的继任者,为Spark带来了通用、高效、多元一体的结构化数据处理能力。Spark SQL已经成为除Spark Core以外最大的Spark组件。

  • Mesos

Mesos计算框架是一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、Hypertable、Spark。使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配。它与Hadoop YARN很像,但又有区别。得益于Hadoop生态系统的原因,目前YARN要比Mesos更主流,但因为对Spark和Docker两大当红技术拥有更好的支持,相信2016年Mesos将会得到更多的成功应用。

  • Realtime&Streaming

在大数据时代,数据的时效性日益突出,数据的流式特征更加明显,越来越多的应用场景需要部署在流式计算平台中。大数据流式计算作为大数据计算的一种形态,其重要性也不断提升。流处理、实时计算都是在数据的计算实时性要求比较高的场景,能够实时的响应结果,一般在秒级,storm,Spark Streaming都属于流处理和实时计算一类的。 

  • Scala

Scala是一门现代的多范式编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala允许用户使用命令和函数范式编写代码。Scala运行在Java虚拟机之上,可以直接调用Java类库。对于新手来说,Scala相对比较复杂,其看起来灵活的语法并不容易掌握,但是对于熟悉Scala的用户来说,Scala是一把利器,它提供了许多独特的语言机制,可以以库的形式轻易无缝添加新的语言结构。它非常适合用于数据处理和机器学习,Spark就是使用Scale开发的系统。也正是因为Spark的火热,Scala变成了大数据必修课。

  • Kylin

Kylin
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及联机分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。最初于2014年10月1日开源,并于同年11月加入Aapche孵化器项目,并在一年后的2015年11月顺利毕业成为Apache顶级项目,是eBay全球贡献至Apache软件基金会(ASF)的第一个项目,也是全部由在中国的华人团队整体贡献至Apache的第一个项目。OLAP即联机分析处理,它能够帮助分析人员、管理人员或执行人员从多角度快速、一致、交互地存取信息和更加深入的了解信息。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求。Kylin 2.0即将发布,随着各项改进的不断完善,该版本将在2016年在OLAP on Hadoop上更进一步!

  • Zeppelin

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能,方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。目前Zeppelin还是Apache的孵化项目,但是已经有众多的开发者参与其中,目前最新的版本已经能支持Spark 1.6.0。数据可视化在2016年会更加火热,这给Zeppelin带来了前所未有的机遇。

 

总结

2015是大数据的“黄金年”,特别是Spark“火”到不行。Hadoop在完善自己的生态圈,而Spark则开始建立自己的生态圈,不再是被动的配合Hadoop。

大数据在行业的落地在2015年也由其突出,以往一般都是互联网公司因为自身的业务需求而开发、部署大数据环境,2015年大数据遍地开花,金融、能源、医疗、公共服务等行业都有了很好的实际案例。

而且随着大数据计算能力的不断攀升,新的一些功能、需求也得以实现,深度学校、AI、数据可视化,2016年的大数据将向何方,请关注下一期《2016大数据技术展望》。

本文标签:大数据   2015   大数据技术