做有温度的教育!
全国统一咨询热线:400-803-9399
北京
校区
新闻资讯> 学习心得> spark四大特性

spark四大特性

时间:2018-11-19
浏览:4469
发布:甲骨文华育兴业
赞:395

在大数据开发中Spark 是我们常用的数据处理引擎,那么在学习大数据开发的学员们,真正理解Spark多少呢?今天我们来看看Spark大数据处理引擎的特性!大家要仔细学习哦!

  Apache Spark™ is a fast and general engine for large-scale dataprocessing.

  解释:spark专为大规模数据处理而设计的快速通用的计算引擎 (相对于MapReduce)

  特点:

  1) 快速

  Map端输出的结果要落地到磁盘,reduce端从磁盘读取,输出结果还要落地到磁盘 map再进行读取 (中间要经过shuffle过程)

  Spark函数(类似于MapReduce)运行的时候,绝大多数的函数是可以在内存里面去迭代的。只有少部分的函数需要落地到磁盘

  2) 易用性

  开发语言可以有多种,scala、Java、Python,R

  Java开发好处:对于大数据的大型项目来说,设计到Hbase,hive,flumn,ssh等需要整合 采用Java这个更成熟广泛的语言,更好。

  Java开发坏处:代码不优雅,运行效率不如scala,但是发不了jdk1.8后,有了lambda表达式,代码好看了一点。

  Scala开发好处:spark本身就是scala语言开发的,运行效率好,而且是函数式编程,代码优雅。

  Spark里面有超过80个算子(类似于map reduce)等操作,spark开发起来更灵活,更简单。

  3) 通用性  

甲骨文华育兴业

  Spark没有出现时,需要进行计算就需要安装MapReduce,批处理就需要安装hive,pig,实时分析就需要安装storm,机器学习就需要安装mahout或者mllib,实时分析就需要安装storm,需要进行查询就需要安装Hbase。

  (大数据改变了这个世界,spark改变了大数据)

  Spark出现后,计算时用sparkcore(里面有很多类似于(MapReduce)算子,有很多sql语句解决不了的问题,就使用类似于MapReduce的工具),如果想要进行sql操作,spark就有sparksql(进行批处理)来代替类似MapReduce的操作,想要实时分析,就有sparkStreaming,因为spark是大多数在内存里面进行迭代,效率高,所以有mahout 适合机器学习,还有图计算,大数据开发会涉及到sparksql(hive,pig),sparkStreaming(storm),spark core(MapReduce)

  4) 任何平台都可运行

  在Yarn,Mesos(是一个类似于yarn的资源管理器),standalone或者cloud(云端)上。

  国内:选择yarn 上运行,因为我们之前的大数据平台就是hadoop搭建的

  国外:选择Mesos,因为spark和MASOS是同一个团队编写的

  Standalone不需要Mesos也不需要yarn,spark自己管理资源, 有Master和Worker 相当于ResourceManager和Nodemanager

  Access data in HDFS, Cassandra, HBase, Hive, Tachyon, and any Hadoopdata source.

  Spark可以计算各种各样的数据源,可以计算hdfs上的 Hbase上的 hive上的数据,kafka和flumn上的数据也可以被spark读取,ES(索引),Tachyon(alluxi(http://www.alluxio.org/)中文学习官网)是分布式的内存文件系统,由内存构成,读取时效率更高。


人生从业之路的第一步,从甲骨文华育兴业开始,

背后付出的辛苦与努力只有自己知道,而这也只是职业生涯的开始。

勤恳努力的人终会得到最好的回报,有些努力需要时间来回答

你吃的苦终会铺成你想要的路!

甲骨文华育兴业,为你的IT之路开启梦想之门!


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息联系我们,我们将及时沟通与处理。本站内容除非来源注明甲骨文华育兴业,否则均为网友转载,涉及言论、版权与本站无关