【科普】一篇文章让你知晓Spark-创新互联
说起大数据的工具,最广为人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已经有所介绍,这期小编就为大家介绍后起之秀Spark。
哈密网站建设公司创新互联,哈密网站设计制作,有大型网站制作公司丰富经验。已为哈密上1000+提供企业网站建设服务。企业网站搭建\外贸网站建设要多少钱,请找那个售后服务好的哈密做网站的公司定做!Spark是一个运算速度快如闪电的Apache项目,研发人员声称它是“一种用于数据大规模处理的快速通用引擎”,[A1] Spark是UC BerkeleyAMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。[A2]
它提供了一个运算速度快的一般化数据处理平台,可以让你程序的内存计算速度提高到100倍,或者磁盘计算速度(Hadoop)提高10倍。去年的Daytona GraySort比赛中,Spark只用了Hadoop十分之一数量的机器就实现了其三倍多的速度,目前,Spark已经成了处理PB级别数据运算速度最快的开源工具。[A3]
Spark核心概念是ResilientDistributed Dataset (RDD)弹性分布数据集,RDD实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的,可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。[A4]
以RDD为核心的Spark构架图如下
Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark拥有非常出色的容错和调度机制,确保系统的稳定运行[A5] ,而在易用性方面,更是大有名气,它随带易于使用的API,支持Scala(原生语言)、Java、Python和Spark SQL。SparkSQL非常类似于SQL 92,所以几乎不需要经历一番学习,马上可以上手。[A6]
Spark帮助人们简化了处理大规模数据的步骤流程,将许多复杂的功能(比如机器学习算法和图算法)无缝地结合起来,并以其快如闪电的计算速度,正在快速地扩大着自己的影响力,我们有理由相信,凭借Spark独特的优异性能,未来Spark必将会绽放出更为璀璨的光芒。
[A1]来源:别再比较Hadoop和Spark了,那不是设计人员的初衷
[A2]来源科普Spark,Spark是什么,如何使用Spark;百度百科
[A3]来源:Apache Spark介绍及案例展示
[A4]来源:科普Spark,Spark核心是什么,如何使用Spark(2)http://www.aboutyun.com/thread-6850-1-1.html
[A5]来源:跟我一起数据挖掘(22)——spark入门
[A6]来源:别再比较Hadoop和Spark了,那不是设计人员的初衷
最终来源:启创方舟微信公众号
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
文章名称:【科普】一篇文章让你知晓Spark-创新互联
当前路径:http://ybzwz.com/article/dsidsh.html