Spark基础(一)简介

1038-茹同学

发表文章数:74

热门标签

首页 » 大数据 » 正文

Spark简介

spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。

spark 由 scala 语言开发,他能够和 scala 完美结合,同时实现了 java、python、R 等接口。

Spark搭建

spark 有 3 种搭建模式

Local 模式: 即单机模式,这种安装加压即可,具体安装方法穿插在 Standalone 模式

Standalone 模式: 即搭建 spark 集群,但不与其他框架集成,如 yarn,此时 spark 运行在集群中

基于 yarn 的 spark 集群部署: yarn 集群 + spark 集群,此时 spark 运行在 yarn 中

local 和 standalone 模式必须启动 spark,yarn 模式无需启动 spark。

Spark模块组成

Spark Core: 包含 Spark 的基本功能;尤其是定义 RDD(弹性数据分布集:Spark定义的数据结构) 的 API、操作以及这两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的。可以做数据的清洗与格式的转换,替换MR

Spark SQL: 提供结构化数据查询语言。提供通过 Apache Hive 的 SQL 变体 Hive 查询语言(HiveQL)与 Spark 进行交互的 API。每个数据库表被当做一个 RDD,Spark SQL 查询被转换为 Spark 操作。对熟悉 Hive 和 HiveQL 的人,Spark可以拿来就用。

Spark Streaming: 允许对实时数据流进行处理和控制。很多实时数据库(如Apache Store)可以处理实时数据。Spark Streaming 允许程序能够像普通 RDD 一样处理实时数据。

MLlib: 一个常用机器学习算法库,算法被实现为对 RDD 的 Spark 操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。之前可选的大数据机器学习库 Mahout,将会转到 Spark,并在未来实现。

GraphX: 控制图、并行图操作和计算的一组算法和工具的集合。GraphX 扩展了 RDD API,包含控制图、创建子图、访问路径上所有顶点的操作。

任务资源调度平台:自带的任务调度器。
Spark基础(一)简介

标签:

拜师教育学员文章:作者:1038-茹同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《Spark基础(一)简介》 发布于2020-12-02

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录