导航:首页 > 使用方法 > sparkts使用方法

sparkts使用方法

发布时间:2022-06-29 22:50:29

㈠ Spark如何使用Akka实现进程,节点通信的简

ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。 Application Master:每一个应用程序都会有一个Application Master,它的主要职责是向RM申请资源、在每个NodeManager上启动executors、监控和跟踪应用程序的进程等。

这里写图片描述
执行过程:
(1)客户端提交Application到RM,这个过程做的工作有判断集群资源是否满足需求、读取配置文件、设置环境变量、设置Application名字等等;
(2)RM在某一台NodeManager上启动Application Master,AM所在的机器是YARN分配的,事先是不知道的;
(3)AM初始化SparkContext,开始驱动程序,这个NodeManager便是Driver;
(4)AM向ResourceManager申请资源,并在每台NodeManager上启动相应的executors;
(5)初始化后的SparkContext中的通信模块可以通过AKKA与NodeManager上的容器进行通信。
比以前的更多的理解:
(1)Application Master所在的NodeManager是Yarn随机分配的,不是在主节点上,下图是实验室集群上跑得一个Spark程序,tseg0是主节点,tseg1~tseg4是workers,IP10.103.240.29指的是tseg3:

这里写图片描述
(2)在上图还可以看出,executor的容器和AM容器是可以共存的,它们的封装都是容器;
(3)AM是Yarn启动的第一个容器;
(4)AM所在的NodeManager就是平常说的Driver端,因为这个AM启动了SparkContext,之前实验室说的“谁初始化的SparkContext谁就是Driver端”一直理解错了,以为这句话是相对于机器说的,但其实是相对于Cluster和Client的集群模式来说的(不知道其他模式Mesos、standalone是不是也是这样)。
(5)在Application提交到RM上之后,Client就可以关闭了,集群会继续运行提交的程序,在实际使用时,有时候会看到这样一种现象,关闭Client会导致程序终止,其实这个Application还没有提交上去,关闭Client打断了提交的过程,Application当然不会运行。

这里写图片描述
(1)Client Application会初始化SparkContext,这是Driver端;
(2)提交Application到RM;
(3)应该是在RM所在的机器上启动AM(
?不确定
);
(4)AM向RM申请资源,并启动NodeManager上的Executors;
(5)Executors与SparkContext初始化后的通信模块保持通信,因为是与Client端通信,所以Client不能关闭。
(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在RM在机器上; (2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交App之后可以关闭Client,而Yarn-Client不可以; (3)最后再来说应用场景,Yarn-Cluster适合生产环境,Yarn-Client适合交互和调试。
之前实验室配过Hadoop多用户
,最近因为培训Spark,又得在这个基础上再能够运行Spark。做的工作很简单,就是把Spark以及Spark依赖的环境scp过去,然后再改一下相应的配置就可以了。猜想的不同用户运行Spark On Yarn Cluster如下图所示,无非就是多增加了一个用户Client,因为ResourceManager是唯一的,所以不同用户CLient提交的Spark Application在集群上运行都是一样的。

㈡ 如何使用 Spark SQL

一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

注:/data/spark-1.4.0-bin-cdh4/为spark的安装路径

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项

--master MASTER_URL 指定master url
--executor-memory MEM 每个executor的内存,默认为1G
--total-executor-cores NUM 所有executor的总核数
-e <quoted-query-string> 直接执行查询SQL

-f <filename> 以文件方式批量执行SQL

二、Spark sql对hive支持的功能

1、查询语句:SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作运算:
1) 关系运算:= ==, <>, <, >, >=, <=
2) 算术运算:+, -, *, /, %
3) 逻辑运算:AND, &&, OR, ||
4) 复杂的数据结构
5) 数学函数:(sign, ln, cos, etc)
6) 字符串函数:
3、 UDF
4、 UDAF

5、 用户定义的序列化格式
6、join操作:JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作:
8、 子查询: SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、 分区表
12、 视图
13、 hive ddl功能:CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、 支持的数据类型:TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客户端编程方式进行查询数据
1、启动spark-shell
./spark-shell --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2
2、编写程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json("../examples/src/main/resources/people.json")
查看所有数据:df.show()
查看表结构:df.printSchema()
只看name列:df.select("name").show()
对数据运算:df.select(df("name"), df("age") + 1).show()
过滤数据:df.filter(df("age") > 21).show()

分组统计:df.groupBy("age").count().show()

1、查询txt数据
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("../examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
2、parquet文件
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")
3、hdfs文件

val df = sqlContext.read.load("hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet")
4、保存查询结果数据
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet“)

四、Spark sql性能调优

缓存数据表:sqlContext.cacheTable("tableName")

取消缓存表:sqlContext.uncacheTable("tableName")

spark.sql.inMemoryColumnarStorage.compressedtrue当设置为true时,Spark SQL将为基于数据统计信息的每列自动选择一个压缩算法。
spark.sql.inMemoryColumnarStorage.batchSize10000柱状缓存的批数据大小。更大的批数据可以提高内存的利用率以及压缩效率,但有OOMs的风险

㈢ spark 开源聊天软件怎么使用

登录时可使用 openfire 中创建的帐号,也可以自己注册新的帐号,服务器需设置为 openfire 的域名地址即 bzwang.tzsoft.com

其实聊天工具都有着相似点,联想一下就能掌握其用法了1

㈣ 大疆晓spark怎样切换到手机操控

Spark可使用移动设备与DJI GO 4 App控制飞行器。步骤如下:

  1. 开启智能飞行电池

  2. 开启移动设备的Wi-Fi功能,在Wi-Fi列表中选择Spark_XXX并输入链接密码

  3. 开启DJI GO 4 App,点击“开始飞行”进入相机页面,如果出现相机的预览画面,则表明飞行器御移动设备成功链接。

  4. 选择自动起飞,使用显示在DJI GO 4 App上的虚拟摇杆控制飞行器。

注意事项如下:

㈤ 大疆晓Spark如何使用移动设备直连控制飞行器

Spark使用移动设备与DJI GO 4 APP控制飞行器。可根据以下步骤设置并且使用。
(1)开启飞行器电源。
(2)在移动设备的Wi-Fi设置里连接飞行器的Wi-Fi SSID“Spark-XXXXXX”,在电池仓内或外包装盒上获取出厂时的Wi-Fi SSID和密码
(3)若使用仅支持2.4G的移动设备且Wi-Fi列表中无法找到

SparkWi-Fi,可重置飞行器Wi-Fi后进行连接。
(4)若上一次通过遥控器连接飞行器,本次使用移动设备连接前,先长按电池开关键6秒直至飞行器发出D-DD提示音,飞行器取消对频即可连接至移动设备。

㈥ 在阿里配置了spark怎么使用

1、服务器就是为了加快网站打开速度,提高网站性能的,不需要操作键面。
2、wordpress环境php+apache+mysql+linux

【具体教程】
1、使用Xshell连接阿里云ECS服务器

2、阿里云ECS(linux)挂载数据盘

3、阿里云ECS(linux)一键安装web环境

4、阿里云ECS(linux)修改myspl数据库密码

5、阿里云ECS(linux)安装wordpress程序

6、阿里云ECS(linux)安装postfix发送邮件

7、阿里云ECS(linux)拒绝ip地址直接访问网站

8、阿里云ECS(linux)apache设置静态文件缓存方法

阅读全文

与sparkts使用方法相关的资料

热点内容
如何打开鸡蛋的方法 浏览:435
路由vpn怎么设置方法 浏览:460
吊车头的拉线安装方法 浏览:74
番茄灰霉病治疗土方法 浏览:419
oppo手机耳线的包装方法 浏览:709
如何寻找正确的工作方法 浏览:733
羊布病普遍治疗方法 浏览:890
研究方法论是谁写的 浏览:526
婴儿肚子胀怎么办有哪些方法 浏览:333
苹果手机的感应在哪里设置方法 浏览:611
香碗制作方法视频 浏览:97
北京蛋白质组学分析方法 浏览:786
有哪些方法稀释油漆 浏览:189
可以替代焊锡的sma头连接方法 浏览:472
剪辑视频的方法 浏览:597
如何用化学方法鉴别环己烷和苯胺 浏览:544
浙江菜烹饪方法有哪些 浏览:387
星战模拟器怎么找到自己的家正确方法 浏览:772
2020洪灾原因和解决方法 浏览:831
长期失眠睡不着怎么办最好的方法 浏览:117