题目
A.弹性分布式数据集
B.是Spark中最基本的数据抽象
C.代表一个可变的集合
D.代表的集合里面的元素可并行计算
第1题
A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区,关系是一对多
B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用,是一对一的
C.宽依赖中会有shuffle的产生
D.窄依赖中会有shuffle的产生
第2题
A.宽依赖开销更大
B.RDD的容错机制是基于Spark Streaming的容错机制
C.Checkpoint可以节约大量的系统资源
D.在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依赖于其他节点
第3题
A.一个Application由若干个Job组成
B.一个Job由若干个Stage组成
C.一个Stage由若干个Task组成
D.RDD中的数据可修改
第5题
A.spark中的partion是弹性分布式数据集RDD的最小单元
B.同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的
C.RDD是由分布在各个节点上的partion组成的
D.partion是指的spark在计算过程中,生成的数据在计算空间内最小单元
第7题
A.RDD具有血统机制(Lineage)
B.RDD默认存储在磁盘
C.RDD是一个只读的,可分区的分布式数据集
D.RDD是Spark对基础数据的抽象
第9题
A.RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B.Resilient:表示弹性的,弹性表示
C.Destributed:分布式,可以并行在集群计算
D.Dataset:就是一个集合,用于存放数据的
第10题
A.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
B.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm
C.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换
D.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!