题目
A.spark中的partion是弹性分布式数据集RDD的最小单元
B.同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的
C.RDD是由分布在各个节点上的partion组成的
D.partion是指的spark在计算过程中,生成的数据在计算空间内最小单元
第1题
A.RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B.Resilient:表示弹性的,弹性表示
C.Destributed:分布式,可以并行在集群计算
D.Dataset:就是一个集合,用于存放数据的
第5题
A.RDD弹性分布式数据集
B.DataFrame列结构化的分布式数据集
C.Dataset序列化的结构数据
D.ataFrame弹性分布式数据集
第7题
A.Spark引进了弹性分布式数据集RDD(ResilientDistributedDataset)的抽象,容错性高
B.Spark提供的数据集操作类型不仅限于Map和Reduce,大致分为:Transformations和Actions两大类
C.Spark程序由Python语言进行编写,不支持Java语言进行的程序编写
D.Spark把中间数据放到内存中,迭代运算效率高
第9题
A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力
B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能
C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
第10题
A.RDD具有血统机制(Lineage)
B.RDD默认存储在磁盘
C.RDD是一个只读的,可分区的分布式数据集
D.RDD是Spark对基础数据的抽象
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!