[Spark][python]RDD的collect 作用是什么？ - 润新知

[Spark][python]RDD的collect 作用是什么？

[Spark][Python]sortByKey 例子的继续

RDD的collect() 作用是什么？

“[Spark][Python]sortByKey 例子”的继续

In [20]: mydata004.collect()

Out[20]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [22]: mydata004.count()
Out[22]: 7

In [23]: mydata005.count()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-23-c1554a7ccdd7> in <module>()
----> 1 mydata005.count()

TypeError: count() takes exactly one argument (0 given)

In [24]: type(mydata005)
Out[24]: list

In [25]: type(mydata004)
Out[25]: pyspark.rdd.PipelinedRDD

经过对比发现：mydata005 是一个 list。
也就是说 collect 会返回一个列表。

如果在交互式环境中运行 <RDD>.collect ,会显示这个RDD的所有元素的内容。
相关阅读:
P4315 月下“毛景树”
P1505 [国家集训队]旅游
 P3258 [JLOI2014]松鼠的新家
 P4116 Qtree3
P2580 于是他错误的点名开始了
 P3038 [USACO11DEC]牧草种植Grass Planting
P3128 [USACO15DEC]最大流Max Flow
P2146 [NOI2015]软件包管理器
 P2590 [ZJOI2008]树的统计
 P3384 【模板】树链剖分
原文地址：https://www.cnblogs.com/gaojian/p/7612854.html

Copyright © 2020-2023 润新知