网站大量收购闲置独家精品文档,联系QQ:2885784924

PySpark:如何查找列中的唯一值.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PySpark:如何查找列中的唯一值

获取PySparkDataFrame列中唯一值列表的最简单方法是使用unique函数。

本教程提供了几个示例,说明如何将此函数与以下PySparkDataFrame结合使用:

frompyspark.sqlimportSparkSession

spark=SparkSession.builder.getOrCreate()

#definedatadata=[[A,East,11],

[A,East,8],

[A,East,10],

[B,West,6],

[B,West,6],

[C,East,5]]

#definecolumnnamescolumns=[team,conference,points]

#createDataFrameusingdataandcolumnnamesdf=spark.createDataFrame(data,columns)

#viewDataFramedf.show()

+----+----------+------+

|team|conference|points|

+----+----------+------+

|A|East|11|

|A|East|8|

|A|East|10|

|B|West|6|

|B|West|6|

|C|East|5|

+----+----------+------+

示例1:查找列中的唯一值

我们可以使用以下语法来查找DataFrame的team列中的唯一值:

df.select(team).distinct().show()

+----+

|team|

+----+

|A|

|B|

|C|

+----+

我们可以看到team列中的唯一值是A、B和C。

示例2:查找列中的唯一值并对其进行排序

假设我们使用以下语法来查找点列中的唯一值:

df.select(points).distinct().show()

+------+

|points|

+------+

|11|

|8|

|10|

|6|

|5|

+------+

输出显示唯一值,但它们未以任何方式排序。

如果愿意,我们可以使用以下语法来查找点列中的唯一值并按升序返回它们:

#finduniquevaluesinpointscolumn

df_points=df.select(points).distinct()

#displayuniquevaluesinascendingorderdf_points.orderBy(points).show()

+------+

|points|

+------+

|5|

|6|

|8|

|10|

|11|

+------+

我们还可以使用参数ascending=False来按降序返回唯一值:

#finduniquevaluesinpointscolumn

df_points=df.select(points).distinct()

#displayuniquevaluesindescendingorderdf_points.orderBy(points,ascending=False).show()

+------+

|points|

+------+

|11|

|10|

|8|

|6|

|5|

+------+

示例3:查找并计算列中的唯一值

以下代码显示了如何查找并统计DataFrame的team列中唯一值的出现次数:

df.groupBy(team).count().show()

+----+-----+

|team|count|

+----+-----+

|A|3|

|B|2|

|C|1|

+----+-----+

从输出中我们可以看到三个唯一值(A、B、C)以及每个唯一值出现的次数。

您可能关注的文档

文档评论(0)

晶方科技 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档