- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PySpark:如何查找列中的唯一值
获取PySparkDataFrame列中唯一值列表的最简单方法是使用unique函数。
本教程提供了几个示例,说明如何将此函数与以下PySparkDataFrame结合使用:
frompyspark.sqlimportSparkSession
spark=SparkSession.builder.getOrCreate()
#definedatadata=[[A,East,11],
[A,East,8],
[A,East,10],
[B,West,6],
[B,West,6],
[C,East,5]]
#definecolumnnamescolumns=[team,conference,points]
#createDataFrameusingdataandcolumnnamesdf=spark.createDataFrame(data,columns)
#viewDataFramedf.show()
+----+----------+------+
|team|conference|points|
+----+----------+------+
|A|East|11|
|A|East|8|
|A|East|10|
|B|West|6|
|B|West|6|
|C|East|5|
+----+----------+------+
示例1:查找列中的唯一值
我们可以使用以下语法来查找DataFrame的team列中的唯一值:
df.select(team).distinct().show()
+----+
|team|
+----+
|A|
|B|
|C|
+----+
我们可以看到team列中的唯一值是A、B和C。
示例2:查找列中的唯一值并对其进行排序
假设我们使用以下语法来查找点列中的唯一值:
df.select(points).distinct().show()
+------+
|points|
+------+
|11|
|8|
|10|
|6|
|5|
+------+
输出显示唯一值,但它们未以任何方式排序。
如果愿意,我们可以使用以下语法来查找点列中的唯一值并按升序返回它们:
#finduniquevaluesinpointscolumn
df_points=df.select(points).distinct()
#displayuniquevaluesinascendingorderdf_points.orderBy(points).show()
+------+
|points|
+------+
|5|
|6|
|8|
|10|
|11|
+------+
我们还可以使用参数ascending=False来按降序返回唯一值:
#finduniquevaluesinpointscolumn
df_points=df.select(points).distinct()
#displayuniquevaluesindescendingorderdf_points.orderBy(points,ascending=False).show()
+------+
|points|
+------+
|11|
|10|
|8|
|6|
|5|
+------+
示例3:查找并计算列中的唯一值
以下代码显示了如何查找并统计DataFrame的team列中唯一值的出现次数:
df.groupBy(team).count().show()
+----+-----+
|team|count|
+----+-----+
|A|3|
|B|2|
|C|1|
+----+-----+
从输出中我们可以看到三个唯一值(A、B、C)以及每个唯一值出现的次数。
您可能关注的文档
- 编写可重复的分析报告.docx
- 监督学习与无监督学习的快速介绍.docx
- 《GB/T 44890-2024行政许可工作规范》.pdf
- 中国国家标准 GB/T 44890-2024行政许可工作规范.pdf
- GB/T 44890-2024行政许可工作规范.pdf
- 中国国家标准 GB/T 15566.2-2024公共信息导向系统 设置原则与要求 第2部分:民用机场.pdf
- GB/T 15566.2-2024公共信息导向系统 设置原则与要求 第2部分:民用机场.pdf
- 《GB/T 15566.2-2024公共信息导向系统 设置原则与要求 第2部分:民用机场》.pdf
- 中国国家标准 GB/T 42125.18-2024测量、控制和实验室用电气设备的安全要求 第18部分:控制设备的特殊要求.pdf
- 中国国家标准 GB/T 42125.2-2024测量、控制和实验室用电气设备的安全要求 第2部分:材料加热用实验室设备的特殊要求.pdf
- GB/T 42125.2-2024测量、控制和实验室用电气设备的安全要求 第2部分:材料加热用实验室设备的特殊要求.pdf
- GB/T 42125.18-2024测量、控制和实验室用电气设备的安全要求 第18部分:控制设备的特殊要求.pdf
- GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 中国国家标准 GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 《GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减》.pdf
- GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 中国国家标准 GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 《GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法》.pdf
- GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则.pdf
- 《GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则》.pdf
最近下载
- 《固废基胶凝材料应用技术规程》.docx
- 农村小学六年级学生英语自主学习现状调查研究.doc
- 柯尼卡美能达 柯美 bh 246 236 226 216 206 复印机中文维修手册 (1).pdf
- 2024-2025学年人教版英语八年级上册期末复习专项课件-阅读.pptx VIP
- 超星学习通网课《形象管理》尔雅答案2025题目及答案.docx
- ISO17025(GBT27025)-实验室认可质量手册-(第一部分).docx VIP
- 什么是健康中国战略.pptx
- 基础设施事业部新员工提前转正考核测试.doc VIP
- 食品生产日常监督检查.ppt
- 2023年华侨大学计算机应用技术专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
文档评论(0)