PySpark3:pyspark.sql.functions常见的60个函数
目录
一、常见的60个函数
1、col
2、lit
3、sum
4、avg/mean
5、count
6、max
7、min
8、concat
9、substring
10、lower
11、upper
12、trim
13、ltrim
14、rtrim
15、split
16、explode
17、collect_list
18、collect_set
19、asc
20、desc
21、when
22、to_date
23、current_date
24、datediff
25、date_add
26、date_sub
27、year
28、month
29、day
30、cast
31、round
32、ceil
34、coalesce
35、isnull
36、isnotnull
37、like
38、rlike
39、size
40、array_contains
41、element_at
42、array_join
43、struct
44、expr
45、create_map
46、map_keys
47、map_values
48、translate
49、regexp_replace
50、flatten
51、sort_array
52、to_json
53、from_json
54、udf
55、pandas_udf
56、row_number
57、rank
58、dense_rank
59、stddev
60、var_samp
二、总结
一、常见的60个函数
首先创建一个用于测试的DataFrame:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F# 初始化 SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()# 创建一个 DataFrame
data = [("James", "Smith", "USA", "CA", "1999/04/15", 60.86, "football|swimming|playing the guitar", None),("Michael", "Rose", "USA", "NY", "1995/03/01", 80.0, "reading books|gardening|collecting stamps", "phone number:123456"),("Robert", "Williams", None, None, "1997/10/31", 91.0, "photography", " outgoing "),("Maria", "Jones", "USA", "FL", "1991/01/25", 59.5, None, " a diligent student. ")]
columns = ["firstname", "lastname", "country", "state", "birthday", "score", "hobbies", "remarks"]
df = spark.createDataFrame(data, schema=columns)df.show()'''
+---------+--------+-------+-----+----------+-----+--------------------+--------------------+
|firstname|lastname|country|state| birthday|score| hobbies| remarks|
+---------+--------+-------+-----+----------+-----+--------------------+--------------------+
| James| Smith| USA| CA|1999/04/15|60.86|football|swimming...| NULL|
| Michael| Rose| USA| NY|1995/03/01| 80.0|reading books|gar...| phone number:123456|
| Robert|Williams| NULL| NULL|1997/10/31| 91.0| photography| outgoing |
| Maria| Jones| USA| FL|1991/01/25| 59.5| NULL| a diligent stude...|
+---------+--------+-------+-----+----------+-----+--------------------+--------------------+
'''
1、col
用于通过列名获取列对象,在选择列、进行列相关操作时经常使用。
df.select(F.col("firstname"), F.col("lastname")).show()'''
+---------+--------+
|firstname|lastname|
+---------+--------+
| James| Smith|
| Michael| Rose|
| Robert|Williams|
| Maria| Jones|
+---------+--------+
'''
有的时候PySpark在内部会将字符串自动转换为Column对象,例如select方法可以接受字符串列表,并且PySpark会将这些字符串解释为DataFrame中的列名,所以可以省略col:
df.select("firstname", "lastname")
但在执行更复杂的操作,如对列进行函数调用或组合列,那么必须使用col:
df.select(F.col("score")+0.5)
2、lit
lit函数用于创建一个包含常量值的Column对象,可以向DataFrame添加常量值或作为条件表达式的一部分。
df.select(F.col("firstname"), F.lit("Member").alias("type"), F.lit(0).alias("number")).show()'''
+---------+------+------+
|firstname| type|number|
+---------+------+------+
| James|Member| 0|
| Michael|Member| 0|
| Robert|Member| 0|
| Maria|Member| 0|
+---------+------+------+
'''
3、sum
对指定列进行求和操作,常用于数据分析中计算数值列的总和。
df.select(F.sum("score").alias("score_sum")).show()'''
+---------+
|score_sum|
+---------+
| 291.36|
+---------+
'''
4、avg/mean
计算指定列的平均值。
df.select(F.avg("score").alias("score_avg"),
F.mean("score").alias("score_mean")).show()
'''
+---------+----------+
|score_avg|score_mean|
+---------+----------+
| 72.84| 72.84|
+---------+----------+
'''
5、count
统计行数。
df.select(F.count("*")).show()
'''
+--------+
|count(1)|
+--------+
| 4|
+--------+
'''
6、max
获取指定列中的最大值。
df.select(F.max("score").alias("score_max")).show()
'''
+---------+
|score_max|
+---------+
| 91.0|
+---------+
'''
7、min
获取指定列中的最小值。
df.select(F.min("score").alias("score_min")).show()
'''
+---------+
|score_min|
+---------+
| 59.5|
+---------+
'''
8、concat
用于将多个字符串列或者字符串字面量拼接成一个新的字符串。
df.select((F.concat(F.col("firstname"), F.lit("·"), F.col("lastname"))).alias("fullname")).show()'''
+---------------+
| fullname|
+---------------+
| James·Smith|
| Michael·Rose|
|Robert·Williams|
| Maria·Jones|
+---------------+
'''
9、substring
从字符串列中截取指定位置和长度的子字符串。
df.select(F.substring("birthday", 1, 4).alias("birthyear")).show()'''
+---------+
|birthyear|
+---------+
| 1999|
| 1995|
| 1997|
| 1991|
+---------+
'''
10、lower
将字符串列中的所有字符转换为小写,常用于文本标准化等场景。
df.select(F.lower("country")).show()'''
+--------------+
|lower(country)|
+--------------+
| usa|
| usa|
| NULL|
| usa|
+--------------+
'''
11、upper
和lower函数相反,upper将字符串列中的所有字符转换为大写。
df.select(F.upper("firstname")).show()'''
+----------------+
|upper(firstname)|
+----------------+
| JAMES|
| MICHAEL|
| ROBERT|
| MARIA|
+----------------+
'''
12、trim
去除字符串列两端的空白字符(空格、制表符等),清理输入文本时常用。
df.select(F.trim("remarks")).show()'''
+-------------------+
| trim(remarks)|
+-------------------+
| NULL|
|phone number:123456|
| outgoing|
|a diligent student.|
+-------------------+
'''
13、ltrim
只去除字符串列左边的空白字符。
df.select(F.ltrim("remarks")).show()'''
+--------------------+
| ltrim(remarks)|
+--------------------+
| NULL|
| phone number:123456|
| outgoing |
|a diligent studen...|
+--------------------+
'''
14、rtrim
只去除字符串列左边的空白字符。
df.select(F.rtrim("remarks")).show()'''
+--------------------+
| rtrim(remarks)|
+--------------------+
| NULL|
| phone number:123456|
| outgoing|
| a diligent student.|
+--------------------+
'''
15、split
按照指定分隔符将字符串列分割成数组。
df = df.withColumn("hobby_list",F.split("hobbies", "\|"))
df.select("hobby_list").show()'''
+--------------------+
| hobby_list|
+--------------------+
|[football, swimmi...|
|[reading books, g...|
| [photography]|
| NULL|
+--------------------+
'''
16、explode
将包含数组的列展开,每行对应数组中的一个元素,常用于处理一对多的数据关系。
df.select("firstname", F.explode("hobby_list")).show()'''
+---------+------------------+
|firstname| col|
+---------+------------------+
| James| football|
| James| swimming|
| James|playing the guitar|
| Michael| reading books|
| Michael| gardening|
| Michael| collecting stamps|
| Robert| photography|
+---------+------------------+
'''
17、collect_list
将指定列的值收集成一个列表(数组),常用于分组后把某列的值聚合起来。
df.groupBy("country").agg(F.collect_list("firstname")).show()'''
+-------+-----------------------+
|country|collect_list(firstname)|
+-------+-----------------------+
| USA| [James, Michael, ...|
| NULL| [Robert]|
+-------+-----------------------+
'''
18、collect_set
类似collect_list,不过它会去除重复元素,将指定列的值收集成一个去重后的集合(数组)。
df.groupBy("country").agg(F.collect_set("firstname")).show()'''
+-------+----------------------+
|country|collect_set(firstname)|
+-------+----------------------+
| USA| [Maria, Michael, ...|
| NULL| [Robert]|
+-------+----------------------+
'''
19、asc
指定升序排序,但其实升序是默认的,也可以不指定。
df.select("firstname","score").orderBy(F.asc("score")).show()'''
+---------+-----+
|firstname|score|
+---------+-----+
| Maria| 59.5|
| James|60.86|
| Michael| 80.0|
| Robert| 91.0|
+---------+-----+
'''
20、desc
指定降序排序。
df.select("firstname","score").orderBy(F.desc("score")).show()'''
+---------+-----+
|firstname|score|
+---------+-----+
| Robert| 91.0|
| Michael| 80.0|
| James|60.86|
| Maria| 59.5|
+---------+-----+
'''
21、when
用于实现类似条件判断的操作,构建条件表达式来生成新列或者更新列值。
类似于SQL中的“case when … then … when … then … else … end”结构。
df.select("score", F.when(F.col("score") >= 90, "Grade A")\
.when(F.col("score") >= 80, "Grade B")\
.when(F.col("score") >= 70, "Grade C")\
.when(F.col("score") >= 60, "Grade D")\
.otherwise("Grade E").alias("grade")).show()'''
+-----+-------+
|score| grade|
+-----+-------+
|60.86|Grade D|
| 80.0|Grade B|
| 91.0|Grade A|
| 59.5|Grade E|
+-----+-------+
'''
22、to_date
将字符串类型的日期数据转换为日期格式,方便后续日期相关运算
df = df.withColumn("birthday", F.to_date("birthday", "yyyy/MM/dd"))
df.select("birthday").show()'''
+----------+
| birthday|
+----------+
|1999-04-15|
|1995-03-01|
|1997-10-31|
|1991-01-25|
+----------+
'''
23、current_date
获取当前的日期。
df.select(F.current_date()).show()'''
+--------------+
|current_date()|
+--------------+
| 2024-11-20|
| 2024-11-20|
| 2024-11-20|
| 2024-11-20|
+--------------+
'''
24、datediff
计算两个日期列之间的天数差值。
df.select(F.datediff(F.current_date(), "birthday")).show()'''
+----------------------------------+
|datediff(current_date(), birthday)|
+----------------------------------+
| 9351|
| 10857|
| 9882|
| 12353|
+----------------------------------+
'''
25、date_add
在指定日期列基础上增加一定天数。
df.select("birthday", F.date_add("birthday", 1)).show()'''
+----------+---------------------+
| birthday|date_add(birthday, 1)|
+----------+---------------------+
|1999-04-15| 1999-04-16|
|1995-03-01| 1995-03-02|
|1997-10-31| 1997-11-01|
|1991-01-25| 1991-01-26|
+----------+---------------------+
'''
26、date_sub
和date_add相反,date_sub是在指定日期列基础上减去一定天数。
df.select("birthday", F.date_sub("birthday", 1)).show()'''
+----------+---------------------+
| birthday|date_sub(birthday, 1)|
+----------+---------------------+
|1999-04-15| 1999-04-14|
|1995-03-01| 1995-02-28|
|1997-10-31| 1997-10-30|
|1991-01-25| 1991-01-24|
+----------+---------------------+
'''
27、year
从日期列中提取年份部分。
df.select(F.year("birthday")).show()'''
+--------------+
|year(birthday)|
+--------------+
| 1999|
| 1995|
| 1997|
| 1991|
+--------------+
'''
28、month
提取日期列中的月份部分。
df.select(F.month("birthday")).show()'''
+---------------+
|month(birthday)|
+---------------+
| 4|
| 3|
| 10|
| 1|
+---------------+
'''
29、day
提取日期列中的日部分。
df.select(F.day("birthday")).show()'''
+-------------+
|day(birthday)|
+-------------+
| 15|
| 1|
| 31|
| 25|
+-------------+
'''
30、cast
用于数据类型转换,比如把时间类型转成字符串类型。
df.select(F.cast('string',F.col("birthday")).alias("birthday_str")).show()'''
+------------+
|birthday_str|
+------------+
| 1999-04-15|
| 1995-03-01|
| 1997-10-31|
| 1991-01-25|
+------------+
'''
或者,也可使用Column对象的绑定方法:
df.select(F.col("birthday").cast("string").alias("birthday_str")).show()
31、round
对数值列进行四舍五入操作,指定保留的小数位数。
df.select(F.round("score", 1), F.round("score", -1)).show()'''
+---------------+----------------+
|round(score, 1)|round(score, -1)|
+---------------+----------------+
| 60.9| 60.0|
| 80.0| 80.0|
| 91.0| 90.0|
| 59.5| 60.0|
+---------------+----------------+
'''
32、ceil
向上取整,对数值列取大于等于它的最小整数。
df.select(F.ceil("score")).show()'''
+-----------+
|CEIL(score)|
+-----------+
| 61|
| 80|
| 91|
| 60|
+-----------+
'''
33、floor
向下取整,对数值列取小于等于它的最小整数。
df.select(F.floor("score")).show()'''
+------------+
|FLOOR(score)|
+------------+
| 60|
| 80|
| 91|
| 59|
+------------+
'''
34、coalesce
从多个列中选择第一个非空值的列作为结果列,常用于处理可能存在空值替换的情况。
df.select(F.coalesce("hobbies", "remarks")).show()'''
+--------------------------+
|coalesce(hobbies, remarks)|
+--------------------------+
| football|swimming...|
| reading books|gar...|
| photography|
| a diligent stude...|
+--------------------------+
'''
也可以使用nvl(只能传入两列)、nvl2(只能传入三列),相比之下,还是coalesce函数(不限制列数)更好用一些。
35、isnull
判断列中的值是否为 null,常配合条件判断使用,比如筛选出某列值为 null 的行。
df.filter(F.isnull("hobbies")).show()'''
+---------+--------+-------+-----+----------+-----+-------+--------------------+
|firstname|lastname|country|state| birthday|score|hobbies| remarks|
+---------+--------+-------+-----+----------+-----+-------+--------------------+
| Maria| Jones| USA| FL|1991/01/25| 59.5| NULL| a diligent stude...|
+---------+--------+-------+-----+----------+-----+-------+--------------------+
'''
36、isnotnull
df.filter(F.isnotnull("hobbies")).show()'''
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
|firstname|lastname|country|state| birthday|score| hobbies| remarks|
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
| James| Smith| USA| CA|1999/04/15|60.86|football|swimming...| NULL|
| Michael| Rose| USA| NY|1995/03/01| 80.0|reading books|gar...|phone number:123456|
| Robert|Williams| NULL| NULL|1997/10/31| 91.0| photography| outgoing |
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
'''
37、like
用于字符串的模糊匹配,类似 SQL 中的 LIKE 操作符。
df.select(F.col("firstname").like("J%"))
'''
+-----------------+
|firstname LIKE J%|
+-----------------+
| true|
| false|
| false|
| false|
+-----------------+
'''df.filter(F.col("firstname").like("J%")).show()
'''
+---------+--------+-------+-----+----------+-----+--------------------+-------+
|firstname|lastname|country|state| birthday|score| hobbies|remarks|
+---------+--------+-------+-----+----------+-----+--------------------+-------+
| James| Smith| USA| CA|1999/04/15|60.86|football|swimming...| NULL|
+---------+--------+-------+-----+----------+-----+--------------------+-------+
'''
38、rlike
使用正则表达式进行字符串匹配,更灵活地进行文本匹配筛选。
df.filter(F.col("remarks").rlike(".*[0-9].*")).show()
'''
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
|firstname|lastname|country|state| birthday|score| hobbies| remarks|
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
| Michael| Rose| USA| NY|1995/03/01| 80.0|reading books|gar...|phone number:123456|
+---------+--------+-------+-----+----------+-----+--------------------+-------------------+
'''
39、size
用于获取数组列中元素的个数,若为Null值则返回-1。
df.select("hobby_list",F.size("hobby_list")).show()'''
+--------------------+----------------+
| hobby_list|size(hobby_list)|
+--------------------+----------------+
|[football, swimmi...| 3|
|[reading books, g...| 3|
| [photography]| 1|
| NULL| -1|
+--------------------+----------------+
'''
40、array_contains
判断数组列中是否包含指定元素。
df.filter(F.array_contains("hobby_list", "football")).show()'''
+---------+--------+-------+-----+----------+-----+--------------------+-------+--------------------+
|firstname|lastname|country|state| birthday|score| hobbies|remarks| hobby_list|
+---------+--------+-------+-----+----------+-----+--------------------+-------+--------------------+
| James| Smith| USA| CA|1999-04-15|60.86|football|swimming...| NULL|[football, swimmi...|
+---------+--------+-------+-----+----------+-----+--------------------+-------+--------------------+
'''
41、element_at
从数组列中获取指定位置的元素,比如获取列表中的第2个因元素。若没有第二个元素,则返回Null值。
df.select(F.element_at("hobby_list", 2)).show()'''
+-------------------------+
|element_at(hobby_list, 2)|
+-------------------------+
| swimming|
| gardening|
| NULL|
| NULL|
+-------------------------+
'''
42、array_join
将数组列中的元素用指定分隔符拼接成字符串,用法与split函数相反。
df.select(F.array_join("hobby_list", "|")).show()'''
+-------------------------+
|array_join(hobby_list, |)|
+-------------------------+
| football|swimming...|
| reading books|gar...|
| photography|
| NULL|
+-------------------------+
'''
43、struct
用于创建包含多个字段的结构体列,常用于嵌套数据结构的构建,例如把姓名和出生年月组合成一个结构体列。
df = df.withColumn("person_info", F.struct(F.col("firstname"), F.col("lastname"), F.col("birthday")))
df.select("person_info").show()'''
+--------------------+
| person_info|
+--------------------+
|{James, Smith, 19...|
|{Michael, Rose, 1...|
|{Robert, Williams...|
|{Maria, Jones, 19...|
+--------------------+
'''
44、expr
允许用户以字符串的形式编写 SQL 表达式,并将其应用到 DataFrame 上。
df.select(F.expr("person_info.firstname")).show()'''
+---------+
|firstname|
+---------+
| James|
| Michael|
| Robert|
| Maria|
+---------+
'''
或者,也可使用以下代码,作用相同:
df.selectExpr("person_info.firstname").show()
45、create_map
创建一个键值对形式的映射(字典)列。
df = df.withColumn("person_map", F.create_map(F.col("firstname"), F.col("birthday")))
df.select("person_map").show()'''
+--------------------+
| person_map|
+--------------------+
|{James -> 1999-04...|
|{Michael -> 1995-...|
|{Robert -> 1997-1...|
|{Maria -> 1991-01...|
+--------------------+
'''
46、map_keys
获取映射列中所有的键组成的数组。
df.select(F.map_keys("person_map")).show()'''
+--------------------+
|map_keys(person_map)|
+--------------------+
| [James]|
| [Michael]|
| [Robert]|
| [Maria]|
+--------------------+
'''
47、map_values
获取映射列中所有的键组成的数组。
df.select(F.map_values("person_map")).show()'''
+----------------------+
|map_values(person_map)|
+----------------------+
| [1999-04-15]|
| [1995-03-01]|
| [1997-10-31]|
| [1991-01-25]|
+----------------------+
'''
48、translate
根据给定的字符映射关系来替换字符串中的字符。
df.select(F.translate("remarks", "123456", "#")).show()'''
+-----------------------------+
|translate(remarks, 123456, #)|
+-----------------------------+
| NULL|
| phone number:#|
| outgoing |
| a diligent stude...|
+-----------------------------+
'''
49、regexp_replace
按照指定的正则表达式模式来替换字符串中的内容,例如把一个文本列中所有的数字替换为#符号。
df.select(F.regexp_replace("remarks", "\\d", "#")).show()'''
+---------------------------------+
|regexp_replace(remarks, \d, #, 1)|
+---------------------------------+
| NULL|
| phone number:######|
| outgoing |
| a diligent stude...|
+---------------------------------+
'''
50、flatten
将一个数组(Array)类型的列转换为一个包含所有元素的扁平化列表,常用于处理嵌套结构的数据。
df = df.withColumn("array", F.lit([[1,2], [3,4]]))
df.select(F.flatten("array")).show()'''
+--------------+
|flatten(array)|
+--------------+
| [1, 2, 3, 4]|
| [1, 2, 3, 4]|
| [1, 2, 3, 4]|
| [1, 2, 3, 4]|
+--------------+
'''
51、sort_array
对数组类型的列按照元素的值进行排序,可以指定升序或者降序等排序规则。
df.select(F.sort_array(F.flatten("array"), asc=False)).show()'''
+---------------------------------+
|sort_array(flatten(array), false)|
+---------------------------------+
| [4, 3, 2, 1]|
| [4, 3, 2, 1]|
| [4, 3, 2, 1]|
| [4, 3, 2, 1]|
+---------------------------------+
'''
52、to_json
将结构化的数据(如StructType结构的数据)转换为JSON格式的字符串,方便存储或者传输等操作。
df = df.withColumn("json_string", F.to_json("person_info"))
df.select("json_string").show()'''
+--------------------+
| json_string|
+--------------------+
|{"firstname":"Jam...|
|{"firstname":"Mic...|
|{"firstname":"Rob...|
|{"firstname":"Mar...|
+--------------------+
'''
53、from_json
将包含JSON格式字符串的列解析转换为相应的结构化数据类型(比如StructType等),便于后续进一步处理其中的字段数据。
from pyspark.sql.types import StructType, StructField, StringType, DateType
json_schema = StructType([StructField("firstname", StringType(), True),StructField("lastname", StringType(), True),StructField("birthday", DateType(), True)
])
df.select(F.from_json("json_string", json_schema)).show()'''
+----------------------+
|from_json(json_string)|
+----------------------+
| {James, Smith, 19...|
| {Michael, Rose, 1...|
| {Robert, Williams...|
| {Maria, Jones, 19...|
+----------------------+
'''
54、udf
用于创建一个自定义函数,将其应用到DataFrame的每一行上。
def get_grade(score):if score >= 90:return "Grade A"elif score >= 80:return "Grade B"elif score >= 70:return "Grade C"elif score >= 60:return "Grade D"else:return "Grade E"get_grade_udf = F.udf(get_grade, StringType())
df.select("score", get_grade_udf("score")).show()'''
+-----+----------------+
|score|get_grade(score)|
+-----+----------------+
|60.86| Grade D|
| 80.0| Grade B|
| 91.0| Grade A|
| 59.5| Grade E|
+-----+----------------+
'''
55、pandas_udf
pandas_udf是PySpark中提供的一种机制,允许使用pandas库的高效数据处理能力来定义用户自定义函数,相较于普通的udf,pandas_udf利用了pandas在向量化计算等方面的优势,在处理大数据量时往往能有更好的性能表现。
@F.pandas_udf(StringType())
def get_grade_pandas_udf(score_series: pd.Series) -> pd.Series:result_series = score_series.apply(get_grade)return result_seriesdf.select("score", get_grade_pandas_udf(F.col("score"))).show()'''
+-----+---------------------------+
|score|get_grade_pandas_udf(score)|
+-----+---------------------------+
|60.86| Grade D|
| 80.0| Grade B|
| 91.0| Grade A|
| 59.5| Grade E|
+-----+---------------------------+
'''
56、row_number
用于分配一个唯一的序号给 DataFrame 中的每一行,通常在窗口函数的上下文中使用。
from pyspark.sql import Window
windowSpec = Window.partitionBy("country").orderBy(F.desc("score"))df = df.union(df.limit(1))
df.select("country", "score", F.row_number().over(windowSpec).alias("rn")).sort("country","rn").show()'''
+-------+-----+---+
|country|score| rn|
+-------+-----+---+
| NULL| 91.0| 1|
| USA| 80.0| 1|
| USA|60.86| 2|
| USA|60.86| 3|
| USA| 59.5| 4|
+-------+-----+---+
'''
57、rank
与row_number()类似,也是用于排名,但在遇到相同值时会分配相同的排名,并且下一个排名会出现 “空位”,即排名间断。
df.select("country", "score", F.rank().over(windowSpec).alias("rank")).sort("country","rank").show()'''
+-------+-----+----+
|country|score|rank|
+-------+-----+----+
| NULL| 91.0| 1|
| USA| 80.0| 1|
| USA|60.86| 2|
| USA|60.86| 2|
| USA| 59.5| 4|
+-------+-----+----+
'''
58、dense_rank
同样用于排名,在遇到相同值时分配相同排名,不过下一个排名是连续的,不会出现 “空位”。
df.select("country", "score", F.dense_rank().over(windowSpec).alias("dense_rank")).sort("country","dense_rank").show()'''
+-------+-----+----------+
|country|score|dense_rank|
+-------+-----+----------+
| NULL| 91.0| 1|
| USA| 80.0| 1|
| USA|60.86| 2|
| USA|60.86| 2|
| USA| 59.5| 3|
+-------+-----+----------+'''
59、stddev
计算指定列数值的总体标准差,可用于分析数据的离散程度。
df.select(F.stddev("score")).collect()[0][0]
'''
14.29461017306873
'''
60、var_samp
用于计算指定列数据的样本方差,反映数据的离散情况。另外var_pop用于计算总体方差。
df.select(F.var_samp("score")).collect()[0][0]
'''
204.33588000000003
'''
二、总结
pyspark.sql.functions中的这些函数为用户在数据处理、分析和转换等方面提供了丰富的工具,能够满足各种复杂的数据处理需求,熟练掌握这些函数将大大提高在 PySpark 环境下处理大数据的效率和能力。无论是简单的数据清洗还是复杂的数据分析任务,都可以从中找到合适的函数来完成。
相关文章:
PySpark3:pyspark.sql.functions常见的60个函数
目录 一、常见的60个函数 1、col 2、lit 3、sum 4、avg/mean 5、count 6、max 7、min 8、concat 9、substring 10、lower 11、upper 12、trim 13、ltrim 14、rtrim 15、split 16、explode 17、collect_list 18、collect_set 19、asc 20、desc 21、when 2…...
网络爬虫总结与未来方向
通过深入学习和实际操作,网络爬虫技术从基础到进阶得以系统掌握。本节将全面总结关键内容,并结合前沿技术趋势与最新资料,为开发者提供实用性强的深度思考和方案建议。 1. 网络爬虫技术发展趋势 1.1 趋势一:高性能分布式爬虫 随…...
【优先算法】专题——双指针
1.移动零 移动零 题目描述: 思路: 本题我们把数组分块,将非零元素移动到左边,为零元素移动右边。 我们使用双指针算法(利用数组下标来充当指针) 两个指针的作用: cur:从左往右…...
互联网时代的隐私保护
在这个数字化时代,我们的生活与互联网密不可分。打开手机刷刷朋友圈,浏览一下购物网站,约个网约车,点个外卖,这些看似平常的行为都在默默产生着数据足迹。可就在这不经意间,我们的个人信息正在被收集、分析…...
活着就好20241124
今天是周日,一个同样洋溢着休闲与宁静气息的日子。亲爱的朋友们,大家早上好!在经历了一周的忙碌之后,我们终于迎来了这个让人期待已久的休息日。周日,不仅是一个放松身心的绝佳时机,更是我们回归自我、享受…...
镁光MT25QU01GXXX norflash调试笔记
目录 前言一、芯片概述二、数据手册解释1. 数据手册获取2.内容概括 三、几个操作的代码1.复位芯片操作2.读取芯片ID3.擦除芯片扇区4.向芯片存入数据5.读取存储的数据6.其它操作函数 前言 本笔记总结如何使用MCU对nor flash进行数据存储,包括芯片基本介绍࿰…...
并行IO接口8255
文章目录 8255A芯片组成外设接口三个端口两组端口关于C口(★) 内部逻辑CPU接口 8255A的控制字(★)位控字(D70)方式选择控制字(D71) 8255A的工作方式工作方式0(基本输入/输…...
[Unity Demo]从零开始制作空洞骑士Hollow Knight第二十集:制作专门渲染HUD的相机HUD Camera和画布HUD Canvas
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、制作HUD Camera以及让两个相机同时渲染屏幕二、制作HUD Canvas 1.制作法力条Soul Orb引入库2.制作生命条Health读入数据3.制作吉欧统计数Geo Counter4.制作…...
《AI大模型开发笔记》——Prompt提示词最佳实践
为什么需要提示词优化 什么是 Prompt enginnering? 提示词:解释一下什么是大语言模型的Prompt enginnering 图1. 什么是Prompt Enginnering? 通过上面ChatGPT的说明,我们可以看到,prompt工程化就是如何写prompt提示…...
Frontend - 防止多次请求,避免重复请求
目录 一、避免重复执行的多种情况 (一)根据用途 (二)根据用户操作 二、具体实现 (一)“Ajax ”结合disabled (防止多次请求),避免多次点击重复请求 1. 适用场景 2. 解决办法 3. 示例 &…...
MongoDB 简介
MongoDB 简介 MongoDB 是一种流行的 NoSQL 数据库管理系统,以其灵活的数据模型、高性能和易于扩展的特点而闻名。本文将详细介绍 MongoDB 的基本概念、特点、使用场景以及如何在实践中应用。 1. MongoDB 基本概念 1.1 文档数据库 MongoDB 是一个文档数据库,它使用 JSON 风…...
Ngrok实现内网穿透(Windows)
Ngrok实现内网穿透(Windows) 什么是内网穿透,内网穿透有什么用 内网穿透(NAT traversal)是一种技术手段,使得位于内网或防火墙后面的设备能够通过外网访问。例如,如果你的计算机、服务器等设备…...
【Python-办公自动化】实现自动化输出模板表格报告
import pandas as pd import numpy as np# 定义时间范围 date_range = pd.date_range(start=2023-11-01, end=2024-10-31, freq=M...
医学AI公开课·第一期|Machine LearningTransformers in Med AI
小罗碎碎念 从这周开始,我计划每个周末录一个视频,分享一些医学人工智能领域的进展。 作为第一期视频,我打算介绍一下机器学习和Transformer在医学AI领域中的应用。 为了准备这期视频,总共做了24页PPT(三部分内容&…...
ESP8266 STA模式TCP服务器 电脑手机网络调试助手
STA模式TCP服务器和手机电脑网络调试助手多连接...
Transformer架构笔记
Attention is All You Need. 3.Model Architecture 3.1 整体架构如图 3.2 Encoder与Decoder Encoder:由 N 6 N6 N6个相同的Block/Layer堆叠而成。每个Block有两个子层sub-layer:多头注意力和MLP(FFN,前馈神经网络)&…...
初学 flutter 环境变量配置
一、jdk(jdk11) 1)配置环境变量 新增:JAVA_HOMEC:\Program Files\Java\jdk-11 //你的jdk目录 在path新增:%JAVA_HOME%\bin2)验证是否配置成功(cmd运行命令) java java -version …...
【大数据技术基础】 课程 第8章 数据仓库Hive的安装和使用 大数据基础编程、实验和案例教程(第2版)
第8章 数据仓库Hive的安装和使用 8.1 Hive的安装 8.1.1 下载安装文件 访问Hive官网(http://www.apache.org/dyn/closer.cgi/hive/)下载安装文件apache-hive-3.1.2-bin.tar.gz 下载完安装文件以后,需要对文件进行解压。按照Linux系统使用的…...
Postman之newman
系列文章目录 1.Postman之安装及汉化基本使用介绍 2.Postman之变量操作 3.Postman之数据提取 4.Postman之pm.test断言操作 5.Postman之newman Postman之newman 1.基础环境node安装1.1.配置环境变量1.2.安装newman和html报告组件 2.newman运行 newman可以理解为,没有…...
Lua 实现继承的一种方式
以下代码来自Loxodon Framework,截取自其中的一段 function class(classname, super)local cls {}cls.__classname classnamecls.__class clscls.base function (self)return cls.superendcls.__type 0cls.super supercls.__index clsif super thensetmetat…...
相机网卡开启巨型帧和关闭节能模式方法
2022 年 8 月 2 日 Tank 阅读次数(ip/1年): 26,796 win10为例子 首先在开始菜单搜索:网络连接 对想要设置的网络右键:属性 点 配置 高级里面找到这三个选项,参考下图设置,螃蟹网卡建议关掉所有节能有关的…...
如何在 Ubuntu 22.04 上安装带有 Nginx 的 ELK Stack
今天我们来聊聊如何在 Ubuntu 22.04 服务器上安装 ELK Stack,并集成 Nginx 作为 Web 服务器,同时使用 Let’s Encrypt Certbot 进行 SSL 认证。ELK Stack,包括 Elasticsearch、Logstash 和 Kibana,是一套强大的工具,用…...
Android中的依赖注入(DI)框架Hilt
Hilt 是 Android 提供的一种依赖注入(DI)框架,它基于 Dagger,目的是简化依赖注入的使用,提供更易用的接口和与 Android 生命周期组件的紧密集成。下面是 Hilt 的详细介绍。 为什么选择 Hilt? 依赖注入的优势…...
笔记记录 k8s操作
docker下载arm架构的镜像 docker pull centos --platform arm64 其中华为鲲鹏、飞腾CPU采用的是ARM架构,龙芯采用的是MIPS架构,而兆芯、海光CPU采用的是X86架构,申威采用的是Alpha架构 docker查看容器的日志文件目录 docker inspect --format={{.LogPath}} containername…...
掌握Go语言中的异常控制:panic、recover和defer的深度解析
掌握Go语言中的异常控制:panic、recover和defer的深度解析 在Go语言的编程世界中,异常处理是一个不可忽视的话题。Go语言提供了panic、recover和defer三个关键字来处理程序中的异常情况。本文将深入探讨这三个关键字的工作原理、使用场景和最佳实践,帮助读者在实际编程中更…...
SpringBoot项目部署到云服务器全流程
文章目录 一、前期准备(一)云服务器选择(二)本地环境准备(三)数据库准备(若项目需要) 二、服务器配置(一)获取服务器信息(二)重置实例…...
对传统加密算法降维打击?!——量子计算
量子计算 声明! 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无…...
什么是Lodash,有什么特点
什么是 Lodash? Lodash 是一个 JavaScript 工具库,提供了一系列实用的函数来处理常见的编程任务,如数组操作、对象操作、字符串处理等。Lodash 由 John-David Dalton 创建,旨在提供一个更全面、更高效的替代方案,以弥…...
Simulink中Model模块的模型保护功能
在开发工作过程中,用户为想要知道供应商的开发能力,想要供应商的模型进行测试。面对如此要求,为了能够尽快拿到定点项目,供应商会选择一小块算法或是模型以黑盒的形式供客户测试。Simulink的Model模块除了具有模块引用的功能之外&…...
【电子通识】LED的一些基础知识
什么是LED LED是被称为"发光二极管"的半导体,名称取至 "Light Emitting Diode" 的首字母。 从爱迪生1879年发明白炽灯后,白炽灯统治了照明一百多年,为世界带来光明。而在21世纪,白炽灯却早已被取代࿰…...
React Native 基础
React 的核心概念 定义函数式组件 import组件 要定义一个Cat组件,第一步要使用 import 语句来引入React以及React Native的 Text 组件: import React from react; import { Text } from react-native; 定义函数作为组件 const CatApp = () => {}; 渲染Text组件...
C语言 蓝桥杯某例题解决方案(查找完数)
蓝桥杯原题: 一个数如果恰好等于它的因子之和,这个数就称为“完数”。例如6 1 2 3.编程找出1000以内的所有完数。 这个题没有很大的难点,与我们上一个解决的问题“质因数分解”不同,它不需要判断因数是否是质数,因此…...
【shodan】(三)vnc漏洞利用
shodan基础(三) 声明:该笔记为up主 泷羽的课程笔记,本节链接指路。 警告:本教程仅作学习用途,若有用于非法行为的,概不负责。 count count命令起到一个统计计数的作用。 用上节的漏洞指纹来试…...
蚁群算法(Ant Colony Optimization, ACO)
简介 蚁群算法(Ant Colony Optimization, ACO)是一种基于自然启发的优化算法,由意大利学者马可多里戈(Marco Dorigo)在1992年首次提出。它受自然界中蚂蚁觅食行为的启发,用于解决离散优化问题。 在自然界…...
python可视化将多张图整合到一起(画布)
这周有点事忙着,没时间重温刚结束的Mathurcup数学建模,这两天也是再看了下,论文还是赶紧挺烂的,但比国赛又有进步(说起国赛又不得不抱怨了,基本其余省份都发了,但江西......哎)。哎&…...
计算机网络socket编程(5)_TCP网络编程实现echo_server
个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 计算机网络socket编程(5)_TCP网络编程实现echo_server 收录于专栏【计算机网络】 本专栏旨在分享学习计算机网络的一点学习笔记,欢迎大家在评论区交…...
w055基于web的服装生产管理的设计与实现
🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…...
hadoop集群搭建
一、环境准备⼯作: 确保已经按照以下文档安装完毕:虚拟机和远程工具的安装(hadoop集群安装01)-CSDN博客 Linux设置以及软件的安装(hadoop集群安装02)-CSDN博客 虚拟机的克隆和免密(hadoop集群03)-CSDN博…...
JVM中TLAB(线程本地分配缓存区)是什么
JVM中TLAB(线程本地分配缓存区)是什么 简单来说 TLAB,线程本地分配缓存区,是在 Java 堆内存中的一块线程专属的内存区域,每个线程在创建对象时,首先会尝试在自己的 TLAB 区域内分配内存,这样多…...
如何使用 MMPreTrain 框架
如何使用 MMPreTrain 框架进行预训练模型的微调和推理 MMPreTrain 是一个基于 PyTorch 的开源框架,专注于图像分类和其他视觉任务的预训练模型。它提供了丰富的预训练模型和便捷的接口,使得研究人员和开发者可以轻松地进行模型微调和推理。本文将详细介…...
Python的tkinter如何把日志弄进文本框(Text)
当我们用python的Tkinter包给程序设计界面时,在有些时候,我们是希望程序的日志显示在界面上的,因为用户也需要知道程序目前运行到哪一步了,以及程序当前的运行状态是否良好。python的通过print函数打印出来的日志通常显示在后台&a…...
bash笔记
0 $0 是脚本的名称,$# 是传入的参数数量,$1 是第一个参数,$BOOK_ID 是变量BOOK_ID的内容 1 -echo用于在命令窗口输出信息 -$():是命令替换的语法。$(...) 会执行括号内的命令,并将其输出捕获为一个字符串ÿ…...
嵌入式工程师面试题 - 2024/11/19
欢迎找我进行职业规划,超值的自我投资 -> 嵌入式软件工程师一对一指导 转载请注明来源 1.以下叙述中正确的是() A 程序必须包含所有三种基本结构才能成为一种算法 B 我们所写的每条C语句,经过编译最终都将转换成二进制的机器…...
springboot配置https,并使用wss
学习链接 springboot如何将http转https SpringBoot配置HTTPS及开发调试 可借鉴的参考: springboot如何配置ssl支持httpsSpringBoot配置HTTPS及开发调试的操作方法springboot实现的https单向认证和双向认证(java生成证书)SpringBoot配置Https访问的详细步骤Sprin…...
【C语言】连接陷阱探秘(3):形参、实参与返回值
目录 一、形参的 “迷障” 1.1. 定义与功能 1.2. 类型不匹配 1.3. 数量不一致 1.4. 顺序不一致 1.5. 数组形参退化 二、实参的 “暗礁” 2.1. 定义与功能 2.2. 求值顺序 “谜题” 2.3. 悬空指针 “深渊” 三、返回值的 “陷阱” 3.1. 定义与功能 3.2. 陷阱与缺陷 …...
学习笔记030——若依框架中定时任务的使用
定时任务是软件开发中经常使用一个功能。 Java定时任务广泛应用于各种需要定时执行或周期性执行任务的场景,如: 数据备份:定期备份数据库中的数据,确保数据的安全性和可靠性。数据同步:如果有多个数据源需要同步数据…...
基于SpringBoot的数据结构系统设计与实现(源码+定制+开发)
博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…...
利用 Python 和 Selenium 高效启动和管理 Chrome 浏览器
在自动化测试和网页抓取的过程中,Selenium 是最常用的工具之一。其强大的功能可以与浏览器无缝集成,实现复杂的操作。然而,为了提高效率和扩展性,尤其在处理大量任务时,我们可以通过定制化的方法启动 Chrome 浏览器并与…...
外卖系统开发实战:从架构设计到代码实现
开发一套外卖系统,需要在架构设计、技术选型以及核心功能开发等方面下功夫。这篇文章将通过代码实例,展示如何构建一个基础的外卖系统,从需求梳理到核心模块的实现,帮助你快速掌握开发要点。 一、系统架构设计 一个完整的外卖系…...
类和对象(上)--类、类的实例化(对象)、this指针
1.类 1.1定位: 和namespace一样,类也有类域。同样起到既保护又限制的功能。别人不能随意访问类里的东西,得通过特定的方式来访问(访问方法和命名空间域一样,三种方法)。 1.2作用 在C语言中,…...