Apache Spark计数记录每个组的空值
当我尝试计算每个组的记录数时,我发现该组具有空值但没有记录,但这是不正确的。Apache Spark计数记录每个组的空值
输入数据帧:
+--------+ | Name|
+--------+
| Andrei|
| Andrei|
| null|
| null|
|Grigorii|
+--------+
代码:
Dataset<Row> df = inputDf.groupBy("Name") .agg(functions.count("Name").as("Name_count"));
实际数据框:
+--------+----------+ | Name|Name_count|
+--------+----------+
| null| 0|
| Andrei| 2|
|Grigorii| 1|
+--------+----------+
预期的数据帧:
+--------+----------+ | Name|Name_count|
+--------+----------+
| null| 2|
| Andrei| 2|
|Grigorii| 1|
+--------+----------+
回答:
此作品:
Dataset<Row> storageFrame = leftDataset.groupBy("Name") .agg(functions.count("*").as("Name_count"));
以上是 Apache Spark计数记录每个组的空值 的全部内容, 来源链接: utcz.com/qa/265843.html