Spark：将字符串列转换为数组

Z时代
2024-01-10
分类：问答

如何将已作为字符串读取的列转换为数组列？即从下面的模式转换

scala> test.printSchema
root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)
+---+---+
|  a|  b|
+---+---+
|  1|2,3|
+---+---+
|  2|4,5|
+---+---+

至：

scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)
+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

如果可能，请同时共享scala和python实现。在相关说明中，从文件本身读取时如何处理它？我有约450列的数据，我想以这种格式指定的列很少。目前，我正在pyspark中阅读以下内容：

df = spark.read.format('com.databricks.spark.csv').options(
    header='true', inferschema='true', delimiter='|').load(input_file)

谢谢。

回答：

有各种各样的方法，

最好的方法是使用split函数并强制转换为array<long>

data.withColumn("b", split(col("b"), ",").cast("array<long>"))

您也可以创建简单的udf来转换值

val tolong = udf((value : String) => value.split(",").map(_.toLong))
data.withColumn("newB", tolong(data("b"))).show

希望这可以帮助！

以上是 Spark：将字符串列转换为数组的全部内容，来源链接： utcz.com/qa/433199.html

Spark：将字符串列转换为数组

回答：

其他人也看了：