Hive中的COLLECT_SET()是否保留重复项?
有没有办法将重复项保留在Hive的收集集中,或使用其他方法模拟Hive提供的聚合收集的种类?我想将具有相同键的列中的所有项目聚合到一个具有重复项的数组中。
IE浏览器:
hash_id | num_of_cats=====================
ad3jkfk 4
ad3jkfk 4
ad3jkfk 2
fkjh43f 1
fkjh43f 8
fkjh43f 8
rjkhd93 7
rjkhd93 4
rjkhd93 7
应该返回:
hash_agg | cats_aggregate===========================
ad3jkfk Array<int>(4,4,2)
fkjh43f Array<int>(1,8,8)
rjkhd93 Array<int>(7,4,7)
回答:
尝试在Hive 0.13.0之后使用COLLECT_LIST(col)
SELECT hash_id, COLLECT_LIST(num_of_cats) AS aggr_set
FROM
tablename
WHERE
blablabla
GROUP BY
hash_id
;
以上是 Hive中的COLLECT_SET()是否保留重复项? 的全部内容, 来源链接: utcz.com/qa/411083.html