得到一个csv文件,其中两个\0中有逗号,怎么预处理?
补充:文件是用hive的beeline导出来的。
下一步要用pandas.read_csv读取,其中两个NUL之间会有“,”出现,与csv本身的分隔符混淆。怎样对这种情况预处理?
回答:
null 出现在文本内容中本身就很奇怪,不过看样子这里是拿来作为分隔符用的。所以只需要简单的把它替换成 "
就可以了。
不过这样会带来一个新的问题,就是文本内容中本身就含 "
的情况,不知道是怎么处理的。按理说需要转义处理。
下面是一段用 WPS 导出来的 csv
第一个单元格,第 "2" 个单元格,"第三个, 单元格","第""4""个,单元格"
可以看到,在没有逗号的情况下,不需要加 "
,有逗号就得加。如果加了外面包裹的 "
号,原来的引号就要写成两个
以上是 得到一个csv文件,其中两个\0中有逗号,怎么预处理? 的全部内容, 来源链接: utcz.com/p/938521.html