在猪中加载多个文件 - 扩展

请帮我解决... 我在这上面花了很多时间。在猪中加载多个文件 - 扩展

我有一个文件夹中的文件,我希望他们根据他们的文件名的顺序加载。

我甚至已经写了Java代码的扩展来转换文件名以匹配以下链接中的指南中的格式。

  1. Load multiple files in pig
  2. Pig Latin: Load multiple files from a date range (part of the directory structure)
  3. http://netezzaadmin.wordpress.com/2013/09/25/passing-parameters-to-pig-scripts/

我使用猪11.0

在我script.pig,

set io.sort.mb 10; 

REGISTER 'path_to/lib/pig/piggybank.jar';

data_ = LOAD '$input' USING org.apache.pig.piggybank.storage.XMLLoader('Data') AS (data_:chararray);

DUMP data_;

在外壳

[[email protected] currentfolder]# pig -x local script.pig -param input=/20131217/{1..10}.xml 

返回错误:

[main] ERROR.org.apache.pig.Main - ERROR 2999: Unexpected error. Undefined parameter : input 

回答:

我不知道为什么您使用的输入参数。

例如,对于在文件夹中的所有文件加载MyFolder中/的currentdate /(以YYYYMMDD格式),我使用下面的脚本:

%default DATE `date +%Y%m%d`; 

x_basic_table = LOAD '/MyFolder/$DATE';

尼斯一天

以上是 在猪中加载多个文件 - 扩展 的全部内容, 来源链接: utcz.com/qa/265234.html

回到顶部