如何在Windows中查看Apache Parquet文件?
我找不到有关Apache Parquet文件的任何简单的英语解释。如:
- 这些是什么?
- 我需要Hadoop或HDFS来查看/创建/存储它们吗?
- 如何创建镶木地板文件?
- 如何查看镶木地板文件?
关于这些问题的任何帮助,我们将不胜感激。
回答:
什么是Apache Parquet?
Apache
Parquet是二进制文件格式,以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表,其中具有列和行。但是,通常不是一次访问一行数据,而是一次访问一列数据。
Apache Parquet是现代大数据存储格式之一。它具有几个优点,其中一些是:
- :高效的数据检索,高效的压缩等。
- :允许从数据流中生成Parquet文件。(在大数据场景中很常见)
回答:
不能。镶木地板文件可以存储在任何文件系统中,而不仅仅是HDFS。如上所述,它是一种文件格式。因此,就像任何其他文件一样,它具有名称和
扩展名。但是,在大数据环境中通常会发生的情况是将一个数据集拆分(或划分为多个)镶木文件以提高效率。
默认情况下,所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。
回答:
如前所述,默认情况下,当前所有的Apache大数据产品(例如Hadoop,Hive,Spark等)都支持Parquet文件。
因此,可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下,为了读取或创建CSV文件,您必须安装Hadoop / HDFS +
Hive并对其进行配置。幸运的是,还有其他解决方案。
- 在Java中,请参阅以下文章:使用Java生成Parquet文件
- 在.NET中,请参见以下库:parquet-dotnet
- 请尝试以下Windows实用程序:https : //github.com/mukunku/ParquetViewer
可能吧 但是存在的并不多,而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式(我什至找不到正式定义)。在撰写此回复时,我只知道列出的那些
以上是 如何在Windows中查看Apache Parquet文件? 的全部内容, 来源链接: utcz.com/qa/430081.html