如何在Windows中查看Apache Parquet文件?

我找不到有关Apache Parquet文件的任何简单的英语解释。如:

  1. 这些是什么?
  2. 我需要Hadoop或HDFS来查看/创建/存储它们吗?
  3. 如何创建镶木地板文件?
  4. 如何查看镶木地板文件?

关于这些问题的任何帮助,我们将不胜感激。

回答:

什么是Apache Parquet?

Apache

Parquet是二进制文件格式,以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表,其中具有列和行。但是,通常不是一次访问一行数据,而是一次访问一列数据。

Apache Parquet是现代大数据存储格式之一。它具有几个优点,其中一些是:

  • :高效的数据检索,高效的压缩等。
  • :允许从数据流中生成Parquet文件。(在大数据场景中很常见)

回答:

不能。镶木地板文件可以存储在任何文件系统中,而不仅仅是HDFS。如上所述,它是一种文件格式。因此,就像任何其他文件一样,它具有名称和

扩展名。但是,在大数据环境中通常会发生的情况是将一个数据集拆分(或划分为多个)镶木文件以提高效率。

默认情况下,所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。

回答:

如前所述,默认情况下,当前所有的Apache大数据产品(例如Hadoop,Hive,Spark等)都支持Parquet文件。

因此,可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下,为了读取或创建CSV文件,您必须安装Hadoop / HDFS +

Hive并对其进行配置。幸运的是,还有其他解决方案。

  • 在Java中,请参阅以下文章:使用Java生成Parquet文件
  • 在.NET中,请参见以下库:parquet-dotnet

  • 请尝试以下Windows实用程序:https : //github.com/mukunku/ParquetViewer

可能吧 但是存在的并不多,而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式(我什至找不到正式定义)。在撰写此回复时,我只知道列出的那些

以上是 如何在Windows中查看Apache Parquet文件? 的全部内容, 来源链接: utcz.com/qa/430081.html

回到顶部