首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NodeJS -读取Parquet文件

NodeJS -读取Parquet文件
EN

Stack Overflow用户
提问于 2019-04-04 01:37:38
回答 1查看 4K关注 0票数 11

有谁知道用NodeJS读取拼花文件的方法吗?

我非常努力地尝试安装node-parquet -> (但可能)--它大部分时间都能工作,但不适合读取数字(数字数据类型)。

也尝试过parquetjs,但它只能读取它自己的库创建的拼花文件。任何用火花或Python创建的东西--都不能阅读。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2022-10-26 09:52:02

有谁知道用NodeJS读取拼花文件的方法吗?

我发现了许多库,但它们中的大多数已经死了/没有维护。

也尝试了parquetjs,但它只能读取由它自己的库创建的拼花文件。任何用火花或Python创建的东西--都不能阅读。

我还没有试过这个库,但是拼花有一个明确的规格。我们应该能够读取从python或JavaScript中spark创建的拼图文件。

其他选项:

  • DuckDB --我建议试试这个图书馆。DuckDB是一个进程内嵌入式库/数据库.

下面的代码片段使用DuckDB直接从磁盘读取拼板数据。

代码语言:javascript
复制
var duckdb = require('duckdb');
var db = new duckdb.Database(':memory:');
db.all("SELECT * FROM READ_PARQUET('D:\\sample\\userdata1.parquet') WHERE Country='Canada' LIMIT 3", function(err, res) {
  if (err) {
    throw err;
  }
  console.log(res)
});

DuckDB有很多围绕着地板的特性。

  • 直接在磁盘上的parquet文件上运行SQL查询,从S3读取,从HTTP端点读取,我们甚至可以将非常大的parquet文件加载到DuckDB格式中,并在DB表上运行查询,将parquet数据与其他格式(如CSV )连接起来。
  • 将拼板文件写入磁盘,将拼板写入s3桶。
  • 单个文件读取,多个文件读取,读取文件夹/使用glob表达式。
  • 读取架构和元数据、页脚统计信息。
  • 地板投影下推,过滤下推。

医生:

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55506633

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档