我正在寻找Apache Arrow API的有用文档或示例。谁能指出一些有用的资源?我只能找到一些博客和JAVA文档(内容不多)。
据我所知,它是一个用于快速分析的标准内存列式数据库。是否可以将数据加载到箭头内存并对其进行操作?
发布于 2017-07-09 14:59:40
你应该使用箭头作为两个应用程序之间的中间人,这两个应用程序需要使用传递的对象进行通信。
箭头不是一个独立的软件,而是一个组件,用于加速特定系统内的分析,并允许启用箭头的系统以较低的开销交换数据。
例如,Arrow提高了cluster中数据移动的性能。
有关示例,请参阅tests。
@Test
public void test() throws Exception {
BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
File testInFile = testFolder.newFile("testIn.arrow");
File testOutFile = testFolder.newFile("testOut.arrow");
writeInput(testInFile, allocator);
String[] args = {"-i", testInFile.getAbsolutePath(), "-o", testOutFile.getAbsolutePath()};
int result = new FileRoundtrip(System.out, System.err).run(args);
assertEquals(0, result);
validateOutput(testOutFile, allocator);
}Apache Parquet也使用它。以下是从箭头对象转换为箭头对象的示例:
MessageType parquet = converter.fromArrow(allTypesArrowSchema).getParquetSchema();
Schema arrow = converter.fromParquet(supportedTypesParquetSchema).getArrowSchema();发布于 2020-11-20 23:10:59
他们现在有一些关于如何在他们的网站上使用Apache Arrow的基本documentation。尽管它可能需要一些填充。
https://stackoverflow.com/questions/44674818
复制相似问题