我需要找到一些与Python中的熊猫类似的Java工具。熊猫是一个提供高性能,易于使用的数据结构和数据分析工具的工具.
我在AWS S3中有一些存储大量数据(比如80 MB)的.csv文件。我想要实现的是使用Java,我想对它进行一些数据分析,比如连接数据、处理数据、将来自.csv文件的不同列合并在一起。我知道在Python里用熊猫库很容易实现。但不确定,用Java做这件事有多难?
例如,熊猫有名为DataFrames的数据结构,这对我的用例非常有用。
注意:由于某些原因,我不能使用Python,因为我试图实现的这个目标应该是我们的DataPipeline的一部分,它已经用Java编写了。
发布于 2018-03-27 10:39:54
你可以试试韦卡。它是用Java实现的,有几个GUI,可以通过命令行调用,也可以通过将包(S)导入Java代码来调用。
Weka可以导入CSV文件,但是它最好使用自己的inputfile格式.arff (= csv带有元数据头)。有csv2arff转换器可用,但我用R转换。
发布于 2020-08-18 03:31:13
您可以使用esProc SPL (结构化预处理语言)来实现您的需求。集成几个jar包并调用SPL。要快速理解,请参考Java计算层http://c.raqsoft.com/article/1586764200868
SPL和Pandas都是专业的结构化数据处理工具,但是SPL更简单,而且是用Java实现的。它提供并行多线程计算和流处理能力,具有更好的性能。它有许多内置的数据访问接口,可以方便地连接各种数据源并从中获取数据。
发布于 2018-02-24 19:32:04
我从来没有使用过它,我也不是一个Java程序员,但是细木工看起来像熊猫,但是在Java中。它甚至在其GitHub自述中提到了熊猫。
https://softwarerecs.stackexchange.com/questions/48799
复制相似问题