我正在尝试使用其外部存储器版本训练一个xgboost模型,该模型以libsvm文件作为训练集。现在,所有的数据都存储在一堆csv文件中,它们组合在一起比我的内存要大得多,比如说70G。(你可以很容易地读取它们中的任何一个)。我只是想知道如何为xgboost创建一个大的libsvm文件。或者是否有任何其他的解决方案。谢谢。
发布于 2018-11-22 08:47:46
如果你的csv文件没有头文件,你可以用Unix cat命令把它们组合起来。
示例:
> ls
file1.csv file2.csv
> cat *.csv > combined.csv现在,combined.csv是所有其他文件的cat创建。
如果你所有的csv文件都有头文件,你会想做一些更复杂的事情,比如用tail取n-1行。
XGBoost支持csv as an input.
如果您希望将其转换为libsvm,则可以使用phraug's脚本。
https://stackoverflow.com/questions/53402223
复制相似问题