paperBoat格式声称为机器学习例程提供了更好的数据集表示。我想了解它优化的本质。我理解对模型属性使用整数表示意味着更快地处理数据集,还有哪些其他改进。
此外,如何调优ML算法以处理此文件格式。
发布于 2015-05-29 21:23:45
我不知道这种格式是否真的提供了更好的表示,但我可以推测为什么它可以更高效。
首先,正如它们在格式描述中所说的那样,“具有相同精度的连续数据可以实现硬件矢量化”;还请考虑维基百科:“向量处理技术已经被添加到几乎所有现代CPU设计中”。
第二,它们的格式允许您混合稀疏和非稀疏特性,但是由于所有稀疏特性都是因此而放置的,所以可以很容易地将它们作为一个稀疏矩阵并像共轭梯度一样优化学习方法。
如何调优ML算法以处理此文件格式?
你所说的ML算法调优是什么意思?学习算法不知道,也不需要知道任何关于数据集文件格式的信息;如果知道文件格式,就不能增加或降低准确性。理论上,如果您可以依赖数据的某些属性(我猜,Ismion PaperBoat会这样做),那么可以加快具体的优化算法(比如梯度下降),但是我认为您不能自己调整它。
https://stackoverflow.com/questions/30532744
复制相似问题