我想对1,300列和500,000行的数据集进行聚类分析。
我看到聚类算法在科学工具包-学习中是可用的。但我担心在这么大的数据集上,算法效率会很低。
SciKit-学习慢吗?如果是的话,Python中最好的(最快的)集群包是什么?
发布于 2023-03-09 09:11:52
根据您的平台、处理器、内存等,您可能需要查看https://www.intel.com/content/www/us/en/developer/tools/oneapi/scikit-learn.html,其中一些集群算法进行了高度优化。
发布于 2023-03-16 12:11:25
应该是相当容易通过计算要求-只要尝试它,而不担心模型的准确性。
我不知道包是否附带了要搜索的特定集群算法,但是您可以通过使用GPU加速Python来实现非常快速的集群方法,同时确保代码是可并行的。这可以通过Numba、CuPy、PyTorch或PyCUDA等包来完成。
https://datascience.stackexchange.com/questions/120034
复制相似问题