首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python中最快的集群包是什么?

Python中最快的集群包是什么?
EN

Data Science用户
提问于 2023-03-07 23:39:46
回答 3查看 136关注 0票数 1

我想对1,300列和500,000行的数据集进行聚类分析。

我看到聚类算法在科学工具包-学习中是可用的。但我担心在这么大的数据集上,算法效率会很低。

SciKit-学习慢吗?如果是的话,Python中最好的(最快的)集群包是什么?

EN

回答 3

Data Science用户

回答已采纳

发布于 2023-03-09 09:11:52

根据您的平台、处理器、内存等,您可能需要查看https://www.intel.com/content/www/us/en/developer/tools/oneapi/scikit-learn.html,其中一些集群算法进行了高度优化。

票数 2
EN

Data Science用户

发布于 2023-03-16 12:11:25

应该是相当容易通过计算要求-只要尝试它,而不担心模型的准确性。

我不知道包是否附带了要搜索的特定集群算法,但是您可以通过使用GPU加速Python来实现非常快速的集群方法,同时确保代码是可并行的。这可以通过Numba、CuPy、PyTorch或PyCUDA等包来完成。

票数 2
EN

Data Science用户

发布于 2023-03-18 12:28:07

我会使用哈伯斯坦,这是DBSCAN的分层版本。安装起来不一定很容易,所以可能希望与雪橇DBSCAN实现一起使用。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档