我第一次尝试在大约有7000行的数据集中使用tpot,当尝试在训练数据集(占整个数据集的25% )上训练tpot时,tpot花费的时间太长。我在google上运行了大约45分钟的代码,优化的进度仍然是4%。我只是尝试使用在http://epistasislab.github.io/tpot/examples/上看到的例子。tpot花这么长时间是很正常的吗,因为到目前为止,我认为即使尝试使用它也不值得
发布于 2021-06-07 23:24:13
根据您的数据集,TPOT可能需要相当长的时间。您必须考虑TPOT正在做什么: TPOT正在评估数千条分析管道,并在背景数据集上拟合数千个ML模型,如果您有一个大型数据集,那么所有这些拟合都需要很长时间--特别是在功能较弱的计算机上运行它时。
如果你想要更快的结果,你有几个选择:
n_jobs参数设置为-1或大于1的数字,这将允许TPOT并行计算管道。如果您有一台多核机器,-1将使用所有可用的核,并显着地加快速度。subsample参数对数据进行子示例。默认为1.0,对应于使用100%的培训数据。您可以对数据进行子示例,以降低数据的百分比,这样TPOT将运行得更快。https://stackoverflow.com/questions/67841663
复制相似问题