我正在尝试modin,但是一直有一个错误:
import modin.pandas as md
import pandas as pd
PATH = 'file.csv'
%%time
df = pd.read_csv(PATH)
%%time
mdf = md.read_csv(PATH)错误:
UserWarning:尚未初始化的Dask执行环境。正在初始化...若要删除此警告,请在执行dataframe操作之前运行以下python代码:
from distributed import Client
client = Client()以后从未检索过
任务异常:<任务完成名称=‘Task-8’coro=<_wrap_awaitable()完成,定义在C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\asyncio\tasks.py:683> exception=ImportError(“无法从部分初始化的模块'multiprocessing.popen_spawn_win32‘导入名称'Popen’(很可能是由于循环导入) (C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\popen_spawn_win32.py)")>跟踪(最近调用):文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\asyncio\tasks.py",第690行,在返回(从awaitable.await()) "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\core.py",“C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\core.py”,第290行、in _ self.start() self.start() File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",第295行)返回时在开始响应=等待文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",第378行中,实例化结果=等待self.process.start()文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",行575,在start await () File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\process.py",第34行中,_call_and_set_future res = func(*args,**kwargs)文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\process.py",行202,在"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\process.py",process.start() _start process.start第121行中,在start self._popen = self._Popen(self) File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\context.py",第224行中,在_default_context.get_context().Process._Popen(process_obj)返回"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\context.py",文件的第326行中,在“从(C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\popen_spawn_win32.py)导入的_Popen”中,ImportError:无法从部分初始化模块“multiprocessing.popen_spawn_win32”导入名称“Popen”(很可能是由于循环导入)
如果有什么帮助的话,我有一个0.1.20的流行版本。有人建议尝试错误信息中的内容-导入dask.distributed并启动客户端,但没有帮助。
任何帮助都是非常感谢的。
ps。几周前,我想尝试modin,但是安装过程并不简单,有很多错误,大部分是用ray和dask进口的。我设法让达斯克开始工作,而不是莫丁。开始学习它的api。现在我决定再试一次,因为我认为达斯克工作得很好,但是不,还是有一些重要的错误和不正确的地方。
发布于 2021-05-18 02:04:14
看起来modin正在自动创建一个dask本地进程集群。不幸的是,每个脚本都在导入您的脚本,以便它们能够理解定义的变量--而且每个变量都试图启动一个新的dask本地集群。
您应该尝试将代码放入一个函数中,并从一个受保护的块调用该函数。
if __name__ == "__main__":发布于 2022-11-02 20:54:57
使用Dask执行引擎的Modin可以使用以下步骤安装。
pip install "modin[dask]" # Install Modin dependencies and Dask to run on Dask如果要选择要运行的特定计算引擎,可以设置环境变量MODIN_ENGINE和Modin将使用该引擎进行计算:
import os
os.environ["MODIN_ENGINE"] = "dask" # Modin will use Dask
import modin.pandas as pd此外,在使用以下命令执行任何dataframe操作之前,请初始化Dask环境。
from distributed import Client
client = Client() 请查看英特尔发行的Modin (https://www.intel.com/content/www/us/en/developer/tools/oneapi/distribution-of-modin.html#gs.14j7r0)和Modin官方页面(https://modin.readthedocs.io/en/stable/)中的安装问题,并加快在英特尔架构上的熊猫工作流程。
https://stackoverflow.com/questions/67555760
复制相似问题