首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Modin与dask冲突

Modin与dask冲突
EN

Stack Overflow用户
提问于 2021-05-16 10:53:29
回答 2查看 1.1K关注 0票数 0

我正在尝试modin,但是一直有一个错误:

代码语言:javascript
复制
import modin.pandas as md
import pandas as pd

PATH = 'file.csv'

%%time
df = pd.read_csv(PATH)

%%time
mdf = md.read_csv(PATH)

错误:

UserWarning:尚未初始化的Dask执行环境。正在初始化...若要删除此警告,请在执行dataframe操作之前运行以下python代码:

代码语言:javascript
复制
from distributed import Client

client = Client()

以后从未检索过

任务异常:<任务完成名称=‘Task-8’coro=<_wrap_awaitable()完成,定义在C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\asyncio\tasks.py:683> exception=ImportError(“无法从部分初始化的模块'multiprocessing.popen_spawn_win32‘导入名称'Popen’(很可能是由于循环导入) (C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\popen_spawn_win32.py)")>跟踪(最近调用):文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\asyncio\tasks.py",第690行,在返回(从awaitable.await()) "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\core.py",“C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\core.py”,第290行、in _ self.start() self.start() File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",第295行)返回时在开始响应=等待文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",第378行中,实例化结果=等待self.process.start()文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\nanny.py",行575,在start await () File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\process.py",第34行中,_call_and_set_future res = func(*args,**kwargs)文件"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\site-packages\distributed\process.py",行202,在"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\process.py",process.start() _start process.start第121行中,在start self._popen = self._Popen(self) File "C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\context.py",第224行中,在_default_context.get_context().Process._Popen(process_obj)返回"C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\context.py",文件的第326行中,在“从(C:\Users\Oleg\AppData\Local\Programs\Python\Python39\lib\multiprocessing\popen_spawn_win32.py)导入的_Popen”中,ImportError:无法从部分初始化模块“multiprocessing.popen_spawn_win32”导入名称“Popen”(很可能是由于循环导入)

如果有什么帮助的话,我有一个0.1.20的流行版本。有人建议尝试错误信息中的内容-导入dask.distributed并启动客户端,但没有帮助。

任何帮助都是非常感谢的。

ps。几周前,我想尝试modin,但是安装过程并不简单,有很多错误,大部分是用ray和dask进口的。我设法让达斯克开始工作,而不是莫丁。开始学习它的api。现在我决定再试一次,因为我认为达斯克工作得很好,但是不,还是有一些重要的错误和不正确的地方。

EN

回答 2

Stack Overflow用户

发布于 2021-05-18 02:04:14

看起来modin正在自动创建一个dask本地进程集群。不幸的是,每个脚本都在导入您的脚本,以便它们能够理解定义的变量--而且每个变量都试图启动一个新的dask本地集群。

您应该尝试将代码放入一个函数中,并从一个受保护的块调用该函数。

代码语言:javascript
复制
if __name__ == "__main__":
票数 1
EN

Stack Overflow用户

发布于 2022-11-02 20:54:57

使用Dask执行引擎的Modin可以使用以下步骤安装。

代码语言:javascript
复制
    pip install "modin[dask]" # Install Modin dependencies and Dask to run on Dask

如果要选择要运行的特定计算引擎,可以设置环境变量MODIN_ENGINE和Modin将使用该引擎进行计算:

代码语言:javascript
复制
    import os
    os.environ["MODIN_ENGINE"] = "dask"  # Modin will use Dask
    import modin.pandas as pd

此外,在使用以下命令执行任何dataframe操作之前,请初始化Dask环境。

代码语言:javascript
复制
    from distributed import Client
    client = Client() 

请查看英特尔发行的Modin (https://www.intel.com/content/www/us/en/developer/tools/oneapi/distribution-of-modin.html#gs.14j7r0)和Modin官方页面(https://modin.readthedocs.io/en/stable/)中的安装问题,并加快在英特尔架构上的熊猫工作流程。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67555760

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档