假设两列都是字符串，则仍然可能存在差异。在cuDF中，字符串列表示为原始字符的单个内存分配、处理缺失值的关联空掩码分配和处理行偏移量的关联分配，这与Apache内存规范一致。因此，很可能这些列中表示的内容在cuDF中的数据结构中比Pandas中的默认字符串数据结构更有效(这在本质上一直都是正确的)。

以下示例可能会有所帮助：

import cudf
import pandas as pd

Xc = cudf.datasets.randomdata(nrows=1000, dtypes={"id": int, "x": int, "y": int})
Xp = Xc.to_pandas()

print(Xp.astype("object").memory_usage(deep=True), "\n")
print(Xc.astype("object").memory_usage(deep=True), "\n")
print(Xp.astype("string[pyarrow]").memory_usage(deep=True))
Index      128
id       36000
x        36000
y        36000
dtype: int64 

id       7487
x        7502
y        7513
Index       0
dtype: int64 

Index     128
id       7483
x        7498
y        7509
dtype: int64

在熊猫中使用Arrow规范字符串dtype可以节省相当多的内存，并且通常与cuDF匹配。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73772464

复制

相似问题

问GPU与RAPIDS中CPU内存的使用
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GPU与RAPIDS中CPU内存的使用EN