首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >cudf读取csv文件错误:字符串的总大小对于cudf列太大

cudf读取csv文件错误:字符串的总大小对于cudf列太大
EN

Stack Overflow用户
提问于 2021-09-04 18:07:20
回答 1查看 141关注 0票数 0

我使用colab并对一个巨大的csv文件(3 3GB,17540000条记录)运行cudf.read_csv(),但结果是错误的。

代码语言:javascript
复制
import cudf
import numpy as np
import pandas as pd
import csv
g_df = cudf.read_csv('drive/MyDrive/m1.csv',escapechar="\\")

错误消息是

代码语言:javascript
复制
RuntimeError                              Traceback (most recent call last)
<ipython-input-9-efc4c69ac697> in <module>()
----> 1 g_df = cudf.read_csv('drive/MyDrive/m1.csv',escapechar="\\")
      2 g_df.shape

1 frames
/usr/local/lib/python3.7/site-packages/cudf/io/csv.py in read_csv(filepath_or_buffer, lineterminator, quotechar, quoting, doublequote, header, mangle_dupe_cols, usecols, sep, delimiter, delim_whitespace, skipinitialspace, names, dtype, skipfooter, skiprows, dayfirst, compression, thousands, decimal, true_values, false_values, nrows, byte_range, skip_blank_lines, parse_dates, comment, na_values, keep_default_na, na_filter, prefix, index_col, **kwargs)
    100         na_filter=na_filter,
    101         prefix=prefix,
--> 102         index_col=index_col,
    103     )
    104 

cudf/_lib/csv.pyx in cudf._lib.csv.read_csv()

RuntimeError: cuDF failure at: ../include/cudf/strings/detail/strings_column_factories.cuh:75: total size of strings is too large for cudf column
EN

回答 1

Stack Overflow用户

发布于 2021-09-04 18:11:37

你可以用Pandas把你的CSV读成chucks我这里有一个样例How do I read a large csv file with pandas?

代码语言:javascript
复制
chunksize = 10 ** 6
with pd.read_csv(filename, chunksize=chunksize) as reader:
    for chunk in reader:
        process(chunk)

我建议你把它读到chuck中,如果你没有这样做,它需要非常高的内存,如果你在chuck中读,这样你可以节省很多内存。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69057830

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档