首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >顶点AI无法将数据导入数据集。它说最多100万行,而我的数据集只有600 k。

顶点AI无法将数据导入数据集。它说最多100万行,而我的数据集只有600 k。
EN

Stack Overflow用户
提问于 2021-11-25 10:19:25
回答 1查看 384关注 0票数 2

我正在将文本数据集导入到Google顶点AI,并得到以下错误:

代码语言:javascript
复制
Hello Vertex AI Customer,

Due to an error, Vertex AI was unable to import data into 
dataset [dataset_name].
Additional Details:
Operation State: Failed with errors
Resource Name: [resoure_link]
Error Messages: There are too many rows in the jsonl/csv file. Currently we 
only support 1000000 lines. Please cut your files to smaller size and run 
multiple import data pipelines to import.

我检查了我从熊猫生成的数据集和实际的CSV文件,它只有600 K行。

有人犯过类似的错误吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-09 05:19:20

所以这是我的CSV格式中的一个错误。

我忘了修剪文本数据集中的换行符和额外的空格。这就解决了100万行的计数问题。但是在这样做之后,我发现告诉我我有太多的标签,而它只有2,这是错误的。

代码语言:javascript
复制
Error Messages: There are too many AnnotationSpecs in the dataset. Up to 
5000 AnnotationSpecs are allowed in one Dataset.

这是因为我在中使用to_csv()方法创建了文本数据集。通过这种方式创建一个CSV文件,当你的文本只包含一个",“(逗号字符)时,它将自动放置引号。因此CSV文件看起来如下:

代码语言:javascript
复制
"this is a sentence, with a comma", 0
this is a sentence without a comma, 1

同时,顶点AutoML文本希望CSV看起来如下所示:

代码语言:javascript
复制
"this is a sentence, with a comma", 0
"this is a sentence without a comma", 1

也就是说,你必须在每一行上加引号。

这可以通过编写自己的CSV格式化程序来实现,或者如果您坚持使用Pandas to_csv(),则可以将csv.QUOTE_ALL传递给引用参数。它看起来是这样的:

代码语言:javascript
复制
import csv
df.to_csv("file.csv", index=False, quoting=csv.QUOTE_ALL, header=False)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70109346

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档