首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Pandas DataFrame中编辑Tensorflow数据集?

如何在Pandas DataFrame中编辑Tensorflow数据集?
EN

Stack Overflow用户
提问于 2021-05-05 12:26:53
回答 1查看 851关注 0票数 0

我试图为抽象的文本摘要任务建立一个转换器模型。我的数据集是CNN,我正在尝试将这些特征放到熊猫DataFrame上。

我的代码:

代码语言:javascript
复制
pip install tensorflow_datasets
import tensorflow_datasets as tfds

cnn_builder = tfds.summarization.cnn_dailymail.CnnDailymail()
cnn_info = cnn_builder.info
cnn_builder.download_and_prepare()
datasets = cnn_builder.as_dataset()
train_dataset, test_dataset = datasets["train"], datasets["test"]

reviews = pd.DataFrame({'Text':train_dataset['article'] ,'Summary':train_dataset['highlights'] }) 
reviews.head()

但产出如下:

代码语言:javascript
复制
TypeError Traceback (most recent call last) <ipython-input-45-2da1e32d8eec> in <module>() ----> 1 reviews = pd.DataFrame({'Text':train_ds['article'] ,'Summary':train_ds['highlights'] }) 2 reviews.head() TypeError: 'PrefetchDataset' object is not subscriptable

在修复代码之后,我得到了这个输出。你能帮我解决这个问题吗?

48岁的理查德·沃克尔(Richard McLuckie )和51岁的斯图尔特·麦肯齐-沃克( Stuart Mackenzie-Walker )发明了.\nWon允许马米特所有者联合利华( Unilever )使用其名字和形象( name and image .\nThen )的游戏。他们在投资电视节目中向“龙与龙”联合利华( Dragons .\nBut Unilever )的合同中索要资金,称企业家们不能提及马米特·巴纳龙退出的名字,但彼得·琼斯( Peter Jones )和邓肯·班纳廷( Duncan Bannatyne )同意,.\nThey向男子支付了35万美元,购买了他们40 %的棋盘游戏股份。“

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-05 13:04:02

您可以使用as_dataframe方法。

代码语言:javascript
复制
reviews = tfds.as_dataframe(train_dataset.take(10))

或者您可以迭代数据集以获得articlehighlights

代码语言:javascript
复制
highlights = []
articles = []

for article_highlight in train_dataset.take(10):
  articles.append(article_highlight['article'].numpy())
  highlights.append(article_highlight['highlights'].numpy())

reviews = pd.DataFrame({'Text':articles ,'Summary':highlights })

(在您的例子中是),请注意train_dataset.take(10)将从dataset中获取10个元素。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67401277

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档