我试图为抽象的文本摘要任务建立一个转换器模型。我的数据集是CNN,我正在尝试将这些特征放到熊猫DataFrame上。
我的代码:
pip install tensorflow_datasets
import tensorflow_datasets as tfds
cnn_builder = tfds.summarization.cnn_dailymail.CnnDailymail()
cnn_info = cnn_builder.info
cnn_builder.download_and_prepare()
datasets = cnn_builder.as_dataset()
train_dataset, test_dataset = datasets["train"], datasets["test"]
reviews = pd.DataFrame({'Text':train_dataset['article'] ,'Summary':train_dataset['highlights'] })
reviews.head()但产出如下:
TypeError Traceback (most recent call last) <ipython-input-45-2da1e32d8eec> in <module>() ----> 1 reviews = pd.DataFrame({'Text':train_ds['article'] ,'Summary':train_ds['highlights'] }) 2 reviews.head() TypeError: 'PrefetchDataset' object is not subscriptable在修复代码之后,我得到了这个输出。你能帮我解决这个问题吗?
48岁的理查德·沃克尔(Richard McLuckie )和51岁的斯图尔特·麦肯齐-沃克( Stuart Mackenzie-Walker )发明了.\nWon允许马米特所有者联合利华( Unilever )使用其名字和形象( name and image .\nThen )的游戏。他们在投资电视节目中向“龙与龙”联合利华( Dragons .\nBut Unilever )的合同中索要资金,称企业家们不能提及马米特·巴纳龙退出的名字,但彼得·琼斯( Peter Jones )和邓肯·班纳廷( Duncan Bannatyne )同意,.\nThey向男子支付了35万美元,购买了他们40 %的棋盘游戏股份。“
发布于 2021-05-05 13:04:02
您可以使用as_dataframe方法。
reviews = tfds.as_dataframe(train_dataset.take(10))或者您可以迭代数据集以获得article和highlights。
highlights = []
articles = []
for article_highlight in train_dataset.take(10):
articles.append(article_highlight['article'].numpy())
highlights.append(article_highlight['highlights'].numpy())
reviews = pd.DataFrame({'Text':articles ,'Summary':highlights })(在您的例子中是),请注意train_dataset.take(10)将从dataset中获取10个元素。
https://stackoverflow.com/questions/67401277
复制相似问题