文章/答案/技术大牛

发布

社区首页 >问答首页 >如何为数据帧中的标记化单词添加句子编号

问如何为数据帧中的标记化单词添加句子编号
EN

Stack Overflow用户

提问于 2020-12-07 21:08:49

回答 1查看 23关注 0票数 0

我目前有一个dataframe，其中一列是已经标记化的单词，另一列是标签：

  token      tag
1    I        PRN
2    like     VBD
3    apples   NNP
4    .         .
5    John     PRN
6    likes    VBD
7    pears    NNP
8     .        .

我想在df中添加句子编号，通过添加一个额外的列：

  token      tag   sentence #
1    I        PRN  sentence 1
2    like     VBD  sentence 1
3    apples   NNP  sentence 1
4    .         .   sentence 1
5    John     PRN  sentence 2
6    likes    VBD  sentence 2
7    pears    NNP  sentence 2
8     .        .   sentence 2

我正在使用一个已经预标记化的人类注释数据集。我已经尝试过去标记化它，添加句子计数，然后重新标记化它；不幸的是，这给了我一个完全不同的标记数。此方法将导致标记列与标记列不对齐。

非常感谢!

python

pandas

nlp

回答 1

Stack Overflow用户

发布于 2020-12-07 21:23:02

早上好,

如果您想要做的是在包含work和token的句子中添加内容，我建议您将主键引用添加到您正在进行解析的句子中。我很乐意提供更多的帮助，但除非我使用你用来获得令牌和标签的方法，否则我无法提供任何进一步的帮助。下面我给出了一种有条不紊的方法。您是否在使用自建方法/模块？您是否正在使用Sci-Kit learn中的包/模块来标记字符串？祝你有愉快的一天！

我的方法是：

Take the dataset
Clean the dataset
为每个要标记的短语分配一个引用/GUID键
Run tokenizing
在两个数据集上进行联接以创建所需的模型视图。

F211

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65182307

复制

相似问题

问如何为数据帧中的标记化单词添加句子编号
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为数据帧中的标记化单词添加句子编号EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为数据帧中的标记化单词添加句子编号
EN