首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为数据帧中的标记化单词添加句子编号

如何为数据帧中的标记化单词添加句子编号
EN

Stack Overflow用户
提问于 2020-12-07 21:08:49
回答 1查看 23关注 0票数 0

我目前有一个dataframe,其中一列是已经标记化的单词,另一列是标签:

代码语言:javascript
复制
  token      tag
1    I        PRN
2    like     VBD
3    apples   NNP
4    .         .
5    John     PRN
6    likes    VBD
7    pears    NNP
8     .        .

我想在df中添加句子编号,通过添加一个额外的列:

代码语言:javascript
复制
  token      tag   sentence #
1    I        PRN  sentence 1
2    like     VBD  sentence 1
3    apples   NNP  sentence 1
4    .         .   sentence 1
5    John     PRN  sentence 2
6    likes    VBD  sentence 2
7    pears    NNP  sentence 2
8     .        .   sentence 2

我正在使用一个已经预标记化的人类注释数据集。我已经尝试过去标记化它,添加句子计数,然后重新标记化它;不幸的是,这给了我一个完全不同的标记数。此方法将导致标记列与标记列不对齐。

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-12-07 21:23:02

早上好,

如果您想要做的是在包含work和token的句子中添加内容,我建议您将主键引用添加到您正在进行解析的句子中。我很乐意提供更多的帮助,但除非我使用你用来获得令牌和标签的方法,否则我无法提供任何进一步的帮助。下面我给出了一种有条不紊的方法。您是否在使用自建方法/模块?您是否正在使用Sci-Kit learn中的包/模块来标记字符串?祝你有愉快的一天!

我的方法是:

  • Take the dataset
  • Clean the dataset
  • 为每个要标记的短语分配一个引用/GUID键
  • Run tokenizing
  • 在两个数据集上进行联接以创建所需的模型视图。

F211

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65182307

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档