我目前有一个dataframe,其中一列是已经标记化的单词,另一列是标签:
token tag
1 I PRN
2 like VBD
3 apples NNP
4 . .
5 John PRN
6 likes VBD
7 pears NNP
8 . .我想在df中添加句子编号,通过添加一个额外的列:
token tag sentence #
1 I PRN sentence 1
2 like VBD sentence 1
3 apples NNP sentence 1
4 . . sentence 1
5 John PRN sentence 2
6 likes VBD sentence 2
7 pears NNP sentence 2
8 . . sentence 2我正在使用一个已经预标记化的人类注释数据集。我已经尝试过去标记化它,添加句子计数,然后重新标记化它;不幸的是,这给了我一个完全不同的标记数。此方法将导致标记列与标记列不对齐。
非常感谢!
发布于 2020-12-07 21:23:02
早上好,
如果您想要做的是在包含work和token的句子中添加内容,我建议您将主键引用添加到您正在进行解析的句子中。我很乐意提供更多的帮助,但除非我使用你用来获得令牌和标签的方法,否则我无法提供任何进一步的帮助。下面我给出了一种有条不紊的方法。您是否在使用自建方法/模块?您是否正在使用Sci-Kit learn中的包/模块来标记字符串?祝你有愉快的一天!
我的方法是:
F211
https://stackoverflow.com/questions/65182307
复制相似问题