首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用spacy 3构建标签

用spacy 3构建标签
EN

Stack Overflow用户
提问于 2021-09-27 19:28:29
回答 1查看 531关注 0票数 1

我想在葡萄牙语的SpaCy模型中添加更多的单词,这样我就可以使用特定领域的PoS (词性的一部分),但是我不想添加孤立的单词,而是添加句子。我做了这三个步骤:

https://spacy.io/usage/training#data):

  1. I将"PetroTok-UDPIPE.conllu“文件(在这里可以免费获得:http://petroles.ica.ele.puc-rio.br/,它位于"PetroTok”文件中,包含句子(而不是单独的单词)及其各自的PoS和引理)转换为二进制的"PetroTok-UDPIPE.spacy“文件,并使用以下命令(在SpaCy页面上指示):

代码语言:javascript
复制
python -m spacy convert PetroTok-UDPIPE.conllu .

这创建了"PetroTok-UDPIPE.spacy“文件。

然后,我创建了“https://spacy.io/usage/training#quickstart):”文件(如SpaCy页面:base_config.cfg中所示)。

将"train“和"dev”的值更改为:

代码语言:javascript
复制
train = "PetroTok-UDPIPE.spacy"
dev = "PetroTok-UDPIPE.spacy"

(在本例中,我正在考虑用于训练和验证的相同数据,只是用于测试)。

对于该文件,我使用以下命令行创建"config.cfg“文件(也在SpaCy页面:https://spacy.io/usage/training#quickstart中表示):

代码语言:javascript
复制
python -m spacy init fill-config base_config.cfg config.cfg

https://spacy.io/usage/training#quickstart):

  1. I应用以下命令创建模型(如SpaCy页面所示):

代码语言:javascript
复制
python -m spacy train config.cfg --output ./output

它打印以下输出:

...When测试一个简单的代码,在粘贴“输出”中加载创建的模型,它返回字符串".lemma_“和".pos_”的空列表:

代码语言:javascript
复制
lemma = ['', '']
pos = ['', '']

你能帮我找出隐式错误吗?我还有另一个问题,以这种方式创建的模型只使用"PetroTok-UDPIPE.conllu“文件创建,还是用葡萄牙语将元素合并到模型中(在本例中)?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2021-09-28 05:16:59

您的模型可能正在设置.tag_属性,而不是.pos_属性。

在官方模型中,所发生的事情是由模型学习特定于语言的标记(.tag_),然后AttributeRuler将它们映射到通用依赖标记(.pos_)。在默认情况下,快速启动并不会对其进行配置,因为有不同的方法来实现它,所以您只需要获得.tag_

I还有另一个问题,以这种方式创建的模型只使用"PetroTok.conllu“文件创建,还是用葡萄牙语将元素合并到模型中(在本例中)?

这个模型将从零开始学习,除非你告诉它不这样做。在没有其他数据的情况下对模型进行再培训很容易导致灾难性的遗忘,因此不推荐对两个数据集进行相同任务的不同标记集的培训,这听起来不可行。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69352275

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档