文章/答案/技术大牛

发布

社区首页 >问答首页 >使用spacy-stanza模型高效地创建doc对象

问使用spacy-stanza模型高效地创建doc对象
EN

Stack Overflow用户

提问于 2020-09-27 08:08:09

回答 1查看 706关注 0票数 0

根据SPACY的创建者，从文本列表创建文档对象的最有效方法如下

docs = list(nlp(texts))

其中：

nlp：经过训练的空间模型

texts：我们想要转换为doc对象的文本列表

docs：从列表文本派生的文档对象列表

但是，当我将此代码与spacy-stanza语言模型一起使用时，会收到一条错误消息：

AssertionError: If neither 'pretokenized' or 'no_ssplit' option is enabled, the input to the TokenizerProcessor must be a string.

你的建议是什么？

python

spacy

回答 1

Stack Overflow用户

发布于 2020-09-27 11:23:16

stanza库对于批处理没有一个很好的解决方案，因此带有节模型的nlp.pipe()不会像spacy模型那样帮助性能。

stanza开发人员的唯一建议是使用"\n\n"来分离文本，将它们作为一个文本处理，然后处理将预测分割回单个文档的问题。在空间方面，如果您能够识别每个文档开始和结束的令牌索引，span.as_doc()可能会有所帮助，因此：

span = huge_doc[start_token_index:end_token_index]
single_doc = span.as_doc()

请注意，如果开始/结束索引位于解析的中间，而不是在句子边界，span.as_doc()将进行调整，以更改原始分析，从而使单个文档具有有效的解析。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64086254

复制

相似问题

问使用spacy-stanza模型高效地创建doc对象
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用spacy-stanza模型高效地创建doc对象EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用spacy-stanza模型高效地创建doc对象
EN