首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用spacy-stanza模型高效地创建doc对象

使用spacy-stanza模型高效地创建doc对象
EN

Stack Overflow用户
提问于 2020-09-27 08:08:09
回答 1查看 706关注 0票数 0

根据SPACY的创建者,从文本列表创建文档对象的最有效方法如下

代码语言:javascript
复制
docs = list(nlp(texts))

其中:

nlp:经过训练的空间模型

texts:我们想要转换为doc对象的文本列表

docs:从列表文本派生的文档对象列表

但是,当我将此代码与spacy-stanza语言模型一起使用时,会收到一条错误消息:

代码语言:javascript
复制
AssertionError: If neither 'pretokenized' or 'no_ssplit' option is enabled, the input to the TokenizerProcessor must be a string.

你的建议是什么?

EN

回答 1

Stack Overflow用户

发布于 2020-09-27 11:23:16

stanza库对于批处理没有一个很好的解决方案,因此带有节模型的nlp.pipe()不会像spacy模型那样帮助性能。

stanza开发人员的唯一建议是使用"\n\n"来分离文本,将它们作为一个文本处理,然后处理将预测分割回单个文档的问题。在空间方面,如果您能够识别每个文档开始和结束的令牌索引,span.as_doc()可能会有所帮助,因此:

代码语言:javascript
复制
span = huge_doc[start_token_index:end_token_index]
single_doc = span.as_doc()

请注意,如果开始/结束索引位于解析的中间,而不是在句子边界,span.as_doc()将进行调整,以更改原始分析,从而使单个文档具有有效的解析。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64086254

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档