根据SPACY的创建者,从文本列表创建文档对象的最有效方法如下
docs = list(nlp(texts))其中:
nlp:经过训练的空间模型
texts:我们想要转换为doc对象的文本列表
docs:从列表文本派生的文档对象列表
但是,当我将此代码与spacy-stanza语言模型一起使用时,会收到一条错误消息:
AssertionError: If neither 'pretokenized' or 'no_ssplit' option is enabled, the input to the TokenizerProcessor must be a string.你的建议是什么?
发布于 2020-09-27 11:23:16
stanza库对于批处理没有一个很好的解决方案,因此带有节模型的nlp.pipe()不会像spacy模型那样帮助性能。
stanza开发人员的唯一建议是使用"\n\n"来分离文本,将它们作为一个文本处理,然后处理将预测分割回单个文档的问题。在空间方面,如果您能够识别每个文档开始和结束的令牌索引,span.as_doc()可能会有所帮助,因此:
span = huge_doc[start_token_index:end_token_index]
single_doc = span.as_doc()请注意,如果开始/结束索引位于解析的中间,而不是在句子边界,span.as_doc()将进行调整,以更改原始分析,从而使单个文档具有有效的解析。
https://stackoverflow.com/questions/64086254
复制相似问题