Introducing spaCy v3.5 · Explosion
发布时间:2023年1月30日(3分钟阅读)
分类:博客 / spaCy / 基于规则的匹配 / 实体链接
spaCy自然语言处理库发布v3.5版本。该版本引入了三个新的CLI命令、增加了模糊匹配功能、改进了实体链接功能,并包含一系列语言更新和错误修复。
.txt、.jsonl 或 .spacy 文件spancat、textcat_multilabel 等组件的阈值范围,以找到最优值这些命令的使用示例详见CLI文档和v3.5使用说明。
新增 FUZZY 操作符,允许基于莱文斯坦编辑距离进行模糊匹配:
pattern = [{"LOWER": {"FUZZY": "definitely"}}]FUZZY 和 REGEX 操作符现在也支持用于列表的 IN 和 NOT_IN:
pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]实体链接器的知识库已重构以简化定制。KnowledgeBase 现在是一个抽象类,默认实现为新的 InMemoryLookupKB 类。
更多改进、更新和错误修复详见:v3.5使用说明 / v3.5.0发布说明。
自v3.4以来,spaCy宇宙和spaCy项目中添加了许多新插件、扩展、流水线和教程:
此外,spaCy团队为两个较新的组件添加了演示项目:
spancat演示项目原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。