本视频演示了如何使用Prodigy(一款由spaCy开发团队打造的新一代、基于主动学习的标注工具)来训练一个针对新概念的短语识别系统。具体示例是使用来自Reddit的文本数据,训练一个能够检测文本中药物引用的模型。
展示了训练完成的模型在识别文本中药物实体(如“阿德拉”、“百忧解”、“大麻”等)的实际效果。可以看到模型能够成功从句子中找出并标记出这些药物名称。
介绍了所训练的命名实体识别(NER)模型的内部构成。该模型基于spaCy的实现,包含以下几个关键组件:
讲解了如何使用Prodigy的命令行配方(recipe)来启动标注和训练流程。核心命令是 prodigy ner.teach,它启动了一个主动学习循环:
展示了Prodigy提供的实时训练进度条和统计信息。用户可以直观地看到模型在训练集上的损失下降以及关键指标(如精确率、召回率)的变化趋势,这有助于判断模型是否在有效学习。
在完成一定数量的标注后,使用prodigy ner.batch-train命令在已标注的数据上对模型进行最终训练。训练完成后,可以将模型保存为一个独立的spaCy模型包,以便后续加载和使用。
最后,演示了如何在新数据上加载并评估训练好的模型,验证其在未见过的文本上的泛化能力。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。