首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是最好的方式来培养一个新的模式?

什么是最好的方式来培养一个新的模式?
EN

Data Science用户
提问于 2019-12-22 10:57:07
回答 1查看 1.8K关注 0票数 1

我正在尝试用NLP做一个项目。我的目标是处理像这样的网络威胁情报文章,以提取诸如演员姓名、恶意软件和使用…的工具等信息

为了做到这一点,我想用纳。然而,网络上没有培训数据。因此,我想知道我是否应该手动处理10-20篇文章来生成我的培训数据,或者我是否可以做一些事情,比如只使用一些有趣的行,比如在倍数文章中使用“Rancor conducted at least two rounds of attacks intending to install Derusbi or KHRat malware on victim systems”,并将组名替换为另一个参与者。这样,我就可以用已知演员的数量去复制我的训练数据。但这样做,只有演员的名字正在改变。所以,上下文总是一样的。

考虑到培训数据的数量,我想知道什么是最好的方法来训练我的模型?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-12-22 11:27:33

首先,我将在NER的可用数据集上训练一些非常强大的命名实体分类器。一个是在Kaggle上可用的用于命名实体识别的标注语料库

此外,您还可以找到一个很好的数据集这里列表。我知道它们与网络安全无关,但我认为重要的是,在一个大的、最终的数据集中包含非常不同的来源,这样才能建立一个对以前从未见过的文本进行泛化的模型。

NER任务的另一个数据源是从nltk库获得的带注释的语料库,例如宾州树状银行数据集的自由部分和Brown语料库。

请注意,不同的数据集可能使用不同的类别进行分类(即命名实体的集合可能因数据集而异)。在进行培训之前,请确保所有数据与分类器兼容。

在那之后,我建议你使用seq2seq模型。每一种最先进的神经网络都是某种形式的seq2seq.一旦您训练了一个分类器,您就可以尝试手动注释几篇文章,并检查模型在这些文章上的性能。这很费时,但我个人喜欢这些“定性”检查,我认为它们可以告诉你很多。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档