我正在尝试用NLP做一个项目。我的目标是处理像这这样的网络威胁情报文章,以提取诸如演员姓名、恶意软件和使用…的工具等信息
为了做到这一点,我想用纳。然而,网络上没有培训数据。因此,我想知道我是否应该手动处理10-20篇文章来生成我的培训数据,或者我是否可以做一些事情,比如只使用一些有趣的行,比如在倍数文章中使用“Rancor conducted at least two rounds of attacks intending to install Derusbi or KHRat malware on victim systems”,并将组名替换为另一个参与者。这样,我就可以用已知演员的数量去复制我的训练数据。但这样做,只有演员的名字正在改变。所以,上下文总是一样的。
考虑到培训数据的数量,我想知道什么是最好的方法来训练我的模型?
发布于 2019-12-22 11:27:33
首先,我将在NER的可用数据集上训练一些非常强大的命名实体分类器。一个是在Kaggle上可用的用于命名实体识别的标注语料库。
此外,您还可以找到一个很好的数据集这里列表。我知道它们与网络安全无关,但我认为重要的是,在一个大的、最终的数据集中包含非常不同的来源,这样才能建立一个对以前从未见过的文本进行泛化的模型。
NER任务的另一个数据源是从nltk库获得的带注释的语料库,例如宾州树状银行数据集的自由部分和Brown语料库。
请注意,不同的数据集可能使用不同的类别进行分类(即命名实体的集合可能因数据集而异)。在进行培训之前,请确保所有数据与分类器兼容。
在那之后,我建议你使用seq2seq模型。每一种最先进的神经网络都是某种形式的seq2seq.一旦您训练了一个分类器,您就可以尝试手动注释几篇文章,并检查模型在这些文章上的性能。这很费时,但我个人喜欢这些“定性”检查,我认为它们可以告诉你很多。
https://datascience.stackexchange.com/questions/65272
复制相似问题