文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是最好的方式来培养一个新的模式？

问什么是最好的方式来培养一个新的模式？
EN

Data Science用户

提问于 2019-12-22 10:57:07

回答 1查看 1.8K关注 0票数 1

我正在尝试用NLP做一个项目。我的目标是处理像这这样的网络威胁情报文章，以提取诸如演员姓名、恶意软件和使用…的工具等信息

为了做到这一点，我想用纳。然而，网络上没有培训数据。因此，我想知道我是否应该手动处理10-20篇文章来生成我的培训数据，或者我是否可以做一些事情，比如只使用一些有趣的行，比如在倍数文章中使用“Rancor conducted at least two rounds of attacks intending to install Derusbi or KHRat malware on victim systems”，并将组名替换为另一个参与者。这样，我就可以用已知演员的数量去复制我的训练数据。但这样做，只有演员的名字正在改变。所以，上下文总是一样的。

考虑到培训数据的数量，我想知道什么是最好的方法来训练我的模型？

named-entity-recognition

python

nlp

data

training

回答 1

Data Science用户

回答已采纳

发布于 2019-12-22 11:27:33

首先，我将在NER的可用数据集上训练一些非常强大的命名实体分类器。一个是在Kaggle上可用的用于命名实体识别的标注语料库。

此外，您还可以找到一个很好的数据集这里列表。我知道它们与网络安全无关，但我认为重要的是，在一个大的、最终的数据集中包含非常不同的来源，这样才能建立一个对以前从未见过的文本进行泛化的模型。

NER任务的另一个数据源是从nltk库获得的带注释的语料库，例如宾州树状银行数据集的自由部分和Brown语料库。

请注意，不同的数据集可能使用不同的类别进行分类(即命名实体的集合可能因数据集而异)。在进行培训之前，请确保所有数据与分类器兼容。

在那之后，我建议你使用seq2seq模型。每一种最先进的神经网络都是某种形式的seq2seq.一旦您训练了一个分类器，您就可以尝试手动注释几篇文章，并检查模型在这些文章上的性能。这很费时，但我个人喜欢这些“定性”检查，我认为它们可以告诉你很多。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/65272

复制

相似问题

问什么是最好的方式来培养一个新的模式？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最好的方式来培养一个新的模式？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最好的方式来培养一个新的模式？
EN