首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于提取信息(恶意软件名称)和过滤的java和nlp

用于提取信息(恶意软件名称)和过滤的java和nlp
EN

Stack Overflow用户
提问于 2017-07-27 21:03:01
回答 1查看 62关注 0票数 0

我一直在思考并致力于一种自制的算法,从数据集中提取恶意软件的名称。结果并不那么令人乐观。

我的数据集如下所示:

代码语言:javascript
复制
torrentlocker payment site
win32/somoto.e potentially unwanted
financial services;malicious sources/malnets;personal sites
tv/video streams;piracy/copyright concerns;entertainment;malicious     sources/malnets
locky;malware;dark;stealing;infected

我想要输出的内容是:

代码语言:javascript
复制
torrentlocker payment site -> torrentlocker
win32/somoto.e potentially unwanted -> win32/somoto.e
financial services;malicious sources/malnets;personal sites -> null 
tv/video streams;piracy/copyright concerns;entertainment;malicious sources/malnets -> null 
locky;malware;dark;stealing;infected -> locky

一般来说,我认为可行的方法是提取有意义的单词(版权、支付网站、不想要的……)。也许有一种简单的方法(比抓取在线词典更好)获得所有有意义的单词,然后将它们与我的数据进行比较?通过搜索,我发现NLP (自然语言处理)是一种方法。如果有更好的方法,我希望有一些建议,特别是我更喜欢使用Java。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-28 04:51:29

您所描述的内容称为命名实体识别(NER)。有几个可用于NER的开源库,例如斯坦福NLPs系统,可以在https://nlp.stanford.edu/software/CRF-NER.html找到。这也都是用Java实现的。

如果您可以组合一个相当大的训练集,您应该能够使用Stanford的NER实现来训练模型。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45351640

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档