首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何提取信息?

如何提取信息?
EN

Stack Overflow用户
提问于 2015-05-31 06:52:28
回答 2查看 301关注 0票数 0

目的:我正在尝试做一个关于自然语言处理(NLP)的项目,在那里我想提取信息并以图形形式表示它。

描述:

  1. 我正在考虑新闻文章作为我的项目的投入。
  2. 删除输入中不需要的数据&使其成为干净格式。
  3. 执行NLP &提取信息/知识
  4. 以图形格式表示信息/知识。

有可能吗?

EN

回答 2

Stack Overflow用户

发布于 2015-05-31 07:08:21

如果想使用nltk,可以启动这里。它对标记化、词性标注、语法分析等有一些解释。

检查此页面以获得使用nltk进行命名实体检测的示例。

图形表示可以使用艾格图matplotlib执行。

而且,scikit-learn有一个很好的文本特征提取方法,如果您想运行一些更复杂的模型。

票数 0
EN

Stack Overflow用户

发布于 2017-10-10 02:09:59

第一步是试着用铅笔亲手完成这项工作。试试看,不仅是一个,而是一个新闻故事集。你真的必须这样做,而不是仅仅想一想。绘制图形就像你想要的电脑一样。

这将迫使您创建关于信息如何转换为图形的规则。这并不总是可能的,所以用手去做是一个很好的测试。如果你不能这样做,那么你就不能编程一台电脑来完成它。

假设你找到了纸和铅笔的方法。我喜欢做的是反向工作。您的方法从文本开始。不是的。从绘制图形所需的数字开始。然后你想想这些数字在故事中的位置,我需要看什么词才能得到这些数字。你的工作现在更像是一次狩猎之旅,你知道数据在那里,但如何找到它。

很抱歉缺乏细节,但我不知道你的确切问题,但这在每一种情况下都有效。首先,学会在纸上自己做这项工作,然后从输出到输入进行反向工作。

如果你试图朝前向设计这个软件,你很快就会陷入困境,因为你不可能知道如何处理你的文本,因为你不知道你需要什么,这就像推一根绳子--它不起作用。去另一头拉绳子。先做图形工作,然后从新闻报道中提取所需的数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30554687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档