有没有人用过维基百科的数据抽取?我需要在工作中使用它。
你能给出其他在网页上提取信息的工具吗?
谢谢!
发布于 2011-01-10 05:55:46
当您说Wikipedia数据提取时,我假设您指的是DBpedia用来将Wikipedia XML转储转换为DBpedia data dumps的software?您是否考虑过使用DBpedia转储本身?
从网页中提取信息的工具是一个非常广阔的领域。你想提取什么样的信息?它是来自半结构化(如表格),还是非结构化文本(如散文)。您是否对诸如页面标题和作者之类的元数据感兴趣,或者对诸如命名实体之类的低级概念感兴趣?
(我会在这个问题上留下这些澄清的问题,但我的帐户级别不允许这样做)
https://stackoverflow.com/questions/4175237
复制相似问题