文章/答案/技术大牛

发布

社区首页 >问答首页 >用Python解析用于类别查询的DMOZ转储

问用Python解析用于类别查询的DMOZ转储
EN

Stack Overflow用户

提问于 2013-08-04 15:16:40

回答 1查看 835关注 0票数 2

我目前正在从事一个项目，其中涉及到找到某个关键词相关的“知识领域”。我计划用DMOZ来做这件事。例如，“布拉德皮特”给

Arts: People: P: Pitt, Brad: Fan Pages (10)

Arts: People: P: Pitt, Brad: Articles and Interviews (5)

Arts: People: P: Pitt, Brad (4)

Arts: People: P: Pitt, Brad: Image Galleries (2)

Arts: People: P: Pitt, Brad: Movies (2)

等等..。

我有来自DMOZ网站的structure.rdf.u8转储。有人告诉我，如果我不需要URL，只需要这个文件就足够了(我不需要网站，只需要与关键字相关的类别)。还是我也需要内容文件？

此外，我想知道使用Python (任何库)解析结构文件的最佳方法。我对XML一无所知，尽管我对Python很在行。

python

xml

parsing

ontology

dmoz

回答 1

Stack Overflow用户

发布于 2013-10-11 13:34:53

我从https://github.com/kremso/dmoz-parser开始，做了一个简单的主题过滤器：https://github.com/lawrencecreates/dmoz-parser/blob/master/sample.py#L6

class LawrenceFilter:
  def __init__(self):
    self._file = open("seeds.txt", 'w')

  def page(self, page, content):
      if page != None and page != "":
          topic = content['topic']
          if topic.find('United_States/Kansas/Localities/L/Lawrence') > 0 :
              self._file.write(page + "\n")
              print "found page %s in topic %s" % (page , topic)

  def finish(self):
    self._file.close()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18044438

复制

相似问题

问用Python解析用于类别查询的DMOZ转储
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python解析用于类别查询的DMOZ转储EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python解析用于类别查询的DMOZ转储
EN