我目前正在从事一个项目,其中涉及到找到某个关键词相关的“知识领域”。我计划用DMOZ来做这件事。例如,“布拉德皮特”给
Arts: People: P: Pitt, Brad: Fan Pages (10)
Arts: People: P: Pitt, Brad: Articles and Interviews (5)
Arts: People: P: Pitt, Brad (4)
Arts: People: P: Pitt, Brad: Image Galleries (2)
Arts: People: P: Pitt, Brad: Movies (2)等等..。
我有来自DMOZ网站的structure.rdf.u8转储。有人告诉我,如果我不需要URL,只需要这个文件就足够了(我不需要网站,只需要与关键字相关的类别)。还是我也需要内容文件?
此外,我想知道使用Python (任何库)解析结构文件的最佳方法。我对XML一无所知,尽管我对Python很在行。
发布于 2013-10-11 13:34:53
我从https://github.com/kremso/dmoz-parser开始,做了一个简单的主题过滤器:https://github.com/lawrencecreates/dmoz-parser/blob/master/sample.py#L6
class LawrenceFilter:
def __init__(self):
self._file = open("seeds.txt", 'w')
def page(self, page, content):
if page != None and page != "":
topic = content['topic']
if topic.find('United_States/Kansas/Localities/L/Lawrence') > 0 :
self._file.write(page + "\n")
print "found page %s in topic %s" % (page , topic)
def finish(self):
self._file.close()https://stackoverflow.com/questions/18044438
复制相似问题