有许多分类广告以非HTML格式出现(纸张、文本、书面等),这些广告倾向于出售房屋、汽车、租赁、租赁、公寓等。例如,分类广告说,公寓租赁广告具有一些特征,如:大小、面积、位置、价格、联系信息。.etc
我的问题是如何提取广告所在或在前一篇文章中提到的街道地址(在文章/LOCALITY中提到的地址)?
使用NLTK和python有没有解决这个问题的方法?假设文章的源文件是普通文本文件(.txt)。
发布于 2013-08-26 20:22:28
如果源代码是.txt格式,那么正则表达式可能是最好的解决方案。我认为为所有任意类型的广告编写正则表达式并不容易(甚至不可能),但是你有的例子越多,你的搜索就会越好。
https://stackoverflow.com/questions/18442440
复制相似问题