我使用Goose从不同的URL中提取标题和主要文本。除了一个具体的荷兰新闻网站外,它与大多数URL一起工作。知道这里出了什么问题吗?
特定的问题URL是这里。
我的代码:
g = Goose()
content_url = g.extract(url=url)
allcontent = content_url.cleaned_text
print allcontent我期待整篇文章,但奇怪的是,我只是从文章中随机得到以下段落。
Toerisme was een groot goed toen het een voorrecht was van de elite. Maar nu de massa in het voetspoor treedt van Floortje Dessing gaat het van kwaad tot erger. Het verplaatsen van mensen per cruiseboot of jumbojet is milieubelastend. Toeristen die de bloemetjes buiten zetten, veroorzaken geluidsoverlast in de kleine uurtjes. Toeristenplaatsen veranderen buiten het seizoen in spookoorden. En een bezoek aan de yakherders in Mongolië is een stuk minder interessant als blijkt dat de buren er twee maanden eerder ook waren geweest.发布于 2017-08-11 13:22:27
问题有两个原因:
解决方案取决于,如果您的目标是解析这个单一的站点,那么您最好使用漂亮汤、lxml、grab等模块来单独解析文本块并将它们合并在一起。如果你有数以百万计的网站可供爬行,你只需忍受鹅给你的是什么东西。
https://stackoverflow.com/questions/45635371
复制相似问题