我的大学有一个网站,在那里发布公告。我不能错过这些公告,同时,每天查看网站也有点麻烦。该网站没有RSS源。
公告发布在网页上,公告的URL格式如下:
http://example.com/news/detail/1/n其中n是公告ID,它是数字。
当有公告时,上述网页(例如http://example.com/news/detail/1/180)包含以下格式的公告:
<div class="middleconten">
<h3>
Title </h3>
11 October, 2019
<p>
<a href='/some/link' target='_blank'>Click here for more details</a>
</p>
</div>当没有公告时(例如,当用户访问一个带有n值的网页,该值与实际的公告ID http://example.com/news/detail/1/1234567890不对应时),该网页如下:
<div class="middleconten">
<h3>
</h3>
1 January, 1970
<p>
</p>
</div>如何为网站创建一个<h3>提要,以获取RSS值、href属性和日期?
发布于 2019-10-12 20:15:07
你需要定期在网站上搜索新的新闻。您可以使用goquery来提取数据。
想法很简单。您需要从1开始生成新闻部分的url (填写n的值)并访问每个url。如果您找到新闻(结构存在),则存储数据。url值加1得到下一个n,如果url中不包含新闻,则停止并存储上一条成功的新闻的number / ID的值。下次你可以从这个ID开始,而不是从头开始。
例如,我从1开始,我在ID32找到最后一个成功的消息。我把它保存在某个地方。下一次我可以从33开始,而不是1。
当您拥有从网站提取的数据的数据库时,您可以从这些数据库发布您自己的RSS提要。您可以使用诸如chi和gorilla feeds之类的路由器来创建rss feed。
https://stackoverflow.com/questions/58353505
复制相似问题