如何发现网站的提要URL?
当我抓取Microsoft's blog超文本标记语言时,我可以看到:
<link rel="alternate" type="application/rss+xml" title="Site Home (RSS 2.0)" href="http://blogs.technet.com/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Comments (RSS 2.0)" href="/members/B1ackD0g/comments/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Activities (RSS 2.0)" href="/members/B1ackD0g/activities/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="Activities of People B1ackD0g Follows (RSS 2.0)" href="/members/B1ackD0g/activities/followersrss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Groups Activities (RSS 2.0)" href="/members/B1ackD0g/activities/groupsrss.aspx" />
<link rel="alternate" type="application/rss+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (RSS 2.0)" href="http://blogs.technet.com/b/microsoft_blog/rss.aspx" />
<link rel="alternate" type="application/atom+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (Atom 1.0)" href="http://blogs.technet.com/b/microsoft_blog/atom.aspx" />这里我可以假设的是,我可以查找href以"http://blogs.technet.com/b/microsoft_blog/“开头的标记。
这是安全的假设吗?
我需要做的基本上是获取一个URL并返回它的提要URL。
发布于 2011-04-09 02:29:44
在不知道的情况下,没有安全的方法来假设网站的feed url是什么。在本例中,属性type的值似乎足以确定提要,但不能保证在示例之外设置该值。您可以尝试通过搜索包含RSS的链接的标记来猜测,甚至可以针对feedburner http://feeds.feedburner.com/somedomain之类的服务进行测试,但您仍然不能确定。
https://stackoverflow.com/questions/5599269
复制相似问题