文章/答案/技术大牛

发布

社区首页 >问答首页 >使用使用Jsoup.connect()或其他技术的网站，但这是否合法？

问使用使用Jsoup.connect()或其他技术的网站，但这是否合法？
EN

Stack Overflow用户

提问于 2017-05-13 06:33:52

回答 1查看 335关注 0票数 0

我从一个使用Jsoup.connect()的网站上获得当我们使用Jsoup或任何其他技术请求使用我们的代码安全时，这是有效的还是合法的？

。

我们试图使用Jsoup.connect(" URL ")或其他技术访问的url。这样url所有者就可以指控我们违反了任何类型的IT条款。

。

这是合法的访问任何类型的网络，如私有网络，社会网络，PSU网络，政府从我们的和平的代码，并利用他们的反应过度发展

。

谢谢。

web-crawler

jsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-13 09:03:59

在抓取网站之前，您必须先阅读该站点的robots.txt。你可以读的东西都有书面许可，不应该读。

关于/robots.txt

网站所有者使用/robots.txt文件向Web机器人提供有关其站点的说明；这称为机器人排除协议。

它的工作原理是这样的：http://www.example.com/welcome.html说，机器人想要查看网站网址。在这样做之前，它首先检查http://www.example.com/robots.txt，并发现：

User-agent: *
Disallow: /

“用户代理：*”表示本节适用于所有机器人。 “不允许: /”告诉机器人不应该访问站点上的任何页面。

在使用/robots.txt时有两个重要的注意事项：

机器人可以忽略你的/robots.txt。特别是扫描网络安全漏洞的恶意软件机器人，以及垃圾邮件发送者使用的电子邮件地址收割机将不予注意。
/robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器中的哪些部分。所以不要试图使用/robots.txt来隐藏信息。

关于/robots.txt的更多信息，您可以在这里找到/robots.txt

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43950013

复制

相似问题

问使用使用Jsoup.connect()或其他技术的网站，但这是否合法？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用使用Jsoup.connect()或其他技术的网站，但这是否合法？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用使用Jsoup.connect()或其他技术的网站，但这是否合法？
EN