首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用使用Jsoup.connect()或其他技术的网站,但这是否合法?

使用使用Jsoup.connect()或其他技术的网站,但这是否合法?
EN

Stack Overflow用户
提问于 2017-05-13 06:33:52
回答 1查看 335关注 0票数 0

我从一个使用Jsoup.connect()的网站上获得 当我们使用Jsoup或任何其他技术请求使用我们的代码安全时,这是有效的还是合法的?

我们试图使用Jsoup.connect(" URL ")或其他技术访问的url。这样url所有者就可以指控我们违反了任何类型的IT条款。

这是合法的访问任何类型的网络,如私有网络,社会网络,PSU网络,政府从我们的和平的代码,并利用他们的反应过度发展

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-13 09:03:59

在抓取网站之前,您必须先阅读该站点的robots.txt。你可以读的东西都有书面许可,不应该读。

关于/robots.txt

网站所有者使用/robots.txt文件向Web机器人提供有关其站点的说明;这称为机器人排除协议。

它的工作原理是这样的:http://www.example.com/welcome.html说,机器人想要查看网站网址。在这样做之前,它首先检查http://www.example.com/robots.txt,并发现:

代码语言:javascript
复制
User-agent: *
Disallow: /

“用户代理:*”表示本节适用于所有机器人。 “不允许: /”告诉机器人不应该访问站点上的任何页面。

在使用/robots.txt时有两个重要的注意事项:

  1. 机器人可以忽略你的/robots.txt。特别是扫描网络安全漏洞的恶意软件机器人,以及垃圾邮件发送者使用的电子邮件地址收割机将不予注意。
  2. /robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器中的哪些部分。所以不要试图使用/robots.txt来隐藏信息。

关于/robots.txt的更多信息,您可以在这里找到/robots.txt

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43950013

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档