我计划启动一个分布式爬虫,以避免服务器/CDN施加的常见限制,如速率限制、区域筛选和其他限制。
我的想法是有一个中央服务器和多个代理将运行在不同的网络。这些代理将是SOCKS5服务器。中央服务器将循环执行代理池(SOCKS5服务器)中的请求,以访问源(网站)。
发布于 2020-01-01 21:06:53
原点是否能够检测到服务器IP?
除非socks服务器显式提供有关它的信息(比如添加X-Forwarded-For头),否则网站无法检测原始IP地址(您称之为“服务器”)。
我无法控制代理(SOCKS5服务器),这种连接有多安全?SOCKS5服务器的所有者能够看到我在做什么,甚至可以像MiTM攻击一样更改请求?
SOCKS5本身不提供任何安全性。如果这是一个普通的HTTP请求,SOCKS5服务器的操作符可以看到所有东西,甚至可以操作请求(比如添加一个X-Forwarded-For头)。如果这是HTTPS,并且您没有将MITM CA专门导入为受信任的或忽略证书错误,那么SOCKS运算符就无法修改通信量,最多只能修改您访问的域和IP以及某些流量模式。
像这样的东西已经存在了?
离题。但是这样的服务已经存在了。但请注意,如果您使用这样的服务(或使用您自己的服务)来违反网站的服务条款,这并不会使其更加合法。
https://security.stackexchange.com/questions/223526
复制相似问题