我正在尝试使用MATLAB中的urlread()函数来抓取一个网页,尽管我遇到了一个我以前从未见过的问题。当我运行代码时
X = urlread('http://espn.go.com/mens-college-basketball/schedule/_/date/20141114');
我知道错误了
Error using urlreadwrite (line 92) The server did not find a resource to match this request.
Error in urlread (line 36) [s,status] = urlreadwrite(mfilename,catchErrors,url,varargin{:});
当我试图访问浏览器(/date/20141114)上的链接时,访问该页面没有问题。有人能解决这个问题吗?
发布于 2015-11-12 22:55:39
该站点似乎正在阻止http请求中的默认MATLAB Rxxxxx用户代理参数。
假装用户代理似乎可以绕过这个限制:
x = urlread('http://espn.go.com/mens-college-basketball/schedule/_/date/20141114', 'UserAgent', 'Mozilla/5.0');发布于 2015-11-14 17:21:46
这对我没什么用,但这个确实有效。
URL = 'http://espn.go.com/mens-college-basketball/schedule/_/date/20141114';
str = urlread(URL,'Get',{'term','urlread'});发布于 2015-11-14 17:26:18
尽管我认为r和Python对于web抓取练习来说要好得多。
这是一个很好的R脚本。
library(rvest)
rawhtml <- read_html("http://espn.go.com/mens-college-basketball/schedule/_/date/20141114")
rvested <- rawhtml %>%
html_nodes("table") %>%
html_table(fill = TRUE) %>%
.[[1]]https://stackoverflow.com/questions/33682063
复制相似问题