我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是,有时我要找的字符串找不到。我不知道有什么问题问题出在data.find(text=re.compile('string to find'))上。网页总是在下载,但有时找不到字符串。我想问题可能出在加载页面的错误HTML格式上。有什么想法吗?from BeautifulSoup import BeautifulSoup as soup
from
我试图抓取所有的“以下”帐户信息(用户名,网站,最后的推文日期)的某个帐户。例如https://www.twitter.com/verified/following。正如你可能看到的,它有365.7K以下的用户名。 我抓取了用户名,现在我必须转到所有链接并抓取数据。代码运行良好,它获得了所需的所有信息,但在链接访问达到一定数量后,Twitter表示我超过了速率限制,并停止显示有关我访问的帐户的任何信息。 def get_user_info(user):
"""Gets User Info - Username, Website, Last Tweet Date