我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。
我已经阅读了如何抓取最终结果内容/网页-但是如何以编程方式提交表单呢?
我正在使用python,并且已经读到我可能需要获取表单的原始网页,解析它,获取表单参数,然后执行X?
谁能给我指出正确的方向?
发布于 2008-12-26 13:25:55
您需要生成一个包含表单数据的HTTP请求。
表单将如下所示:
<form action="submit.php" method="POST"> ... </form>这告诉你请求的url是www.example.com/submit.php,你的请求应该是一篇帖子。
表单中将有几个输入项,例如:
<input type="text" name="itemnumber"> ... </input>您需要创建一个包含所有这些输入URL对的字符串,这些输入URL对被附加到您请求的name=value的末尾,现在它变成了www.example.com/submit.php?itemnumber=5234&otherinput=othervalue等……这将很好地用于GET。POST就有点棘手了。
</motivation>只要遵循S.Lott的链接,就可以获得一些更容易使用的库支持:P
发布于 2008-12-26 13:29:30
使用python,我认为需要执行以下步骤:
this explains form elements in html file
发布于 2008-12-26 13:45:29
从一个类似的问题- options-for-html-scraping -您可以了解到,在Python中您可以使用Beautiful Soup。
Beautiful Soup是一个Python HTML/XML解析器,专为屏幕抓取等快速周转项目而设计。它有三个强大的特性:
如果你给了
不同寻常的名字caught the attention of our host,2008年11月12日。
https://stackoverflow.com/questions/393738
复制相似问题