文章/答案/技术大牛

发布

社区首页 >问答首页 >如何导航网站并使用Python提取数据

问如何导航网站并使用Python提取数据
EN

Stack Overflow用户

提问于 2015-12-06 17:29:11

回答 1查看 2.2K关注 0票数 1

我不是一个程序员。只是学习而已。我想使用Python从我国选举管理局提取(公开)选举数据。这是为了学术目的，但我也想发展我的编程技能。当然，我存储的所有数据都将公开发布。

我需要知道，哪些python模块允许我进入网站并阅读HTML来识别我需要收集的某些数据。我只是希望能得到一些关于如何做的指导，或者任何其他的建议。。

我希望为每一政党提取选票，并提供完全分解的额外数据:州/市/县/中心/表。最后，我希望将其存储在csv或xlsx中(我想我会使用openpyxl或xlsxwriter)。

我的想法是制作一个程序：

1)接收链路输入(例如：)；

2)它为HTML左侧的每个州(亚马逊、安索拉图伊等)确定链接；

3)循环遍历每个状态并找到url (它是一个HTML，所以我猜它会搜索和提取<a>标记，对吗？)对于每个国家；

4)与市政当局重复；

4)重复"Parroquia“(县)；

5)各投票中心重复；

6)最后，每个中心的每个投票表(1，2，3.-随便吧)；

7)接下来，它存储每个政党的结果(例如：手动按下每个候选人的名字，识别该党的徽标并存储其选票(示例中为30))。它还应该存储最后的“技术表”中的数据。

最终的结果应该是存储所有数据:州、市、县、中心、表以及每一方的结果。

data-extraction

html-content-extraction

python

extract

python-module

回答 1

Stack Overflow用户

发布于 2015-12-06 19:20:45

以下内容将有所帮助：

来自驱动程序的--用于设置一个新的webdriver到网站。( Chrome的版本运行得很好)

从selenium.webdriver.common.by导入-用于通过css选择器、标记名、id等选择html元素。

从selenium.webdriver.support.ui导入WebDriverWait --用于设置url加载的最小加载时间

从selenium.webdriver.support导入expected_conditions作为EC -设置预期条件，在等待url加载时采取行动。例如，一个条件可以等待直到加载了所有的<a>标记。

从selenium.webdriver.common.keys导入键-用于模拟按键或向HTML元素发送文本

从BeautifulSoup导入BeautifulSoup -用于通过下载的BeautifulSoup文档进行解析

导入re -以启用正则表达式的使用

导入xlwt -用于写入Microsoft工作簿

从xlutils.copy导入副本-用于创建Microsoft工作簿的副本

导入时间-用于在执行代码时设置暂停时间

导入xlrd -用于从Microsoft工作簿中读取

下载的包：

xlrd 0.9.4
xlutils 1.7.1
xlwt 1.0.0
BeautifulSoup 4.4.1
硒2.48.0

以上大部分内容都可以从python包索引下载。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34120411

复制

相似问题

问如何导航网站并使用Python提取数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何导航网站并使用Python提取数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何导航网站并使用Python提取数据
EN