首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何导航网站并使用Python提取数据

如何导航网站并使用Python提取数据
EN

Stack Overflow用户
提问于 2015-12-06 17:29:11
回答 1查看 2.2K关注 0票数 1

我不是一个程序员。只是学习而已。我想使用Python从我国选举管理局提取(公开)选举数据。这是为了学术目的,但我也想发展我的编程技能。当然,我存储的所有数据都将公开发布。

我需要知道,哪些python模块允许我进入网站并阅读HTML来识别我需要收集的某些数据。我只是希望能得到一些关于如何做的指导,或者任何其他的建议。

我希望为每一政党提取选票,并提供完全分解的额外数据:州/市/县/中心/表。最后,我希望将其存储在csv或xlsx中(我想我会使用openpyxlxlsxwriter)。

我的想法是制作一个程序:

1)接收链路输入(例如:);

2)它为HTML左侧的每个州(亚马逊、安索拉图伊等)确定链接;

3)循环遍历每个状态并找到url (它是一个HTML,所以我猜它会搜索和提取<a>标记,对吗?)对于每个国家;

4)与市政当局重复;

4)重复"Parroquia“(县);

5)各投票中心重复;

6)最后,每个中心的每个投票表(1,2,3.-随便吧);

7)接下来,它存储每个政党的结果(例如:手动按下每个候选人的名字,识别该党的徽标并存储其选票(示例中为30))。它还应该存储最后的“技术表”中的数据。

最终的结果应该是存储所有数据:州、市、县、中心、表以及每一方的结果。

EN

回答 1

Stack Overflow用户

发布于 2015-12-06 19:20:45

以下内容将有所帮助:

来自驱动程序的--用于设置一个新的webdriver到网站。( Chrome的版本运行得很好)

从selenium.webdriver.common.by导入-用于通过css选择器、标记名、id等选择html元素。

从selenium.webdriver.support.ui导入WebDriverWait --用于设置url加载的最小加载时间

从selenium.webdriver.support导入expected_conditions作为EC -设置预期条件,在等待url加载时采取行动。例如,一个条件可以等待直到加载了所有的<a>标记。

从selenium.webdriver.common.keys导入键-用于模拟按键或向HTML元素发送文本

从BeautifulSoup导入BeautifulSoup -用于通过下载的BeautifulSoup文档进行解析

导入re -以启用正则表达式的使用

导入xlwt -用于写入Microsoft工作簿

从xlutils.copy导入副本-用于创建Microsoft工作簿的副本

导入时间-用于在执行代码时设置暂停时间

导入xlrd -用于从Microsoft工作簿中读取

下载的包:

  1. xlrd 0.9.4
  2. xlutils 1.7.1
  3. xlwt 1.0.0
  4. BeautifulSoup 4.4.1
  5. 硒2.48.0

以上大部分内容都可以从python包索引下载。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34120411

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档