我不是一个程序员。只是学习而已。我想使用Python从我国选举管理局提取(公开)选举数据。这是为了学术目的,但我也想发展我的编程技能。当然,我存储的所有数据都将公开发布。
我需要知道,哪些python模块允许我进入网站并阅读HTML来识别我需要收集的某些数据。我只是希望能得到一些关于如何做的指导,或者任何其他的建议。。
我希望为每一政党提取选票,并提供完全分解的额外数据:州/市/县/中心/表。最后,我希望将其存储在csv或xlsx中(我想我会使用openpyxl或xlsxwriter)。
我的想法是制作一个程序:
1)接收链路输入(例如:);
2)它为HTML左侧的每个州(亚马逊、安索拉图伊等)确定链接;
3)循环遍历每个状态并找到url (它是一个HTML,所以我猜它会搜索和提取<a>标记,对吗?)对于每个国家;
4)与市政当局重复;
4)重复"Parroquia“(县);
5)各投票中心重复;
6)最后,每个中心的每个投票表(1,2,3.-随便吧);
7)接下来,它存储每个政党的结果(例如:手动按下每个候选人的名字,识别该党的徽标并存储其选票(示例中为30))。它还应该存储最后的“技术表”中的数据。
最终的结果应该是存储所有数据:州、市、县、中心、表以及每一方的结果。
发布于 2015-12-06 19:20:45
以下内容将有所帮助:
来自驱动程序的--用于设置一个新的webdriver到网站。( Chrome的版本运行得很好)
从selenium.webdriver.common.by导入-用于通过css选择器、标记名、id等选择html元素。
从selenium.webdriver.support.ui导入WebDriverWait --用于设置url加载的最小加载时间
从selenium.webdriver.support导入expected_conditions作为EC -设置预期条件,在等待url加载时采取行动。例如,一个条件可以等待直到加载了所有的<a>标记。
从selenium.webdriver.common.keys导入键-用于模拟按键或向HTML元素发送文本
从BeautifulSoup导入BeautifulSoup -用于通过下载的BeautifulSoup文档进行解析
导入re -以启用正则表达式的使用
导入xlwt -用于写入Microsoft工作簿
从xlutils.copy导入副本-用于创建Microsoft工作簿的副本
导入时间-用于在执行代码时设置暂停时间
导入xlrd -用于从Microsoft工作簿中读取
下载的包:
以上大部分内容都可以从python包索引下载。
https://stackoverflow.com/questions/34120411
复制相似问题