刚开始学蟒蛇。整个周末都花在这个项目上,但进展很糟糕。希望能从社区中得到一些指导。
我的部分教程要求我从谷歌金融页面中提取数据。https://www.google.com/finance。但只有部门汇总表。然后将它们组织到一个JSON转储中。
到目前为止,我要问的问题是:
1)如何仅从部门汇总表中提取数据?我可以使用find_all,但结果也包括其他表。
2)如何得到各行业的变化:(能源: 0.99%,基础材料: 0.31%,工业: 0.17%)。没有唯一的标签我可以使用。唯一的字符是这些数字在扇区名称下面。
发布于 2017-07-23 13:45:32
查看页面(使用View Source或浏览器的开发工具),我们知道一些事情:
div标记中唯一一个带有id=secperf (可能是“扇区性能”的缩写)的表。有很多方法可以解决这个问题。一种办法是:
def sector_summary(document):
table = document.find(id='secperf').find('table')
rows = table.find_all('tr', recursive=False)
for row in rows[1:]:
cells = row.find_all('td')
sector = cells[0].get_text().strip()
change = cells[1].get_text().strip()
yield (sector, change)
print(dict(sector_summary(my_document)))https://stackoverflow.com/questions/45265221
复制相似问题