我正在尝试解析3到4种疾病的数量,这是我的大学项目所遵循的临床建议。
基本上,我想从https://www.uspreventiveservicestaskforce.org/BrowseRec/Index/browse-解析和导出到Excel的表头(名称,类型,年份,年龄组),然后填充它与疾病,但更重要的是,与链接内可用的信息(人口,建议,等级)。
我的想法是,我不知道如何解析链接中的信息-例如,以第一个链接疾病(腹主动脉瘤:筛查)为例,这是包含我需要的信息的页面- https://www.uspreventiveservicestaskforce.org/Page/Document/UpdateSummaryFinal/abdominal-aortic-aneurysm-screening
美汤是解决之道吗?我是一个新手,所以任何帮助都是非常感谢的。非常感谢!
发布于 2019-09-04 23:10:49
你要做的是
requests获取“疾病”页面,然后再次使用BeautifulSoup提取您感兴趣的数据<<代码>H19使用<代码>D10模块将这些数据写入.csv文件,该文件可由Excel (或任何其他类似程序,如OpenOffice等)打开。<代码>H211<代码>G212
所以在伪代码中:
get the index content
for each disease_url in the index content:
get the disease page content
retrieve data from the page content
write data to csv所有这些包都是rather well documented,所以在Python语言中实现它应该不会有太多问题。
https://stackoverflow.com/questions/57790986
复制相似问题