首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >协助清理数据抓取输出

协助清理数据抓取输出
EN

Stack Overflow用户
提问于 2019-07-09 09:01:24
回答 1查看 35关注 0票数 0

我刚接触Python,我想知道清理代码输出的最好方法是什么。这就是我到目前为止所知道的:

代码语言:javascript
复制
# DNH KDR Checker

import time
import urllib.request
import csv
from datetime import datetime
from bs4 import BeautifulSoup

print("Please Enter SteamID64")
player = input()

dnh = 'https://pug.districtnine.host/profile?id=' + str(player)
page = urllib.request.urlopen(dnh)
soup = BeautifulSoup(page, 'html.parser')

kdr_value = soup.find(class_="col-md-3")

print(kdr_value.prettify())

当我输入一个Steam64ID (在本例中为76561198802827420)时,输出如下所示:

代码语言:javascript
复制
<div class="col-md-3">
 <h4>
  <i class="fas fa-crosshairs">
  </i>
  Kills: 1717
 </h4>
 <h4>
  <i class="fas fa-skull">
  </i>
  deaths:
  <strong>
   1462
  </strong>
  <br/>
 </h4>
 <h4>
  <i class="fas fa-dot-circle">
  </i>
  kdr: 1.17
  <br/>
 </h4>
</div>

但我希望它是这样的:

代码语言:javascript
复制
Kills: 1717
Deaths: 1462
KDR: 1.17
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-09 10:04:36

这很简单。要删除HTML标记,请使用BeautifulSoupget_text()函数。

在最后一行中,将print语句替换为:

代码语言:javascript
复制
print(kdr_value.get_text())

现在,您将获得如下输出:

代码语言:javascript
复制
Kills: 1717
deaths: 1462
kdr: 1.17
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56944144

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档