文章/答案/技术大牛

发布

社区首页 >问答首页 >在抓取网页数据时无法删除\r\n\t？

问在抓取网页数据时无法删除\r\n\t？
EN

Stack Overflow用户

提问于 2017-07-10 12:00:19

回答 1查看 1.2K关注 0票数 2

当我从网站中抓取html表时，我想删除所有的\r\n\t引导和跟踪td.text内容。

以下是我的代码：

row.append(td.text.strip('\n').strip('\r').strip('\t').strip('"').strip().strip(':').strip(' '))

如果没有条形函子，结果如下：

[['BP / Age',
  ': \r\n\r\n           USA/ 2',
  'FirstName',
  ':\r\n\t    \t \r\n            Walker\r\n\t    \n\n']]

对于条形函子，结果如下：

[['BP / Age',
  ': \r\n\r\n           USA/ 2',
  'FirstName',
  ':\r\n\t    \t \r\n            Walker']]

我怎么能摆脱剩下的\r\n？

python

beautifulsoup

strip

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-10 12:02:40

别想逐渐脱光衣服。然后，您需要指定字符出现的确切顺序，这对于所有字符串来说都不太可能是相同的，并且顺序必须反映在前导部分和尾部部分。

你可以立刻脱光衣服：

row.append(td.text.strip('\n\r\t": '))

演示：

>>> ':\r\n\t    \t \r\n            Walker\r\n\t    \n\n'.strip('\n\r\t": ')
'Walker'

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45011465

复制

相似问题

问在抓取网页数据时无法删除\r\n\t？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在抓取网页数据时无法删除\r\n\t？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在抓取网页数据时无法删除\r\n\t？
EN