当我从网站中抓取html表时,我想删除所有的\r\n\t引导和跟踪td.text内容。
以下是我的代码:
row.append(td.text.strip('\n').strip('\r').strip('\t').strip('"').strip().strip(':').strip(' '))如果没有条形函子,结果如下:
[['BP / Age',
': \r\n\r\n USA/ 2',
'FirstName',
':\r\n\t \t \r\n Walker\r\n\t \n\n']]对于条形函子,结果如下:
[['BP / Age',
': \r\n\r\n USA/ 2',
'FirstName',
':\r\n\t \t \r\n Walker']]我怎么能摆脱剩下的\r\n?
发布于 2017-07-10 12:02:40
别想逐渐脱光衣服。然后,您需要指定字符出现的确切顺序,这对于所有字符串来说都不太可能是相同的,并且顺序必须反映在前导部分和尾部部分。
你可以立刻脱光衣服:
row.append(td.text.strip('\n\r\t": '))演示:
>>> ':\r\n\t \t \r\n Walker\r\n\t \n\n'.strip('\n\r\t": ')
'Walker'https://stackoverflow.com/questions/45011465
复制相似问题