我使用以下代码:
import requests
import re
import pandas as pd
page = requests.get("http://portfoliodeagencias.meioemensagem.com.br/anuario/propaganda/agencias/listacompleta")
conteudo_pagina = page.content
string_conteudo_pagina = conteudo_pagina.decode("UTF-8")
lista_de_contato = {}
agencias = re.findall(r'<strong class=\"titu-nome-free\">(.*?)</strong></a></li>\n',str(string_conteudo_pagina))
i=0
while i < 10:
for nome in agencias:
if re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start() < re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start():
lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),re.findall(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina))
string_conteudo_pagina[re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start():]
i = i+1
else:
lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),'0'
string_conteudo_pagina[re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start():]
i = i+1
lista_de_contato我收到以下信息:
Your notebook size is close to the file size limit (19.5M). Large new outputs may be dropped. So far, 22.1M of output have been discarded.是否有办法使这段代码在大小限制方面更好?
tks
发布于 2018-01-29 02:19:45
您的笔记本超出了大小,而不是代码。
你的最后一行,lista_de_contato,就是把数据输出到笔记本上。
这使得笔记本很大,而不是你的代码。
作为一项建议,我会尽量限制展示。例如,如果您将数据存储在熊猫数据中,则显示将自动受限于您。我总是尝试整理熊猫数据收集中的数据,因为它们非常容易导出和篡改。
另外,如果你需要的话,我也是巴西人,而且可能会有帮助(我假设你也是巴西人,因为你在刮巴西的广告网站)
https://stackoverflow.com/questions/48036369
复制相似问题