我正试图编写一个程序,从.txt文件的每一行中提取urls,并执行一个PyQuery来从LyricsWiki中刮取歌词数据,在我实际将PyQuery内容放进去之前,一切看起来都很好。例如,当我这样做时:
full_lyrics = ""
#open up the input file
links = open('links.txt')
for line in links:
full_lyrics += line
print(full_lyrics)
links.close()它像预期的那样打印出所有内容,一个包含所有数据的大字符串。然而,当我实现实际的html解析时,它只从最后一个url中提取歌词,并跳过所有前面的url。
import requests, re, sqlite3
from pyquery import PyQuery
from collections import Counter
full_lyrics = ""
#open up the input file
links = open('links.txt')
output = open('web.txt', 'w')
output.truncate()
for line in links:
r = requests.get(line)
#create the PyQuery object and parse text
results = PyQuery(r.text)
results = results('div.lyricbox').remove('script').text()
full_lyrics += (results + " ")
output.write(full_lyrics)
links.close()
output.close()我写到一个txt文件,以避免编码问题的Powershell。无论如何,在运行程序并打开txt文件后,它只显示links.txt文档上最后一个链接的歌词。
作为参考,“links.txt”应该包含几个指向歌词页面的链接,如:Off 5:Animals
'web.txt‘应该是一个空白的输出文件。
为什么pyquery会中断for循环?当它做一些更简单的事情时,它显然会工作,比如只是连接文件的各个行。
发布于 2014-12-22 18:13:15
问题是从文件(links.txt)读取的每一行中都有额外的换行符。尝试在您的links.txt中打开另一行,您将看到即使是最后一个条目也不会被处理。
我建议您在for之后对行变量执行右带操作,如下所示:
for line in links:
line = line.rstrip()
r = requests.get(line)
...应该管用的。
我还认为,您不需要请求来获得html。试试results = PyQuery(line),看看它是否有效。
https://stackoverflow.com/questions/26670972
复制相似问题