我在scraperwiki上有一个非常简单的python脚本:
import scraperwiki
import lxml.html
html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html我还没有写任何东西来解析它...现在,我只需要html。
当我在编辑模式下运行它时,它工作得很好。
当计划的抓取运行(或者我手动运行)时,它会省略数十(甚至数百)行代码。
这是一个非常小的网页,所以数据过载应该不是问题。有什么想法吗?
发布于 2012-03-08 00:14:13
在编辑器中,单个打印语句被汇总到一行中以供显示。你可以点击“更多...”在控制台上的编辑器上查看全部内容。
当按计划运行时,它的输出与任何控制台中的输出完全相同。因此,如果HTML中有回车符,就会得到很多行的输出。
为了减少我们存储的输出量,我们从预定的运行中截断大的输出。这就是你看到"53行,159000个字符被省略“的地方。
实际上,计划运行中的stdout并不是用于调试以外的任何用途。您需要保存到要使用的输出的数据存储中。
发布于 2012-03-07 22:45:19
听起来数据就在您的变量中。尝试一次打印一行。
https://stackoverflow.com/questions/9603243
复制相似问题