文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么scraperwiki会省略抓取的html中的行？

问为什么scraperwiki会省略抓取的html中的行？
EN

Stack Overflow用户

提问于 2012-03-07 22:25:54

回答 2查看 108关注 0票数 1

我在scraperwiki上有一个非常简单的python脚本：

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

我还没有写任何东西来解析它...现在，我只需要html。

当我在编辑模式下运行它时，它工作得很好。

当计划的抓取运行(或者我手动运行)时，它会省略数十(甚至数百)行代码。

这是一个非常小的网页，所以数据过载应该不是问题。有什么想法吗？

python

html

lxml

scraperwiki

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-03-08 00:14:13

在编辑器中，单个打印语句被汇总到一行中以供显示。你可以点击“更多...”在控制台上的编辑器上查看全部内容。

当按计划运行时，它的输出与任何控制台中的输出完全相同。因此，如果HTML中有回车符，就会得到很多行的输出。

为了减少我们存储的输出量，我们从预定的运行中截断大的输出。这就是你看到"53行，159000个字符被省略“的地方。

实际上，计划运行中的stdout并不是用于调试以外的任何用途。您需要保存到要使用的输出的数据存储中。

票数 0

Stack Overflow用户

发布于 2012-03-07 22:45:19

听起来数据就在您的变量中。尝试一次打印一行。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9603243

复制

相似问题

问为什么scraperwiki会省略抓取的html中的行？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么scraperwiki会省略抓取的html中的行？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么scraperwiki会省略抓取的html中的行？
EN