文章/答案/技术大牛

发布

社区首页 >问答首页 >从JavaScript (Python Scraper)中提取数据

问从JavaScript (Python Scraper)中提取数据
EN

Stack Overflow用户

提问于 2011-01-28 14:28:46

回答 2查看 729关注 0票数 0

我目前正在使用urllib2、pyquery和json的融合来抓取站点，现在我发现我需要从JavaScript中提取一些数据。一种想法是使用JavaScript引擎(如V8)，但这似乎对我所需的东西过于苛刻。我会使用正则表达式，但是这个表达式似乎太复杂了。

JavaScript：

(function(){DOM.appendContent(this, HTML("<html>"));;})

我需要提取<html>，但我不完全确定如何做到这一点。<html>本身基本上可以包含所有字符，所以[^"]不能工作。

有什么想法吗？

javascript

python

regex

web-scraping

scraper

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-01-28 17:17:59

为什么使用正则表达式？你不能只使用两个子字符串，因为你知道你想要修剪多少个字符的开始和结束？

string[42:-7]

除了比正则表达式更快之外，<html>中的引号是否转义也无关紧要。

票数 2

Stack Overflow用户

发布于 2011-01-28 15:38:55

如果html代码中出现的每个"都可以使用\"进行转义(毕竟它是一个JavaScript字符串)，那么您可以使用

HTML\("((?:\\"|.)*?)"\)

将HTML的参数放入第一个捕获组。

请注意，此正则表达式尚未转义为Javascript字符串本身。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4825509

复制

相似问题

问从JavaScript (Python Scraper)中提取数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从JavaScript (Python Scraper)中提取数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从JavaScript (Python Scraper)中提取数据
EN