首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从JavaScript (Python Scraper)中提取数据

从JavaScript (Python Scraper)中提取数据
EN

Stack Overflow用户
提问于 2011-01-28 14:28:46
回答 2查看 729关注 0票数 0

我目前正在使用urllib2、pyquery和json的融合来抓取站点,现在我发现我需要从JavaScript中提取一些数据。一种想法是使用JavaScript引擎(如V8),但这似乎对我所需的东西过于苛刻。我会使用正则表达式,但是这个表达式似乎太复杂了。

JavaScript:

代码语言:javascript
复制
(function(){DOM.appendContent(this, HTML("<html>"));;})

我需要提取<html>,但我不完全确定如何做到这一点。<html>本身基本上可以包含所有字符,所以[^"]不能工作。

有什么想法吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-01-28 17:17:59

为什么使用正则表达式?你不能只使用两个子字符串,因为你知道你想要修剪多少个字符的开始和结束?

代码语言:javascript
复制
string[42:-7]

除了比正则表达式更快之外,<html>中的引号是否转义也无关紧要。

票数 2
EN

Stack Overflow用户

发布于 2011-01-28 15:38:55

如果html代码中出现的每个"都可以使用\"进行转义(毕竟它是一个JavaScript字符串),那么您可以使用

代码语言:javascript
复制
HTML\("((?:\\"|.)*?)"\)

将HTML的参数放入第一个捕获组。

请注意,此正则表达式尚未转义为Javascript字符串本身。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4825509

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档