首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用JSoup从网站源码中提取JavaScript行

使用JSoup从网站源码中提取JavaScript行
EN

Stack Overflow用户
提问于 2018-05-06 01:46:29
回答 1查看 73关注 0票数 0

我有一个网站上的JavaScript源码。

代码语言:javascript
复制
<script>"@context": "http://schema.org/","@type": "Product","name": "Shower head","image": "https://example.com/jpeg.png","description": "Hello stackoverflow","url": "link.com","offers": {"@type": "Offer","priceCurrency": "USD","price": "10.00","itemCondition": "http://schema.org/NewCondition","availability": "http://schema.org/InStock","url": "MyUrl.com","availableAtOrFrom": {"@type": "Place","name": "Geneva, NY","geo": {"@type": "GeoCoordinates","latitude": "42.8361","longitude": "-76.9874"}},"seller": {"@type": "Person","name": "Edward"}}}</script>

我尝试使用这段JSoup代码来提取"name": "Edward"的最后一行

代码语言:javascript
复制
public class JsoupCrawler {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("https://example.com").userAgent("mozilla/17.0").get();
            Elements temp = doc.select("script.name");
            int i=0;
            for (Element nameList:temp) {
              i++;
              System.out.println(i+  " "+ nameList.getElementsByTag(" ").first().text() );
            } 
        }  
        catch (IOException e) {
            ex.printStackTrace();  
        } 
    }
}

有人能帮我吗,还是不可能?

EN

回答 1

Stack Overflow用户

发布于 2018-05-06 16:32:25

JSoup正在解释HTML。<script>元素的内容包含JavaScript,因此JSoup无法解释<script>元素中的内容。

看起来好像<script>元素的内容是用JSON格式化的。因此,您可以使用JSoup获取<script>元素的内容,然后尝试将此字符串输入到JSON解释库中。如果你想深入了解这个问题,可以看看这里:How to parse JSON in Java

如果这是一次性的,并且您可以相信<script>元素的内容不会更改太多,那么您也可以使用正则表达式来获取所需的部分。但是,我建议使用JSON库。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50192368

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档