首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >JSoup核心网页文本提取

JSoup核心网页文本提取
EN

Stack Overflow用户
提问于 2013-06-19 22:53:08
回答 1查看 977关注 0票数 1

我是JSoup的新手,如果我的问题太琐碎了,很抱歉。我试图从http://www.nytimes.com/中提取文章文本,但在打印解析文档时,在解析输出中看不到任何文章

代码语言:javascript
复制
public class App 
{

    public static void main( String[] args )
    {
        String url = "http://www.nytimes.com/";
        Document document;
        try {
            document = Jsoup.connect(url).get();

            System.out.println(document.html()); // Articles not getting printed
            //System.out.println(document.toString()); // Same here
            String title = document.title();
            System.out.println("title : " + title); // Title is fine

    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

} 

好的,我尝试解析"http://en.wikipedia.org/wiki/Big_data“来检索维基数据,这里也有同样的问题,我没有得到输出中的维基数据。任何帮助或提示都将不胜感激。

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-06-21 21:34:15

下面是如何获取所有<p class="summary>文本的方法:

代码语言:javascript
复制
final String url = "http://www.nytimes.com/";
Document doc = Jsoup.connect(url).get();

for( Element element : doc.select("p.summary") )
{
    if( element.hasText() ) // Skip those tags without text
    {
        System.out.println(element.text());
    }
}

如果你需要所有的<p>标签,而不需要任何过滤,你可以使用doc.select("p")。但在大多数情况下,最好只选择您需要的那些(参见here中的Jsoup Selector文档)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17194499

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档