问无法使用boilerpipe解析“纽约时报”文章
EN

Stack Overflow用户

提问于 2015-02-19 12:29:40

回答 1查看 344关注 0票数 0

我试图从“纽约时报”网址得到新闻文章，但它没有提供任何输出，但如果我尝试任何其他报纸，它就会提供输出。我想知道我的代码是否出了问题，或者boiler导管无法获取它。另外，有时输出不是英语，意思是它在unicode中显示的主要是“每日新闻”，我也想知道原因。进口java.io.InputStream；进口java.net.URL；

import org.xml.sax.InputSource;

import de.l3s.boilerpipe.document.TextDocument;
import de.l3s.boilerpipe.extractors.ArticleExtractor;
import de.l3s.boilerpipe.extractors.DefaultExtractor;
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;

class ExtractData
{
    public static void main(final String[] args) throws Exception 
    {
        URL url;
        url = new URL(
                "http://www.nytimes.com/2013/03/02/nyregion/us-judges-offer-addicts-a-way-to-avoid-prison.html?hp&_r=0");

        // NOTE We ignore HTTP-based character encoding in this demo...
        final InputStream urlStream = url.openStream();
        final InputSource is = new InputSource(urlStream);
        final BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
        final TextDocument doc = in.getTextDocument();
        urlStream.close();

        // You have the choice between different Extractors

        //System.out.println(DefaultExtractor.INSTANCE.getText(doc));
        System.out.println(ArticleExtractor.INSTANCE.getText(doc));
    }
}

rss

boilerpipe

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-22 20:46:18

Nytimes.com有一个付费墙，它为您的请求返回HTTP 303，您可以尝试使用处理重定向和cookie。尝试其他用户代理字符串也可能有效。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28606469

复制

相似问题

问无法使用boilerpipe解析“纽约时报”文章
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法使用boilerpipe解析“纽约时报”文章EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法使用boilerpipe解析“纽约时报”文章
EN