首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Java web搜索

Java web搜索
EN

Stack Overflow用户
提问于 2014-10-21 23:26:38
回答 1查看 129关注 0票数 0

我有这个谷歌搜索的代码:

代码语言:javascript
复制
    int num_risultati=15;
    String only="+filetype%3Ahtml+OR+filetype%3Ahtm+OR+filetype%3Axhtm+OR+filetype%3Axhtml"; 

    String google = "http://www.google.com/search?lr=lang_en&num="+num_risultati+"&q="+only;
    String search = "\"Java\" \"C\"";
    String charset = "UTF-8";
    String userAgent = "ExampleBot 1.0 (+http://example.com/bot)"; 

    Elements links = Jsoup.connect(google + URLEncoder.encode(search, charset)).userAgent(userAgent).get().select("li.g>h3>a");

    for (Element link : links) {
        String title = link.text();
        String url = link.absUrl("href"); // Google returns URLs in format "http://www.google.com/url?q=<url>&sa=U&ei=<someKey>".
        url = URLDecoder.decode(url.substring(url.indexOf('=') + 1, url.indexOf('&')), "UTF-8");

        //System.out.println(url);

        if (!url.startsWith("http")) {
            continue; // Ads/news/etc.
        }

        System.out.println("Title: " + title);
        System.out.println("URL: " + url);

        System.out.println();
    }

除了只搜索文件html,htm,xhtm,xhtml,我还会包括到维基百科的链接,也就是以"en.wikipedia.org“开头的链接。

如何将其添加到查询中?

我试过了,但不起作用:

代码语言:javascript
复制
 String only="+filetype%3Ahtml+OR+filetype%3Ahtm+OR+filetype%3Axhtm+OR+filetype%3Axhtml+OR+as_lq=en.wikipedia.org"
EN

回答 1

Stack Overflow用户

发布于 2014-10-21 23:48:30

您可以使用以下命令过滤带有特定域名的谷歌搜索,如en.wikipedia.org:

site:en.wikipedia.org

试试这个,而不是"as_lq=en.wikipedia.org“。此外,在站点筛选器之前,您可能不需要最后一个OR运算符。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26490472

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档