这是我第一次在这个论坛上问问题,所以希望大家不要太严格。这个学期我一直在做项目,我决定让安卓应用程序能够解析来自网站的文章(不是一篇,而是很多篇),并将其保存在文本文件或SQLite数据库中。我已经做了5个月了,我真的不知道如何才能从网页中获得特定的纯文本,而不会与特定的文章内容无关,比如adds等。通过这个论坛,我发现我如何能够使用Jsoup解析来自一个网站的数据(我在我的项目中使用了一个)。我认为它可能也适用于多个网站,但是由于许多网站使用不同的html标记来表示特定文章的内容,所以我找不到可以使用的任何公共参数。我不确定,但我想我在这个论坛上看到有人说过这样的事情是不可能的,但是接下来我们该如何解释Pocket(之前后来读过)、Instapaper等应用的存在。这些应用正在做我最终想要做的事情。所以有人能给我什么建议吗?谢谢。
发布于 2013-05-23 05:52:43
我不确定它是否会显示整个故事,但下面是代码:
doc = Jsoup.connect("http://"+URLField.getText().toString()+"").get();
// get page title
title = doc.title();
doc = new Cleaner(Whitelist.none()).clean(doc);在这里,我只是使用Jsoup库和它的Cleaner类,但是我得到了很多我不想出现的文本。我想发布图片,以明确(我想要的),但这个论坛不让我这样做。
https://stackoverflow.com/questions/16674643
复制相似问题