问从网页解析纯文本
EN

Stack Overflow用户

提问于 2013-05-21 16:10:53

回答 1查看 325关注 0票数 1

这是我第一次在这个论坛上问问题，所以希望大家不要太严格。这个学期我一直在做项目，我决定让安卓应用程序能够解析来自网站的文章(不是一篇，而是很多篇)，并将其保存在文本文件或SQLite数据库中。我已经做了5个月了，我真的不知道如何才能从网页中获得特定的纯文本，而不会与特定的文章内容无关，比如adds等。通过这个论坛，我发现我如何能够使用Jsoup解析来自一个网站的数据(我在我的项目中使用了一个)。我认为它可能也适用于多个网站，但是由于许多网站使用不同的html标记来表示特定文章的内容，所以我找不到可以使用的任何公共参数。我不确定，但我想我在这个论坛上看到有人说过这样的事情是不可能的，但是接下来我们该如何解释Pocket(之前后来读过)、Instapaper等应用的存在。这些应用正在做我最终想要做的事情。所以有人能给我什么建议吗？谢谢。

android

parsing

回答 1

Stack Overflow用户

发布于 2013-05-23 05:52:43

我不确定它是否会显示整个故事，但下面是代码：

doc = Jsoup.connect("http://"+URLField.getText().toString()+"").get()；

                // get page title
                title = doc.title();
                doc = new Cleaner(Whitelist.none()).clean(doc);

在这里，我只是使用Jsoup库和它的Cleaner类，但是我得到了很多我不想出现的文本。我想发布图片，以明确(我想要的)，但这个论坛不让我这样做。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16674643

复制

相似问题

问从网页解析纯文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页解析纯文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页解析纯文本
EN