首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从阿帕奇·蒂卡开始吗?

从阿帕奇·蒂卡开始吗?
EN

Stack Overflow用户
提问于 2013-07-23 22:10:08
回答 1查看 3.9K关注 0票数 1

我想编写一个使用Apache Tika下载网页文本内容的Java web爬虫,但我是使用Apache项目的新手,而且我还没有找到明确的源代码来明确如何将Tika集成到程序中。根据我从互联网上收集到的信息,我已经在命令行中使用Maven构建了Tika,但是我不知道从哪里开始使用Tika类(?)比如我的Java程序中的Parser等等。我使用的是Eclipse,如果这有区别的话--我还为Eclipse安装了Maven插件,但我不太清楚如何处理it...Do,我需要一个“导入”。排队?请原谅我的“初学者”的问题,但一步一步的指南准备Tika将被使用将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-24 08:35:27

首先,您需要阅读Apache Tika入门指南,其中包括如何将Tika包含到您的项目中。(这假设您对将第三方jars包含到您自己的项目中有一些基本知识,如果不是,您将需要阅读有关这方面的一些教程)

在您的项目中开始使用Tika的最简单方法是通过Tika Facade类。这提供了一个单独的类,可以用于检测、解析纯文本字符串和通过读取器解析xhtml,所有这些都来自各种来源。所有的基本知识都可以在那里得到。

对于更高级的使用,您需要遵循解析器API页面内容检测页面上提供的信息。您也可以遵循关于使用AutoDetectParser进行解析的Tika示例,它应该做您可能想做的事情,否则浏览带有说明的Tika示例注释列表就能很好地了解如何开始!

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17821895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档