我想编写一个使用Apache Tika下载网页文本内容的Java web爬虫,但我是使用Apache项目的新手,而且我还没有找到明确的源代码来明确如何将Tika集成到程序中。根据我从互联网上收集到的信息,我已经在命令行中使用Maven构建了Tika,但是我不知道从哪里开始使用Tika类(?)比如我的Java程序中的Parser等等。我使用的是Eclipse,如果这有区别的话--我还为Eclipse安装了Maven插件,但我不太清楚如何处理it...Do,我需要一个“导入”。排队?请原谅我的“初学者”的问题,但一步一步的指南准备Tika将被使用将不胜感激。
发布于 2013-07-24 08:35:27
首先,您需要阅读Apache Tika入门指南,其中包括如何将Tika包含到您的项目中。(这假设您对将第三方jars包含到您自己的项目中有一些基本知识,如果不是,您将需要阅读有关这方面的一些教程)
在您的项目中开始使用Tika的最简单方法是通过Tika Facade类。这提供了一个单独的类,可以用于检测、解析纯文本字符串和通过读取器解析xhtml,所有这些都来自各种来源。所有的基本知识都可以在那里得到。
对于更高级的使用,您需要遵循解析器API页面和内容检测页面上提供的信息。您也可以遵循关于使用AutoDetectParser进行解析的Tika示例,它应该做您可能想做的事情,否则浏览带有说明的Tika示例注释列表就能很好地了解如何开始!
https://stackoverflow.com/questions/17821895
复制相似问题