文章/答案/技术大牛

发布

社区首页 >问答首页 >从阿帕奇·蒂卡开始吗？

问从阿帕奇·蒂卡开始吗？
EN

Stack Overflow用户

提问于 2013-07-23 22:10:08

回答 1查看 3.9K关注 0票数 1

我想编写一个使用Apache Tika下载网页文本内容的Java web爬虫，但我是使用Apache项目的新手，而且我还没有找到明确的源代码来明确如何将Tika集成到程序中。根据我从互联网上收集到的信息，我已经在命令行中使用Maven构建了Tika，但是我不知道从哪里开始使用Tika类(？)比如我的Java程序中的Parser等等。我使用的是Eclipse，如果这有区别的话--我还为Eclipse安装了Maven插件，但我不太清楚如何处理it...Do，我需要一个“导入”。排队？请原谅我的“初学者”的问题，但一步一步的指南准备Tika将被使用将不胜感激。

eclipse

apache

maven

apache-tika

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-24 08:35:27

首先，您需要阅读Apache Tika入门指南，其中包括如何将Tika包含到您的项目中。(这假设您对将第三方jars包含到您自己的项目中有一些基本知识，如果不是，您将需要阅读有关这方面的一些教程)

在您的项目中开始使用Tika的最简单方法是通过Tika Facade类。这提供了一个单独的类，可以用于检测、解析纯文本字符串和通过读取器解析xhtml，所有这些都来自各种来源。所有的基本知识都可以在那里得到。

对于更高级的使用，您需要遵循解析器API页面和内容检测页面上提供的信息。您也可以遵循关于使用AutoDetectParser进行解析的Tika示例，它应该做您可能想做的事情，否则浏览带有说明的Tika示例注释列表就能很好地了解如何开始！

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17821895

复制

相似问题

问从阿帕奇·蒂卡开始吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从阿帕奇·蒂卡开始吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从阿帕奇·蒂卡开始吗？
EN