我可以知道如何使用Tika在网页中提取表格形式的信息,如数字吗?为此,Tika有解析器吗?
谢谢
发布于 2012-08-16 14:21:33
你可以在tika中提取网页。为此,您可以使用apache-tika's HTMLParser。你会得到你需要的一切here
你也可以使用autodetect content type and extract content的AutoDetectParser。AutoDetectParser可以检测任何类型的文件/url,并将应用提取。
我可以知道如何使用Tika在网页中提取表格形式的信息,如数字吗?
--> tika提取的内容类似于raw文本。我不认为你会以表格的形式得到它。
https://stackoverflow.com/questions/11981658
复制相似问题