首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Java中解析结构化文档

在Java中解析结构化文档
EN

Stack Overflow用户
提问于 2011-04-15 23:00:26
回答 2查看 852关注 0票数 2

我想用Java库将一些法律文档解析成代表标题、段落等的文本片段。法律文档通常结构良好,所以我想使用比JavaCC (或其他解析器生成器)更简单的东西。有没有允许(几乎)自动检测这样的结构的方法?

谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-04-16 01:19:23

我认为没有工具可以“几乎自动”地提取这样的结构。如果提取结构真的很容易,你不需要任何工具,你可以很容易地自己编写代码。如果它不是那么简单,你需要一个足够强大的工具(JavaCC,ANTLR ...)。

我认为用自定义代码自己解析文本是最好的方法。也许可以提前阅读一些关于解析的知识(递归的得体,lexer/parser分离...)。对于简单的结构,快速得到一个有效的解决方案并不难。

票数 2
EN

Stack Overflow用户

发布于 2011-04-16 02:57:36

Apache POI - Microsoft Documents Apache PDFBox的Java API - Java PDF库

更简单的是Apache Tika -一个内容分析工具包,使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

它内部使用pdfbox和poi。

用法: java tika- -jar -0.9.jar选项-t

将解析命令行上指定的文件并输出提取的文本内容

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5678632

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档