文章/答案/技术大牛

发布

社区首页 >问答首页 >在Java中解析结构化文档

问在Java中解析结构化文档
EN

Stack Overflow用户

提问于 2011-04-15 23:00:26

回答 2查看 852关注 0票数 2

我想用Java库将一些法律文档解析成代表标题、段落等的文本片段。法律文档通常结构良好，所以我想使用比JavaCC (或其他解析器生成器)更简单的东西。有没有允许(几乎)自动检测这样的结构的方法？

谢谢。

java

parsing

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-04-16 01:19:23

我认为没有工具可以“几乎自动”地提取这样的结构。如果提取结构真的很容易，你不需要任何工具，你可以很容易地自己编写代码。如果它不是那么简单，你需要一个足够强大的工具(JavaCC，ANTLR ...)。

我认为用自定义代码自己解析文本是最好的方法。也许可以提前阅读一些关于解析的知识(递归的得体，lexer/parser分离...)。对于简单的结构，快速得到一个有效的解决方案并不难。

票数 2

Stack Overflow用户

发布于 2011-04-16 02:57:36

Apache POI - Microsoft Documents Apache PDFBox的Java API - Java PDF库

更简单的是Apache Tika -一个内容分析工具包，使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

它内部使用pdfbox和poi。

用法: java tika- -jar -0.9.jar选项-t

将解析命令行上指定的文件并输出提取的文本内容

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5678632

复制

相似问题

问在Java中解析结构化文档
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中解析结构化文档EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中解析结构化文档
EN