我想用Java库将一些法律文档解析成代表标题、段落等的文本片段。法律文档通常结构良好,所以我想使用比JavaCC (或其他解析器生成器)更简单的东西。有没有允许(几乎)自动检测这样的结构的方法?
谢谢。
发布于 2011-04-16 01:19:23
我认为没有工具可以“几乎自动”地提取这样的结构。如果提取结构真的很容易,你不需要任何工具,你可以很容易地自己编写代码。如果它不是那么简单,你需要一个足够强大的工具(JavaCC,ANTLR ...)。
我认为用自定义代码自己解析文本是最好的方法。也许可以提前阅读一些关于解析的知识(递归的得体,lexer/parser分离...)。对于简单的结构,快速得到一个有效的解决方案并不难。
发布于 2011-04-16 02:57:36
Apache POI - Microsoft Documents Apache PDFBox的Java API - Java PDF库
更简单的是Apache Tika -一个内容分析工具包,使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。
它内部使用pdfbox和poi。
用法: java tika- -jar -0.9.jar选项-t
将解析命令行上指定的文件并输出提取的文本内容
https://stackoverflow.com/questions/5678632
复制相似问题