超链接“目标”标签
如何从HWPF文档中提取超链接?我可以从doc文件中获取段落,并在必要时提取正确的样式,例如粗体、斜体等。但是如何识别和提取段落中的超链接?
发布于 2011-12-01 18:47:47
正如您已经注意到的,.doc格式并不以最简单的方式存储超链接……
超链接将是带有特殊标记的单个CharacterRun。一旦你检测到它,只需根据引号拆分文本。
在Apache Tika中有一个很好的例子,看看WordExtractor的handleSpecialCharacterRuns方法就知道了。
https://stackoverflow.com/questions/8338876
复制相似问题