我已经使用tika为一些pdf文件提取了文本,并将文本存储在文本文件中。现在我想使用opennlp块解析器解析这些文件,但是我无法解析这些文件行,因为其中包含一些特殊字符(一些方形类型的符号),文本文件中的单词到单词之间没有空格,示例行(无法显示那些方形类型的符号,变音符号)
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?所以我想把这些行作为
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation请建议我怎么做?
发布于 2013-07-23 16:23:08
使用"":line = line.replaceAll("^\\d{2}(\\.\\d)+ +", "").replaceAll(" +\\?$", "");
读取文件时,请使用以下各行中不需要的字符
这假定行开头的数字格式是dd(.d)*,其中d是一个数字,第一个数字之后的每个部分只有一个数字。否则,必须更改正则表达式以适合您的格式。
通过添加.replaceAll("[æ╚]", "");删除隐藏符号,将所有这些字符添加到方括号中。确保您有正确的编码。如果您使用"UTF-8“读取文件,则必须在编辑器中复制这些字符,您可以在编辑器中指定此文件为"UTF-8”。
发布于 2013-07-23 18:22:18
用空格替换所有非单词字符是否足够,或者至少在正确的方向上迈出了一步?
str = str.replaceAll("\\W+", " ");https://stackoverflow.com/questions/17803966
复制相似问题