文章/答案/技术大牛

发布

社区首页 >问答首页 >删除文件行中除空格以外的所有特殊字符

问删除文件行中除空格以外的所有特殊字符
EN

Stack Overflow用户

提问于 2013-07-23 15:29:47

回答 2查看 2.9K关注 0票数 0

我已经使用tika为一些pdf文件提取了文本，并将文本存储在文本文件中。现在我想使用opennlp块解析器解析这些文件，但是我无法解析这些文件行，因为其中包含一些特殊字符(一些方形类型的符号)，文本文件中的单词到单词之间没有空格，示例行(无法显示那些方形类型的符号，变音符号)

51.2.3  Troubleshooting DHCP Configuration  ?
62  Module 3: Point-to-Point Protocol (PPP) ?
62.1    Configuring HDLC Encapsulation  ?

所以我想把这些行作为

Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation

请建议我怎么做？

apache-tika

opennlp

java

file

回答 2

Stack Overflow用户

发布于 2013-07-23 16:23:08

使用""：line = line.replaceAll("^\\d{2}(\\.\\d)+ +", "").replaceAll(" +\\?$", "");

Write line by line.

Replace

FileWriter.

读取文件时，请使用以下各行中不需要的字符

这假定行开头的数字格式是dd(.d)*，其中d是一个数字，第一个数字之后的每个部分只有一个数字。否则，必须更改正则表达式以适合您的格式。

通过添加.replaceAll("[æ╚]", "");删除隐藏符号，将所有这些字符添加到方括号中。确保您有正确的编码。如果您使用"UTF-8“读取文件，则必须在编辑器中复制这些字符，您可以在编辑器中指定此文件为"UTF-8”。

票数 0

Stack Overflow用户

发布于 2013-07-23 18:22:18

用空格替换所有非单词字符是否足够，或者至少在正确的方向上迈出了一步？

str = str.replaceAll("\\W+", " ");

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17803966

复制

相似问题

问删除文件行中除空格以外的所有特殊字符
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除文件行中除空格以外的所有特殊字符EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除文件行中除空格以外的所有特殊字符
EN