首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除文件行中除空格以外的所有特殊字符

删除文件行中除空格以外的所有特殊字符
EN

Stack Overflow用户
提问于 2013-07-23 15:29:47
回答 2查看 2.9K关注 0票数 0

我已经使用tika为一些pdf文件提取了文本,并将文本存储在文本文件中。现在我想使用opennlp块解析器解析这些文件,但是我无法解析这些文件行,因为其中包含一些特殊字符(一些方形类型的符号),文本文件中的单词到单词之间没有空格,示例行(无法显示那些方形类型的符号,变音符号)

代码语言:javascript
复制
51.2.3  Troubleshooting DHCP Configuration  ?
62  Module 3: Point-to-Point Protocol (PPP) ?
62.1    Configuring HDLC Encapsulation  ?

所以我想把这些行作为

代码语言:javascript
复制
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation

请建议我怎么做?

EN

回答 2

Stack Overflow用户

发布于 2013-07-23 16:23:08

使用"":line = line.replaceAll("^\\d{2}(\\.\\d)+ +", "").replaceAll(" +\\?$", "");

  • Replace

  • FileWriter.

读取文件时,请使用以下各行中不需要的字符

这假定行开头的数字格式是dd(.d)*,其中d是一个数字,第一个数字之后的每个部分只有一个数字。否则,必须更改正则表达式以适合您的格式。

通过添加.replaceAll("[æ╚]", "");删除隐藏符号,将所有这些字符添加到方括号中。确保您有正确的编码。如果您使用"UTF-8“读取文件,则必须在编辑器中复制这些字符,您可以在编辑器中指定此文件为"UTF-8”。

票数 0
EN

Stack Overflow用户

发布于 2013-07-23 18:22:18

用空格替换所有非单词字符是否足够,或者至少在正确的方向上迈出了一步?

代码语言:javascript
复制
str = str.replaceAll("\\W+", " ");
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17803966

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档