首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文本文件中提取某些数据的正则表达式

从文本文件中提取某些数据的正则表达式
EN

Stack Overflow用户
提问于 2014-10-15 17:32:45
回答 2查看 102关注 0票数 0

我有一篇用这种格式写成句子的文本:

代码语言:javascript
复制
sentence         1    This is a sentence.
t-extraction     1    This     is       a sentence
s-extraction     1    This_DT    is_V     a_DT sentence_N
sentence         2    ... 

如您所见,行由enter键分隔。语句t-抽取s-抽取单词被重复.这些数字是句号1,2,.。短语由Tab键分隔,例如在第一行:sentence(TAb)1(TAb)This is a sentence.或第二行:t-extraction(TAb)1(TAb)This(TAb)is(TAb)a sentence.中。

我需要将这些信息映射到sql表中,所以我应该提取它们。我需要第一句和第二句(第一行没有t-extraction数字,第一行没有词)。每个由Tab分隔的部分将映射到sql中的一个字段中(例如,1在一列,This is a sentence在一列,This (在第二行)在一列,还有isa sentence )。

你有什么建议吗?提前谢谢。

EN

回答 2

Stack Overflow用户

发布于 2014-10-15 17:50:25

您可以使用String.split()。

您可以使用的正则表达式是[^A-Za-z_]+[ \t]+

票数 0
EN

Stack Overflow用户

发布于 2014-10-15 17:59:49

在字符串上使用拆分方法可能是实现这个目标的关键。split命令将字符串拆分为regex匹配的部分,返回匹配部分之间的字符串数组。

您希望在选项卡上匹配(或\t,因为它是分隔到的)。您还想作为一个单元处理三行代码,下面的代码展示了一种方法(这取决于文件的格式是否良好)。

当然,您希望使用从文件创建的读取器,而不是字符串。

代码语言:javascript
复制
public class Test {

    public static void main(String[] args) throws Exception {
        BufferedReader reader = new BufferedReader(new FileReader("/my/file.data"));
        String line = null;

        for(int i = 0; (line = reader.readLine()) != null; i++){
            if(i % 3 == 0){
                String[] parts = line.split("\t");
                System.out.printf("sentence ==> %s\n", Arrays.toString(parts));
            } else if(i % 3 == 1){
                String[] parts = line.split("\t");
                System.out.printf("t-sentence ==> %s\n", Arrays.toString(parts));
            } else {
                String[] parts = line.split("\t");
                System.out.printf("s-sentence ==> %s\n", Arrays.toString(parts));
            }
        }
    }

}
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26388572

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档