我有一篇用这种格式写成句子的文本:
sentence 1 This is a sentence.
t-extraction 1 This is a sentence
s-extraction 1 This_DT is_V a_DT sentence_N
sentence 2 ... 如您所见,行由enter键分隔。语句,t-抽取,s-抽取单词被重复.这些数字是句号1,2,.。短语由Tab键分隔,例如在第一行:sentence(TAb)1(TAb)This is a sentence.或第二行:t-extraction(TAb)1(TAb)This(TAb)is(TAb)a sentence.中。
我需要将这些信息映射到sql表中,所以我应该提取它们。我需要第一句和第二句(第一行没有t-extraction和数字,第一行没有词)。每个由Tab分隔的部分将映射到sql中的一个字段中(例如,1在一列,This is a sentence在一列,This (在第二行)在一列,还有is和a sentence )。
你有什么建议吗?提前谢谢。
发布于 2014-10-15 17:50:25
您可以使用String.split()。
您可以使用的正则表达式是[^A-Za-z_]+或[ \t]+。
发布于 2014-10-15 17:59:49
在字符串上使用拆分方法可能是实现这个目标的关键。split命令将字符串拆分为regex匹配的部分,返回匹配部分之间的字符串数组。
您希望在选项卡上匹配(或\t,因为它是分隔到的)。您还想作为一个单元处理三行代码,下面的代码展示了一种方法(这取决于文件的格式是否良好)。
当然,您希望使用从文件创建的读取器,而不是字符串。
public class Test {
public static void main(String[] args) throws Exception {
BufferedReader reader = new BufferedReader(new FileReader("/my/file.data"));
String line = null;
for(int i = 0; (line = reader.readLine()) != null; i++){
if(i % 3 == 0){
String[] parts = line.split("\t");
System.out.printf("sentence ==> %s\n", Arrays.toString(parts));
} else if(i % 3 == 1){
String[] parts = line.split("\t");
System.out.printf("t-sentence ==> %s\n", Arrays.toString(parts));
} else {
String[] parts = line.split("\t");
System.out.printf("s-sentence ==> %s\n", Arrays.toString(parts));
}
}
}
}https://stackoverflow.com/questions/26388572
复制相似问题