首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Java将字符串操作为XML

使用Java将字符串操作为XML
EN

Stack Overflow用户
提问于 2019-07-16 09:06:35
回答 1查看 60关注 0票数 1

我已经从PDF中提取数据,它的字符串格式如下。(请注意不均匀的间距和新的行字符)。

代码语言:javascript
复制
 Virtual Salary                                 25,100.00   EIS EE Contr.                                       7.90
 Virtual Car Allowance                           1,600.00   EPF Employee Contr.                             2,937.00
 Payment Received(Oversea)                       4,265.01   SOCSO Employee Contr.                              19.75

如何将此字符串转换为XML,如下所示。

代码语言:javascript
复制
public void testMethod()
    {
        String extractedTestFromPDF=
                 " Virtual Salary                                 25,100.00   EIS EE Contr.                                       7.90\n"+
                 "\t Virtual Car Allowance                           1,600.00   EPF Employee Contr.                             2,937.00\n"+
                 " Payment Received(Oversea)                       4,265.01   SOCSO Employee Contr.                              19.75\n";

    }

渴望XML:

代码语言:javascript
复制
<xml>
<Data>
    <Allowance>Virtual Salary</Allowance>
    <Allowance_Amount>25,100.00</Allowance_Amount>
</Data>
<Data>
    <Allowance>EIS EE Contr.</Allowance>
    <Allowance_Amount>7.90</Allowance_Amount>
</Data>
<Data>
    <Allowance>Virtual Car Allowance</Allowance>
    <Allowance_Amount>1,600.00</Allowance_Amount>
</Data>
...
</xml>
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-16 09:35:34

代码语言:javascript
复制
String fixedSizetoXML(String extractedTestFromPDF) {
    String[] lines = extractedTestFromPDF.split("\\R");
    Pattern pattern = Pattern.compile("^\\s*(\\S.{20})\\s\\s+([-\\d,\\.]+)\\s+.*$");
    //                                      (--------)       (-----------)
    return "<?xml verion="1.0">\n<Xml>\n"
        + Stream.of(lines)
              .map(pattern::matcher)
              .filter(m::find)
              .map(m -> String.format("<Data>\n"
                            + "    <Allowance>%s</Allowance>\n"
                            + "    <Allowance_Amount>%s</Allowance_Amount>\n"
                            + "</Data>\n",
                            m.group(1).trim(), m.group(2)))

              .collect(Collectors.joining(""))
        + "<Xml>\n";
}

我冒昧地添加了一个XML预处理指令<?xml ...>,并为了清晰起见,将xml更改为Xml

这些是具有固定长度字段的记录。计数位置并不完全安全,看到一个制表符字符\t,并考虑到特殊字符:é可以是一个字符,但也可以是e加上一个特殊的零宽度´,我使用了正则表达式模式。在数量之前至少需要两个空格字符。

Java 7

代码语言:javascript
复制
String fixedSizetoXML(String extractedTestFromPDF) {
    String[] lines = extractedTestFromPDF.split("\\R");
    Pattern pattern = Pattern.compile("^\\s*(\\S.{20})\\s\\s+([-\\d,\\.]+)\\s+.*$");
    //                                      (--------)       (-----------)
    StringBuilder sb = new StringBuilder(lines.length * 64);
    sb.append("<?xml verion="1.0">\n<Xml>\n");
    for (String line : lines) {
        Matcher m = pattern.matcher(line);
        if (m.find()) {
            String data = String.format("<Data>\n"
                            + "    <Allowance>%s</Allowance>\n"
                            + "    <Allowance_Amount>%s</Allowance_Amount>\n"
                            + "</Data>\n",
                            m.group(1).trim(), m.group(2));
            sb.append(data);
        }
    }
    sb.append("<Xml>\n");
    return sb.toString();
}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57053756

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档