首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用组合键的人员去重列表

使用组合键的人员去重列表
EN

Stack Overflow用户
提问于 2019-03-12 15:53:57
回答 1查看 49关注 0票数 0

我有一个重复的人员列表(10.000)。我想根据名字、姓氏以及出生年份或死亡年份来检查这个人是否已经存在。在这种情况下,它应该在第一个匹配项中写入副本,并删除其他条目。

我的XML:

代码语言:javascript
复制
<?xml version="1.0" encoding="UTF-8"?>
<listperson>
    <person>
        <persName>
            <surname>Shakespeare</surname>
            <forename>William</forename>
        </persName>
        <birth>
            <date>1564-04</date>
        </birth>
        <death>
            <date>1616-05-03</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Plato</surname>
            <forename/>
        </persName>
        <birth>
            <date>-0427</date>
        </birth>
        <death>
            <date>-0347</date>
            <placeName/>
        </death>
    </person>
    <person>
        <persName>
            <surname>Shakespeare</surname>
            <forename>William</forename>
        </persName>
        <birth>
            <date>1564</date>
        </birth>
        <death>
            <date>1616-05-03</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Tolstoi</surname>
            <forename>Leo N.</forename>
        </persName>
        <birth>
            <date>1828-09-28</date>
        </birth>
        <death>
            <date>1910-11-07</date>
        </death>
    </person>
    <person>
        <persName>
            <surname>Tolstoi</surname>
            <forename>Leo N.</forename>
        </persName>
        <death>
            <date>1910-11-20</date>
        </death>
    </person>
</listperson>

现在是XSLT。注意,我可以使用XSLT 3,但我没有设法正确地编写条件。这是我的XSLT:

代码语言:javascript
复制
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:xs="http://www.w3.org/2001/XMLSchema"
    exclude-result-prefixes="xs" version="3.0">
    <xsl:mode on-no-match="shallow-copy"/>

    <xsl:key name="key-birth" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>

    <xsl:key name="key-death" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>


    <xsl:template
        match="XXXX">
        <xsl:choose>
            <xsl:when
                test="XXXX forename+surname+year of birth">
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                    <xsl:element name="duplicate">
                        <xsl:apply-templates select="XXXX"/>
                    </xsl:element>
                </xsl:copy>
            </xsl:when>
            <xsl:when
                test="XXXX forename+surname+year of death">
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                    <xsl:element name="duplicate">
                        <xsl:apply-templates select="XXXX"/>
                    </xsl:element>
                </xsl:copy>
            </xsl:when>
            <xsl:otherwise>
                <xsl:copy>
                    <xsl:apply-templates select="@* | node()"/>
                </xsl:copy>
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>

我之前通过使用following sibling::和preceding sibling::取得了一些成果,但这很慢,而且有一些奇怪的结果,所以我希望这里有人能给我一个有键的解决方案,也许是generate-id()?

当然,输出应该把莎士比亚和托尔斯泰的副本移到第一次出现的地方。在下一步中,我将合并它们并检查差异,例如,托尔斯泰死亡的日期在两个条目中是不同的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-12 16:16:50

您已经在使用<xsl:mode on-no-match="shallow-copy"/>复制现有节点,所以不应该考虑复制不同的值,而应该考虑从复制中排除重复项。一种方法是使用模板来忽略它们。例如,要忽略基于出生日期的重复项,请执行此操作。

代码语言:javascript
复制
<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />

试试这个XSLT

代码语言:javascript
复制
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:xs="http://www.w3.org/2001/XMLSchema"
    exclude-result-prefixes="xs" version="3.0">
    <xsl:mode on-no-match="shallow-copy"/>

    <xsl:key name="key-birth" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>

    <xsl:key name="key-death" composite="yes" match="person"
        use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>

    <xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />

    <xsl:template match="person[. except key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4)))[1]]" />
</xsl:stylesheet>

编辑:如果要将duplicates节点添加到剩余的不同的person元素中,请将此模板添加到XSLT

代码语言:javascript
复制
<xsl:template match="person">
  <xsl:copy>
    <xsl:apply-templates select="@*|node()" />
    <duplicates>
      <xsl:copy-of select="key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4))) except .|key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4))) except ." />
    </duplicates>
  </xsl:copy>
</xsl:template>

在这里查看它的实际效果:http://xsltfiddle.liberty-development.net/6r5Gh31

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55116531

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档