我必须处理相当大的XML文件,我想使用xml-conduit的流式应用程序接口来浏览它们并提取我需要的信息。在我的例子中,使用流xml-conduit特别有吸引力,因为我不需要来自这些文件的太多数据,而且我需要对它执行简单的聚合,所以管道是完美的。
现在,我并不总是知道文件的确切结构。文件是由世界各地的不同版本(有时有by )的软件生成的,所以我不能强加该模式。
然而,我知道我感兴趣的元素和它们的形状。但是,正如我所说的,这些元素可以与其他元素以不同的顺序放置,等等。
我想,我需要的是跳过所有我不感兴趣的元素,只考虑那些想要的元素。
我最初想写这样的东西:
tagName "person" (requireAttr "age" <* ignoreAttrs) <|> ignoreTag (const True)但它不会编译,因为ignoreType返回Maybe ()
在使用xml-conduit流应用编程接口时,如何跳过所有“未知”标签?
发布于 2018-08-02 20:02:30
作为建议的here
λ> runConduit $ Text.XML.Stream.Parse.parseLBS def "<foo>bar</foo><person age=\"25\">Michael</person><person age=\"2\">Eliezer</person>" .| many_ (choose [takeTree "person" ignoreAttrs, ignoreAnyTreeContent]) .| manyYield parsePerson .| Data.Conduit.List.consume
[Person 25 "Michael",Person 2 "Eliezer"]https://stackoverflow.com/questions/42265047
复制相似问题