我有一个xml文件,是每周收到的。该文件包含我的客户可用的大约40个“活动”。在这40个活动中,我只需要8个。为了减少处理文件的时间,我需要选择8个“活动”,然后将它们组合到一个xml文件中。单个文件将具有以下结构:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Data>
<Activity> ... </Activity>
<Activity> ... </Activity>
<Activity> ... </Activity>
</Data>Activity标签将包含大约20 - 30K行。当我将文件完全展开时,我们有大约1.5 we的行。这就是为什么我急于限制我必须处理的内容。我的一个同事编写了一个java脚本,为树中的每个活动创建一个新的xml文件。对于每个文件,他都根据标记来命名该文件。生成的文件类似于123456.xml。
从这里开始,我需要做的是根据文件名选择我需要的7-8个文件,将这些文件组合成单个xml,然后将文件保存为whatever.xml。我将有一个文件,其中可以包含每周处理所需的ActivityID。
我希望以相对较快的方式完成这项工作,因为我目前正在xml中搜索活动ID,然后手动构建结果文件。
此外,生成的文件需要压缩,但这是一个很好的功能,可以手动完成。
我对包括语言选择在内的建议持开放态度。
发布于 2014-02-21 02:53:59
我会使用python和BeautifulSoup来解决这个问题--简单的BeautifulSoup解析,很好的压缩库等等。python在处理大文件时表现也很好。
祝好运!
http://www.crummy.com/software/BeautifulSoup/
http://docs.python.org/2/library/zipfile
https://stackoverflow.com/questions/21835860
复制相似问题