我有大量的MSWord文档(大约40,000个),它们是邮件合并的结果(相同的主文档,不同的数据源)。
其中一个合并字段是文本字段,其文本可能为"Yes“或"No”。
有没有一种简单的方法可以列出哪些文档的合并字段设置为值"Yes"?(我预计大约有10,000个“是”文档。)
我对任何一种方法都感兴趣,无论是使用Word本身,办公自动化,还是六进制转储二进制文件并获取某些魔法,或者任何现成的工具(perl脚本,.NET应用程序等),都可以做这类事情。
这些文件在Linux和Windows机器上都可以访问的网络共享上(如果需要,我可能会偷一台Mac电脑一段时间),所以我不太担心这些工具运行在哪个平台上……
发布于 2009-07-22 12:47:43
如果它们是Word2007文档,那就容易多了,因为文件格式是XML。(即使使用Word 2003,您也可以另存为XML文档,尽管这不是默认设置)。但是,我假设这些文档是使用默认(二进制)文件格式的标准Word2003文档。
我相信有一些工具可以直接处理二进制文件格式,并且可以将文档转换为文本文件,然后您可以处理这些文件-假设您可以搜索出现在字段之前的一些文本,例如“你是认真的吗?”
但是,最简单/最简单的方法(但就执行时间而言是最慢的)是编写一个VBA程序来打开每个文档、搜索字段并提取结果。这将是非常简单的VBA,并且您可以在Word本身中完成(这意味着代码可以使用现有的Word运行实例)。我会说你可以在几个小时内启动并运行它-然后你可以在它工作的时候再抬起你的脚几个小时:-)
https://stackoverflow.com/questions/1162503
复制相似问题