我有一堆pdf文件/表格,都是在一个标准化的格式。它们包含版本历史、作者、签署文档的人以及文档引用的文档等信息。我需要提取这些信息,以便输入包含有关文档的信息的数据库。我很确定我可以用正则表达式(S)来做这件事,但我不太清楚该如何去做。我也想自动化这个过程,这样当创建新的文档时,它们就会被添加到系统中,系统也会查看网页上的所有文档并提取信息。
发布于 2015-06-30 17:35:55
可以将.pdf文档转换为文本文件。在这样做之后,应该可以提取一段文本,这取决于它使用正则表达式的规则性。您没有指定您正在使用的操作系统,但是在*nix上,可以使用pdftotext命令行工具和grep/sed/cut/awk/perl的组合来实现自动化。
要从web服务器下载/上载文档,如果启用了scp access或lftp,可以使用SSH,在本地提取元数据并将其推送到web服务器。您需要有一个已经处理过的文档列表。或者,您甚至不需要从web服务器下载.pdf,因为您可以直接在web服务器上处理它,或者使用sshfs挂载远程目录。每次使用.pdf机制或某种web服务器回调添加新的inotify时,您都可以触发提取元数据的操作,或者使用crontab作业定期执行元数据。
我仍然不确定你是喜欢*nix还是Windows。如果你喜欢后者,我就帮不了你,因为我不使用它。
https://softwarerecs.stackexchange.com/questions/20624
复制相似问题