文章/答案/技术大牛

发布

社区首页 >问答首页 >我需要哪些软件将pdf转换成文本，然后使用regex来提取特定的数据片段？

问我需要哪些软件将pdf转换成文本，然后使用regex来提取特定的数据片段？
EN

Software Recommendation用户

提问于 2015-06-25 15:16:26

回答 1查看 124关注 0票数 2

我有一堆pdf文件/表格，都是在一个标准化的格式。它们包含版本历史、作者、签署文档的人以及文档引用的文档等信息。我需要提取这些信息，以便输入包含有关文档的信息的数据库。我很确定我可以用正则表达式(S)来做这件事，但我不太清楚该如何去做。我也想自动化这个过程，这样当创建新的文档时，它们就会被添加到系统中，系统也会查看网页上的所有文档并提取信息。

pdf

database

automation

data-analysis

regex

回答 1

Software Recommendation用户

回答已采纳

发布于 2015-06-30 17:35:55

可以将.pdf文档转换为文本文件。在这样做之后，应该可以提取一段文本，这取决于它使用正则表达式的规则性。您没有指定您正在使用的操作系统，但是在*nix上，可以使用pdftotext命令行工具和grep/sed/cut/awk/perl的组合来实现自动化。

要从web服务器下载/上载文档，如果启用了scp access或lftp，可以使用SSH，在本地提取元数据并将其推送到web服务器。您需要有一个已经处理过的文档列表。或者，您甚至不需要从web服务器下载.pdf，因为您可以直接在web服务器上处理它，或者使用sshfs挂载远程目录。每次使用.pdf机制或某种web服务器回调添加新的inotify时，您都可以触发提取元数据的操作，或者使用crontab作业定期执行元数据。

我仍然不确定你是喜欢*nix还是Windows。如果你喜欢后者，我就帮不了你，因为我不使用它。

票数 3

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/20624

复制

相似问题

问我需要哪些软件将pdf转换成文本，然后使用regex来提取特定的数据片段？
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我需要哪些软件将pdf转换成文本，然后使用regex来提取特定的数据片段？EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我需要哪些软件将pdf转换成文本，然后使用regex来提取特定的数据片段？
EN