我现在正在处理500个pdf食谱文件,我想在我的网站上显示。如何批量提取它们并在PDF上显示信息到我的网站?PDF包含了食谱的所有信息。对于每个食谱,我需要显示它的描述,图像,成分,说明,营养标签等。有没有什么方法可以让我不需要手动操作?
发布于 2019-08-15 02:57:22
这些信息是否都有相同的基本信息结构模板?这并不是一个特别的WordPress问题。您可以做的一件事是使用Go遍历和处理所有文件。我玩过Go,它解析大量信息的速度令人难以置信。也许你可以在这个库中摆弄它,https://github.com/unidoc/unidoc。
在PHP中也有很多库可供选择。这里只有一个https://www.pdfparser.org/示例。这里有文档,你可以通过composer安装它。https://www.pdfparser.org/documentation
如果每个食谱都遵循相同类型的模板,并且您希望在PDF的特定部分中提取特定的细节,那么应该很容易。如果您不介意从PDF中提取所有文本并将其显示在您的网站上,使用其中一个库应该很容易。如果你走Golang路线,你可以解析每个PDF的所有文本,将它们保存到一个文件中,然后使用PHP上传它们,然后让PHP代码将所有内容插入到自定义post类型或其他内容中。
https://stackoverflow.com/questions/57500262
复制相似问题