文章/答案/技术大牛

发布

社区首页 >问答首页 >FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片

问FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片
EN

Stack Overflow用户

提问于 2019-08-20 21:02:57

回答 3查看 242关注 0票数 1

我需要找到一种方法，以忽略图片和照片从PDF文件转换为DOCX文件。

我正在创建FineReader Engine的一个实例：

IEngine engine = Engine.InitializeEngine(
engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),
engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);

在此之后，我将转换一个文档：

IFRDocument document = engine.CreateFRDocument();
document.AddImageFile(file.getAbsolutePath(), null, null);
document.Process(null);
String exportPath = FileUtil.prepareExportPath(file, resultFolder);
document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);

因此，它会转换来自初始pdf文档的所有图像。

finereader

java

abbyy

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-08-29 21:30:03

我不是真的熟悉PDF到DOCX的转换，但我认为你可以尝试自定义配置文件根据你的需要。

在代码中的某个位置，您应该创建一个Engine对象，然后创建一个Document对象(或IFRDocument对象，具体取决于您的应用程序)。在将文档提供给引擎进行处理之前，添加下面这一行：

engine.LoadProfile(PROFILE_FILENAME);

然后使用“使用配置文件”一节中随FRE安装打包的文档中描述的一些处理参数创建文件。别忘了在你的文件中添加：

... some params under other sections

[PageAnalysisParams]
DetectText = TRUE       --> force text detection
DetectPictures = FALSE  --> ignore pictures
... other params under PageAnalysisParams

... some params under other sections

它对条形码等也是一样的。但请记住，在此文件中添加或删除内容时，请对结果进行基准测试，因为这可能会改变结果的处理速度和全局质量。

票数 1

Stack Overflow用户

发布于 2019-10-30 16:56:42

当你导出pdf到docx时，你应该使用一些导出参数。通过这种方式，您可以使用IRTFExportParams。你可以得到这个对象：

IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();

在那里，您可以像这样设置writePicture属性：

irtfExportParams.setWritePictures(false);

这里：IEngine engine是主界面。我想你知道如何初始化它；)

此外，还必须在方法document.Process()属性中进行设置。(文档来自IFRDocument document)。在Process()方法中，你必须给出IDocumentProcessingParams iDocumentProcessingParams。这个对象有setPageProcessingParams()方法，你必须在那里放入IPageProcessingParams iPageProcessingParams参数(你可以通过engine.CreatePageProcessingParams()获得这个对象)。这个对象有一些方法：

iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);

在第一种方法中设置为true，在第二种方法中我们给出iPageAnalysisParams(IPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。

最后一步，您必须在iPageAnalysisParams的setDetectPictures(false)方法中设置False值，如下所示。这就是全部内容：)

当你准备导出文档时，你应该把这个参数放成这样：

IFRDocument document = engine.CreateFRDocument();
document.Export(filePath, FileExportFormatEnum.FEF_DOCX, irtfExportParams);

我希望我的答案能对大家有所帮助))

票数 2

Stack Overflow用户

发布于 2019-08-22 16:58:12

PDF输入页面包含哪些内容？在MS Word中需要什么？这将是伟大的，如果你愿意附上一个例子的输入PDF文件和一个想要的结果的例子，在MS Word格式。然后给出一个有用的建议将会容易得多。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57574335

复制

相似问题

问FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片
EN