首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片

FineReader Engine Java SDK。如何在PDF到DOCX转换过程中忽略图片
EN

Stack Overflow用户
提问于 2019-08-20 21:02:57
回答 3查看 242关注 0票数 1

我需要找到一种方法,以忽略图片和照片从PDF文件转换为DOCX文件。

我正在创建FineReader Engine的一个实例:

代码语言:javascript
复制
IEngine engine = Engine.InitializeEngine(
engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),
engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);

在此之后,我将转换一个文档:

代码语言:javascript
复制
IFRDocument document = engine.CreateFRDocument();
document.AddImageFile(file.getAbsolutePath(), null, null);
document.Process(null);
String exportPath = FileUtil.prepareExportPath(file, resultFolder);
document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);

因此,它会转换来自初始pdf文档的所有图像。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-08-29 21:30:03

我不是真的熟悉PDF到DOCX的转换,但我认为你可以尝试自定义配置文件根据你的需要。

在代码中的某个位置,您应该创建一个Engine对象,然后创建一个Document对象(或IFRDocument对象,具体取决于您的应用程序)。在将文档提供给引擎进行处理之前,添加下面这一行:

代码语言:javascript
复制
engine.LoadProfile(PROFILE_FILENAME);

然后使用“使用配置文件”一节中随FRE安装打包的文档中描述的一些处理参数创建文件。别忘了在你的文件中添加:

代码语言:javascript
复制
... some params under other sections

[PageAnalysisParams]
DetectText = TRUE       --> force text detection
DetectPictures = FALSE  --> ignore pictures
... other params under PageAnalysisParams

... some params under other sections

它对条形码等也是一样的。但请记住,在此文件中添加或删除内容时,请对结果进行基准测试,因为这可能会改变结果的处理速度和全局质量。

票数 1
EN

Stack Overflow用户

发布于 2019-10-30 16:56:42

当你导出pdf到docx时,你应该使用一些导出参数。通过这种方式,您可以使用IRTFExportParams。你可以得到这个对象:

代码语言:javascript
复制
IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();

在那里,您可以像这样设置writePicture属性:

代码语言:javascript
复制
irtfExportParams.setWritePictures(false);

这里:IEngine engine是主界面。我想你知道如何初始化它;)

此外,还必须在方法document.Process()属性中进行设置。(文档来自IFRDocument document)。在Process()方法中,你必须给出IDocumentProcessingParams iDocumentProcessingParams。这个对象有setPageProcessingParams()方法,你必须在那里放入IPageProcessingParams iPageProcessingParams参数(你可以通过engine.CreatePageProcessingParams()获得这个对象)。这个对象有一些方法:

代码语言:javascript
复制
iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);

在第一种方法中设置为true,在第二种方法中我们给出iPageAnalysisParams(IPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。

最后一步,您必须在iPageAnalysisParamssetDetectPictures(false)方法中设置False值,如下所示。这就是全部内容:)

当你准备导出文档时,你应该把这个参数放成这样:

代码语言:javascript
复制
IFRDocument document = engine.CreateFRDocument();
document.Export(filePath, FileExportFormatEnum.FEF_DOCX, irtfExportParams);

我希望我的答案能对大家有所帮助))

票数 2
EN

Stack Overflow用户

发布于 2019-08-22 16:58:12

PDF输入页面包含哪些内容?在MS Word中需要什么?这将是伟大的,如果你愿意附上一个例子的输入PDF文件和一个想要的结果的例子,在MS Word格式。然后给出一个有用的建议将会容易得多。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57574335

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档