我需要找到一种方法,以忽略图片和照片从PDF文件转换为DOCX文件。
我正在创建FineReader Engine的一个实例:
IEngine engine = Engine.InitializeEngine(
engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),
engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);在此之后,我将转换一个文档:
IFRDocument document = engine.CreateFRDocument();
document.AddImageFile(file.getAbsolutePath(), null, null);
document.Process(null);
String exportPath = FileUtil.prepareExportPath(file, resultFolder);
document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);因此,它会转换来自初始pdf文档的所有图像。
发布于 2019-08-29 21:30:03
我不是真的熟悉PDF到DOCX的转换,但我认为你可以尝试自定义配置文件根据你的需要。
在代码中的某个位置,您应该创建一个Engine对象,然后创建一个Document对象(或IFRDocument对象,具体取决于您的应用程序)。在将文档提供给引擎进行处理之前,添加下面这一行:
engine.LoadProfile(PROFILE_FILENAME);然后使用“使用配置文件”一节中随FRE安装打包的文档中描述的一些处理参数创建文件。别忘了在你的文件中添加:
... some params under other sections
[PageAnalysisParams]
DetectText = TRUE --> force text detection
DetectPictures = FALSE --> ignore pictures
... other params under PageAnalysisParams
... some params under other sections它对条形码等也是一样的。但请记住,在此文件中添加或删除内容时,请对结果进行基准测试,因为这可能会改变结果的处理速度和全局质量。
发布于 2019-10-30 16:56:42
当你导出pdf到docx时,你应该使用一些导出参数。通过这种方式,您可以使用IRTFExportParams。你可以得到这个对象:
IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();在那里,您可以像这样设置writePicture属性:
irtfExportParams.setWritePictures(false);这里:IEngine engine是主界面。我想你知道如何初始化它;)
此外,还必须在方法document.Process()属性中进行设置。(文档来自IFRDocument document)。在Process()方法中,你必须给出IDocumentProcessingParams iDocumentProcessingParams。这个对象有setPageProcessingParams()方法,你必须在那里放入IPageProcessingParams iPageProcessingParams参数(你可以通过engine.CreatePageProcessingParams()获得这个对象)。这个对象有一些方法:
iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);在第一种方法中设置为true,在第二种方法中我们给出iPageAnalysisParams(IPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。
最后一步,您必须在iPageAnalysisParams的setDetectPictures(false)方法中设置False值,如下所示。这就是全部内容:)
当你准备导出文档时,你应该把这个参数放成这样:
IFRDocument document = engine.CreateFRDocument();
document.Export(filePath, FileExportFormatEnum.FEF_DOCX, irtfExportParams);我希望我的答案能对大家有所帮助))
发布于 2019-08-22 16:58:12
PDF输入页面包含哪些内容?在MS Word中需要什么?这将是伟大的,如果你愿意附上一个例子的输入PDF文件和一个想要的结果的例子,在MS Word格式。然后给出一个有用的建议将会容易得多。
https://stackoverflow.com/questions/57574335
复制相似问题