搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索？

我有由PDFcreator创建的PDF。每个多页PDF的第一页都有需要识别的邮寄地址。有没有办法在PDF的特定区域内进行文本搜索？我已经找到了和，但看不到将搜索限制在特定区域的方法。我主要关心的是准确性，因为在同一个PDF中可能会出现不同的地址。另外，搜索整个PDF可能太慢了。

浏览 5修改于2017-05-23得票数 0

1回答

在我的网页上使用PDF文件的内容有什么问题吗？

当我搜索一个项目时，谷歌会推荐PDF格式的结果。谷歌如何识别PDF内容？在我的网站上使用PDF文件的内容有什么问题吗？该网站的内容是否会被谷歌识别为重复内容？会不会对网站的搜索引擎优化产生负面影响？

浏览 0修改于2018-10-20得票数 3

回答已采纳

1回答

如何使用Java从PDF中的特定矩形区域提取数据？

我试图从PDF中给定的两个坐标指定的特定矩形区域中提取数据。是否可以在PDF中执行此操作，或者我是否必须将其转换为图像并使用OCR？如果有，PDFBox或iText是否包含通过光学字符识别来分析图像的方法？谢谢!

浏览 26提问于2017-12-26得票数 3

回答已采纳

1回答

Ghost脚本更改输入pdf的尺寸

我正在使用gs 9.20，并试图从pdf文件中使用以下命令生成eps文件。内容区域(灰色)之外的区域是空白区域。PDF:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图)EPS:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图) 下面是pdfinfo -bo

浏览 2修改于2017-03-24得票数 0

1回答

使用PDF Clown实际裁剪PDF

我的目标实际上是用PdfClown裁剪一个PDF文件。有很多工具/库，允许裁剪PDF，改变PDF cropBox。这允许在矩形区域之外隐藏内容，但内容仍然在那里，它可以通过PDF解析器访问，并且PDF大小不会改变。我已经看到有

浏览 2修改于2017-05-23得票数 2

3回答

c#将PDF转换为Tif

我正在使用ghostscript转换PDF的Tif与C$类包装，然后是使用光学字符识别tessnet2读取图像文件的内容，但tif图像是相当不可读，图像是相当褪色的，看起来不正确，光学字符识别引擎无法读取任何东西有没有开放源码或库，可以花我几块钱就可以将PDF转换成高质量的TIf？或者任何可以读取PDF的开源光学字符识别引擎，因为tessnet2不能读取PDF。

浏览 6提问于2012-08-31得票数 0

回答已采纳

1回答

从扫描的文档中提取数据c#

我有一个PDF文件，其中包含我们需要导入到数据库中的数据。该文件是打印文本的pdf扫描。数据的结构如下Date : 01/12/2014但这些数据并不总是出现在document.So的相同区域中，我需要一个可以识别这些文件的工具或应用程序接口。

浏览 2提问于2015-01-21得票数 0

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

在发布这篇文章之前，我已经对堆栈溢出进行了广泛的搜索，并没有在camelot页面的维度上找到任何内容。存在问题，它建议使用table_region，但这并不能解决OP的问题或我的问题。我想做的事：我使用Camelot来识别表(很明显)。有时，当我知道页面中可能包含感兴趣表的区域时，我只想在该区域中搜索。使用camelot.read_pdf()的table_region kwarg很容易做到这一点--我只需要为Camelot提供一对搜索坐标。被检测到的最小行的大小是通过将PDF页面的维度

浏览 1提问于2019-12-03得票数 4

8回答

如何用Ruby在现有PDF上进行编辑或编写？

我有几个PDF模板文件与复杂的内容和几个空白的区域/区域在他们。我需要能够在这些空白区域中写入文本，并将结果PDF保存在文件夹中。PHP中有，它可以用来简单地打开一个PDF文件，并在现有内容的基础上编写/绘图。的问题是：有什么更好的方法来编辑、编写或绘制现有的PD

浏览 7修改于2017-05-23得票数 42

回答已采纳

1回答

ALFERCO5.2中“`autoRename`”属性中的错误

我使用autoRename属性创建内容，如下所示(虚拟)。"1","autoRename":true,"properties":{"cm:title":"yoB4004-RA.pdf","cm:description":"yoB4004-RA.pdf"}},{"cm:title":"yoB4004-RA2.pdf","cm:descri

浏览 3修改于2018-04-28得票数 2

回答已采纳

1回答

用Java/Kotlin文件检测unicode专用区域(PUA)字符

是否有正确的方法来识别Java/Kotlin中的Unicode私有使用区域(PUA)字符？一些背景，我们正在使用PDF转换工具，它不支持PUA字符。因此，我们需要标识文件中可用的任何PUA字符。

浏览 4提问于2022-04-20得票数 1

1回答

如何使用grails渲染服务打印折叠标记？

客户希望在生成的pdf中具有折叠标记和重复的背景图像。我试过 @page { }如中所述，但pdf的内容周围总是有一个白色/空白边框。客户希望他的背景在整个pdf和这个白色/空白区域内的折叠标记上延伸。对我来说，grails renderingservice为可能无法打印的区域保留了一些空

浏览 1提问于2014-02-04得票数 0

3回答

PDF数据提取-需要建议

我创建了一个pdf提取工具。样品屏幕附加。现在的问题是，有时在一些pdfs中，提取所需的部分数据被转移到下一页。(移动的原因是；我将给出一个示例。因此，现在我考虑的是，识别pdf的结构，而不是获取坐标.。但我没有明确的想法去做。请分享任何东西，你认为这对解决这个问题有帮助。我再次重申，我正试图从pd

浏览 1修改于2015-11-12得票数 2

回答已采纳

1回答

设置WPF滚动查看器的可滚动区域大小

我使用ScrollViewer来滚动滚动查看器中的内容。现在，我还需要能够缩放内容，我使用RenderTransform来扩展内容，但是ScrollViewer不识别缩放的内容(可滚动区域没有增长)。如何手动计算和设置ScrollViewer的可滚动区域?让我们坐下来--即使内容只有100 x 100像素，我们还是希望滚动区域类似于1000 x 1000像素。

浏览 7提问于2013-11-01得票数 0

回答已采纳

1回答

我想阅读带有图像、文本和表格的PDF内容

我是一个非常新的阅读PDF内容与图像，文本和表格。我浏览过许多网站，我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML，我只处理文本。我在许多网站上寻找建议，但我找不到解决方案。现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。对于图像-我不想从PDF中提取图像，因为我要为图像保留一些占位符，以便我可以给出一些替代文本。如果存在图像，

浏览 2提问于2019-01-04得票数 0

1回答

如何识别哪些剪辑路径应用于路径或填写PDF矢量图形？

虽然我能够提取剪辑路径定义本身，但我无法确定哪些定义适用于正常的笔画或填充区域。例如，请参考获取从PDF页面中提取的SVG，以及在提取过程中看到的PDF图形命令序列的相应转储。从SVG中可以看出，有多个剪辑路径和一个矩形填充区域。尽管在定义填充矩形之前定义了多个剪辑路径，但只有在之前定义的圆形剪辑路径矩形定义将与矩形相关联(根据PDF页面在各种PDF阅读器上的呈现方式，在白色背景中只显示2个填充的圆圈)。问题是如何知道哪些剪辑路径与PDF中定义的规则填充/笔画

浏览 2提问于2013-06-08得票数 2

回答已采纳

1回答

从阴影DOM获取元素

在我正在进行的项目中，我有一个HTML文档，该文档是通过应用程序生成的，然后传递给一个函数，该函数将HTML转换为PDF。经过一些测试后，我发现文本区域内容的编辑版本在Shadow DOM中。有没有办法获取该内容并将其放入实际的DOM中？我并不是在显式地将内容放在那里，但是使用Firebug和WebI

浏览 1提问于2014-09-29得票数 4

回答已采纳

1回答

裁剪PDF而不保留不可见内容(.NET或ObjC)

我正在尝试使用.NET (使用PDF4NET或iTextSharp，但不关闭这些)或Objective-C (CGContextXXX，CGPDFXXX等)来裁剪PDF。但不保留不可见的内容！目前，我可以使用裁剪框或剪辑区域进行裁剪操作，但所有不可见的内容仍然存在于PDF中...谢谢(对不起，我是法国人……)

浏览 2修改于2011-10-26得票数 1

回答已采纳

3回答

当在pdf.js中的空格上拖动时，防止文本选择从“跳转”到顶部

我正在使用带有文本选择的pdf.js。如果你去他们的例子，你可以看到我所描述的。试着在左栏的几个段落上选择文本，你会看到选择“闪烁”到选择顶部的所有内容。我认为这与所有持有绝对文本的div有关。

浏览 0提问于2014-04-05得票数 8

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索？

在我的网页上使用PDF文件的内容有什么问题吗？

如何使用Java从PDF中的特定矩形区域提取数据？

Ghost脚本更改输入pdf的尺寸

使用PDF Clown实际裁剪PDF

c#将PDF转换为Tif

从扫描的文档中提取数据c#

如何在将文档从PDF转换为文本时处理unicode字符编码问题

Camelot PDF维数

如何用Ruby在现有PDF上进行编辑或编写？

ALFERCO5.2中“`autoRename`”属性中的错误

用Java/Kotlin文件检测unicode专用区域(PUA)字符

如何使用grails渲染服务打印折叠标记？

PDF数据提取-需要建议

设置WPF滚动查看器的可滚动区域大小

我想阅读带有图像、文本和表格的PDF内容

如何识别哪些剪辑路径应用于路径或填写PDF矢量图形？

从阴影DOM获取元素

裁剪PDF而不保留不可见内容(.NET或ObjC)

当在pdf.js中的空格上拖动时，防止文本选择从“跳转”到顶部

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐