搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索？

我有由PDFcreator创建的PDF。每个多页PDF的第一页都有需要识别的邮寄地址。有没有办法在PDF的特定区域内进行文本搜索？我已经找到了和，但看不到将搜索限制在特定区域的方法。我主要关心的是准确性，因为在同一个PDF中可能会出现不同的地址。另外，搜索整个PDF可能太慢了。

浏览 5修改于2017-05-23得票数 0

1回答

如何使用Java从PDF中的特定矩形区域提取数据？

我试图从PDF中给定的两个坐标指定的特定矩形区域中提取数据。是否可以在PDF中执行此操作，或者我是否必须将其转换为图像并使用OCR？如果有，PDFBox或iText是否包含通过光学字符识别来分析图像的方法？谢谢!

浏览 26提问于2017-12-26得票数 3

回答已采纳

1回答

从扫描的文档中提取数据c#

我有一个PDF文件，其中包含我们需要导入到数据库中的数据。该文件是打印文本的pdf扫描。数据的结构如下Date : 01/12/2014但这些数据并不总是出现在document.So的相同区域中，我需要一个可以识别这些文件的工具或应用程序接口。

浏览 2提问于2015-01-21得票数 0

1回答

用Java/Kotlin文件检测unicode专用区域(PUA)字符

是否有正确的方法来识别Java/Kotlin中的Unicode私有使用区域(PUA)字符？一些背景，我们正在使用PDF转换工具，它不支持PUA字符。因此，我们需要标识文件中可用的任何PUA字符。

浏览 4提问于2022-04-20得票数 1

3回答

PDF数据提取-需要建议

我创建了一个pdf提取工具。样品屏幕附加。现在的问题是，有时在一些pdfs中，提取所需的部分数据被转移到下一页。(移动的原因是；我将给出一个示例。因此，现在我考虑的是，识别pdf的结构，而不是获取坐标.。但我没有明确的想法去做。请分享任何东西，你认为这对解决这个问题有帮助。我再次重申，我正试图从pd

浏览 1修改于2015-11-12得票数 2

回答已采纳

1回答

虽然我能够提取剪辑路径定义本身，但我无法确定哪些定义适用于正常的笔画或填充区域。例如，请参考获取从PDF页面中提取的SVG，以及在提取过程中看到的PDF图形命令序列的相应转储。从SVG中可以看出，有多个剪辑路径和一个矩形填充区域。尽管在定义填充矩形之前定义了多个剪辑路径，但只有在之前定义的圆形剪辑路径矩形定义将与矩形相关联(根据PDF页面在各种PDF阅读器上的呈现方式，在白色背景中只显示2个填充的圆圈)。问题是如何知道哪些剪辑路径与PDF中定义的规则填充/笔画

浏览 2提问于2013-06-08得票数 2

回答已采纳

1回答

如何使用wkhtmltopdf在pdf页脚中创建可单击链接？

我们希望使用pdf页脚的链接。我们利用wkhtmltopdf工具生成我们的pdfs。 

浏览 7提问于2022-11-09得票数 0

回答已采纳

1回答

用iTextSharp使用.Net解析PDF形状对象

我正试图解析一堆PDF格式，它们有一段看起来是文本，但实际上只是一堆看起来像文本的嵌入形状，所以使用iTextSharp中的普通iTextSharp对象提取“文本”是不可能的。由于我试图提取的文本是仅有的10个可能的单词之一，而不是实际上“阅读”这个单词(或者更确切地说，‘以一个单词的形式’形状‘)，我想我可以通过与我已经识别的其他单词进行比较来确定这个单词是什么。我的第一个问题是，我怎样才能到达PDF的这一部分？如何使用iText解析文档以深入到此形状对象？在我所有的文档中都有一个常见的词开始这个部分，所以我想我可以用它作为一个地标来知道

浏览 3修改于2011-09-09得票数 1

2回答

Java中PDF文本提取

我有一个用iText生成的PDF文件，它是用JasperReports创建的(我不知道它是否相关)，我想知道是否可以找到一些API或任何东西来查看结构，因为我需要从中提取文本。如果我试图以DOCX的形式打开它，我会看到这个词可以识别某种结构，例如，在DOCX中转换后，一个看起来像PDF中的表的区域实际上是一个表。我需要了解PDF是如何创建的，如果这是可能的话。我知道使用PDF格式并不容易，但我需要从一些有用的东西开始。谢谢!

浏览 1修改于2018-07-11得票数 1

1回答

禁用输入字段中Unicode字符的范围

我有一个用于纯文本的文本区域，用户有时可以复制和粘贴特殊字符。当使用表情符号时，它就成了一个问题，因为它是我们需要包含在PDF文件中的材料。例如：❤️现在我的问题是，在验证表单时，我如何识别这些字符并用Javascript删除它们呢？我不想限制太多，因为很多语言(俄语，阿拉伯语等等)都是被允许的。

浏览 0提问于2014-11-10得票数 0

回答已采纳

1回答

Camelot PDF维数

我想做的事：我使用Camelot来识别表(很明显)。有时，当我知道页面中可能包含感兴趣表的区域时，我只想在该区域中搜索。使用camelot.read_pdf()的table_region kwarg很容易做到这一点--我只需要为Camelot提供一对搜索坐标。被检测到的最小行的大小是通过将PDF页面的维度除以称为line_scale的缩放因子来计算的。默认情况下，它的值为15。”我对其他选项开放，基本上我想检查页面的某个区域是否包含一个表(在PyMuPDF坐标系中描述的区域</

浏览 1提问于2019-12-03得票数 4

1回答

用PDFBox验证电子签名

我的公司要求一个从PDF表单中提取数据的Java服务实现，以便直接启动使用Apache PDFBox的客户端操作的处理功能。很简单。我有几个选择：如果可能的话，对数字签名表单字段进行修改，以接受电子签名，如果可能的话。我有一个小小的解决办法，使用Acrobat的最新版本，将图像表单字段放在签名区域，这非常好，除了一件事:我尝试过的所有软件都将这个表单字段类型读取为一个按钮。是否有任何方法强迫它识别图像，或任何PDF读取软件是更最新的

浏览 5提问于2018-01-11得票数 0

回答已采纳

1回答

改进zbarimg qrcode识别

我有一个扫描纸张的工作系统，然后让zbarimg识别这些纸张上的qrcode (虽然我不知道qrcode出现在哪个区域)。突然间，qrcode识别变得更加糟糕，最终完全停止了工作。物理扫描仪从扫描的纸张生成PDF。我使用鬼怪脚本将其转换为图片：当您尝试用智能手机读取qrco

浏览 0提问于2021-10-23得票数 0

回答已采纳

1回答

如何使用python识别pdf中的图形？

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

Ghost脚本更改输入pdf的尺寸

我正在使用gs 9.20，并试图从pdf文件中使用以下命令生成eps文件。内容区域(灰色)之外的区域是空白区域。PDF:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图)EPS:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图) 下面是pdfinfo -box命令对pdf文件

浏览 2修改于2017-03-24得票数 0

1回答

将模型属性传递给Django中的URL

我有一个模型，它有两个字段，名为id (as pk)和region，我有一个页面来返回每个region.There中的对象，它们是10个区域，我需要将区域号传递给url，以便从db筛选该区域检索数据。这是我的代码：def render_pdf_view(request, *args, **kwargs):context = {'data&#

浏览 5提问于2020-10-20得票数 1

1回答

有没有办法用pdf.js为pdf呈现编写javascript事件？

我有一个场景，要求我制作在线PDF查看器，在查看模式下，用户将选择PDF的某些区域，并在选择标记区域边界w.rs.tpdf时将其发送到服务器。示例如果用户单击在日期创建的区域，则应将所选区域的边界发送给服务器。问候

浏览 1修改于2013-01-22得票数 3

1回答

如何在CoSign Signature SOAP API中更改签名的坐标，并将其放在给定的文本上(即在此处签名)？

我的pdf文件将有一个带有文本"Sign here“的区域。它可以在pdf中的任何位置(即该区域的坐标未定义)。我想在我的pdf文件中添加在给定区域或文本上的签名(例如“在此签名”)。

浏览 5提问于2014-06-30得票数 1

1回答

在PHP中标识PDF/A文件

我正在尝试识别PDF文件是否为PDF/A文件。使用poppler-php，我能够读取元数据，但没有迹象表明它是PDF/A文件。我的目标是通过添加数据来编辑PDF。PDF/A似乎是只读的(因为它们是为存档而设计的，这并不奇怪)。我想要识别他们，以便提前拒绝他们。致以敬意，

浏览 9提问于2020-09-07得票数 1

回答已采纳

4回答

利用Tabula从PDF中提取表

不幸的是，在第一页上有很多无用的区域，我不想让Tabula提取。根据文档，您可以指定要从中提取的页面区域。然而，无用的区域只是在我的PDF文件的第一页，因此，对于所有后续的页面，Tabula将错过顶部部分。是否有方法指定区域条件仅适用于PDF的第一页？from tabula import read_pdf df = read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf

浏览 1修改于2017-03-02得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索？

如何使用Java从PDF中的特定矩形区域提取数据？

从扫描的文档中提取数据c#

用Java/Kotlin文件检测unicode专用区域(PUA)字符

PDF数据提取-需要建议

如何识别哪些剪辑路径应用于路径或填写PDF矢量图形？

如何使用wkhtmltopdf在pdf页脚中创建可单击链接？

用iTextSharp使用.Net解析PDF形状对象

Java中PDF文本提取

禁用输入字段中Unicode字符的范围

Camelot PDF维数

用PDFBox验证电子签名

改进zbarimg qrcode识别

如何使用python识别pdf中的图形？

Ghost脚本更改输入pdf的尺寸

将模型属性传递给Django中的URL

有没有办法用pdf.js为pdf呈现编写javascript事件？

如何在CoSign Signature SOAP API中更改签名的坐标，并将其放在给定的文本上(即在此处签名)？

在PHP中标识PDF/A文件

利用Tabula从PDF中提取表

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐