搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

4回答

如何从pdf文档中提取特定矩形区域内的文本？

我必须从一个特定的矩形区域内的pdf文件中提取文本。工作流程如下。首先，将pdf转换为jpg图像。然后，用户在图片顶部绘制选择矩形。然后我需要从pdf文档中提取该选择区域内的所有文本。有什么建议可以从C#下载免费的pdf库来使用吗？

浏览 6修改于2010-11-29得票数 6

回答已采纳

4回答

Jquery从文本中提取URL

我需要使用jquery从文本中提取URL。假设我在页面上的文本区域代码后面有sowhere @techreport{blabl, url = {http://server.com/thepdf.pdf}, wrongurl ={http://ser

浏览 0修改于2010-11-16得票数 1

回答已采纳

1回答

将一个blob列中的pdf存储到数据库表中，在顶端表单/区域中预览pdf？

我正在使用oracle apex 5.1，并将一个pdf存储到数据库表中的blob列中；我希望将该blob列提取到apex中，并能够在apex表单/区域中预览它。我知道你可以下载一个pdf格式，但我只想预览，而不必下载pdf格式。您是否会尝试将blob内容存储到APEX_APPLICATION_TEMP_FILES中以用于显示？

浏览 41修改于2019-01-24得票数 0

4回答

不幸的是，在第一页上有很多无用的区域，我不想让Tabula提取。根据文档，您可以指定要从中提取的页面区域。然而，无用的区域只是在我的PDF文件的第一页，因此，对于所有后续的页面，Tabula将错过顶部部分。是否有方法指定区域条件仅适用于PDF的第一页？from tabula import read_pdf df = read_pdf(r"C:\Users\riley\Desktop\Bank Statem

浏览 1修改于2017-03-02得票数 2

3回答

从pdf中提取区域

我想从pdf页面中提取一个由x-y坐标给出的区域。提取的区域可以作为页面存储在新的pdf文档中。这需要做几次，所以我希望这个过程是脚本化的。有没有什么工具/库可以帮助你做到这一点？

浏览 1提问于2013-03-30得票数 1

回答已采纳

2回答

如何查找camelot的表区域

正如在camelot中提到的，我们可以从特定区域提取表，例如： tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270']) 但是我怎样才能为我的pdf找到这些区域。

浏览 34修改于2019-09-20得票数 3

1回答

如何丢弃PDF中的裁剪文本

我需要裁剪一个pdf以提取该pdf文档中的一些特定信息。有没有办法裁剪pdf并只保留裁剪区域内的文本，而丢弃裁剪区域外的所有其他文本？ input1 = PdfFileReader, 50) pag

浏览 0提问于2019-04-22得票数 1

2回答

Python-Camelot提取空表

我正在使用Camelot通过以下命令提取PDF的多个部分。实际上包含这些区域中的数据时，这种方法运行得很好。UserWarning: No tables found in table area 1 和 ValueError: min() arg is an empty sequence 我需要一种方法来提取所有PDF中的这些特定区域，但忽略之后的空区域。需要能够以有序的方式使用提取的数据。也可以接受任何其他建议提亚

浏览 37提问于2019-01-02得票数 1

2回答

使用Camelot查找PDF尺寸

我正在使用Camelot来阅读完整的PDF，并从每个PDF中提取约112个属性。我使用表区来提取属性 test_variable = camelot.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) 问题是，对于所有文档中的相同属性，表区域并不是恒定的。test_variable = camelot.read_p

浏览 23提问于2019-01-14得票数 4

1回答

提取PDF的部分

我正在尝试提取PDF文件的部分，以便在文本分析中使用。我尝试使用来实现这一点。但是，像这样的命令仅提取区域的(x,y)坐标，如下例所示。line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and Counseling 79 (2010) 315-319<&

浏览 0提问于2016-07-29得票数 0

2回答

无法读取横越线突出显示的准确文本

我正在使用PDBox阅读PDF文档中突出显示的内容。我能够用单行和多个单词读到突出显示的文本。然而，我无法读到突出显示的文本跨行。请找到下面的示例代码来读取突出显示的文本。List allPages = pddDocument.getDocumentCatalog我找不到任何API来提取精确的突出显示的文本。例如:从测试PDF

浏览 2修改于2017-07-31得票数 4

1回答

如何识别哪些剪辑路径应用于路径或填写PDF矢量图形？

我试图从PDF文件中提取矢量图形，并创建相应的SVG文件。为此，我使用SVGOutputDev (‎)和xpdf库。现在，SVGOutputDev还没有实现剪辑路径提取，我也在尝试实现同样的功能。虽然我能够提取剪辑路径定义本身，但我无法确定哪些定义适用于正常的笔画或填充区域。例如，请参考获取从PDF页面中提取的SVG，以及在提取过程中看到的PDF图形命令序列的相应转储。从SVG中可以看出，有多个剪辑路径和一个矩形填充区域</e

浏览 2提问于2013-06-08得票数 2

回答已采纳

1回答

如何使用python-camelot获取表格坐标？

我试图解析一些pdf文件，以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此，我尝试使用camelot来提取表，并获得了很好的结果，但我希望提取每个表的标题，因为我希望为每个表与其标题进行映射。因此，我尝试使用tables[i]._bbox获取每个表的坐标，然后向这些坐标添加一些边距，以检测表标题的区域(它可以在表的顶部、左侧或底部)，如下图所示：title of table on the left title of the tabl

浏览 83修改于2019-09-19得票数 3

回答已采纳

3回答

自动删除裁剪区域之外的所有PDF内容

对于一组演讲幻灯片，我从PDF文件中提取了几个矢量插图。为此，我在Preview.app中高亮显示相关区域，复制并从剪贴板打开一个新文件。现在我可以简单地删除除了Illustrator中的相关图形之外的所有内容，但我更愿意自动化这个过程，因为我有大量的图形。我如何使这个过程自动化，

浏览 0提问于2017-07-19得票数 2

2回答

通过坐标提取PDF页面的区域

我正在寻找一个工具来提取一个1页PDF文件的给定矩形区域(通过坐标)，并产生一个指定区域的1页PDF文件：extract file.pdf0 0 100 100 > out.pdf# it contains

浏览 3提问于2012-01-24得票数 6

回答已采纳

2回答

如何从不可搜索的pdf中检测出可搜索的pdf？

我有一堆pdf文件，一些是可搜索的常规pdf文件，一些是一些不可搜索的文件的扫描版本。我想提取每个pdf的内容。要提取常规的内容，我使用pdf；要从不可搜索的pdfs中提取内容，我使用pdf。然而，我需要区分哪个pdf是正常的pdf，哪个不是。有没有办法做到这一点？

浏览 4提问于2015-07-09得票数 2

1回答

Ghost脚本更改输入pdf的尺寸

我正在使用gs 9.20，并试图从pdf文件中使用以下命令生成eps文件。内容区域(灰色)之外的区域是空白区域。PDF:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图)EPS:这里的尺寸以点为单位(来自Adobe Illustrator的屏幕截图) 下面是pdfinfo -bo

浏览 2修改于2017-03-24得票数 0

1回答

Pdf真实裁剪

我需要使用linux shell裁剪一个pdf文档，然后在裁剪后的pdf中提取文本。我的想法是使用pdfcrop linux工具裁剪pdf，然后使用txt2pdf文本提取器工具来提取裁剪区域中的文本，但我意识到我是在图像上思考，当我尝试这样做时，结果与在原始的，而不是裁剪的pdf上做的是一样的由于pdf格式适用于图层，如果我不“裁剪”所有图层，结果将包含所有图层的所有信息，这是我不想要的。如果有人知道如何在

浏览 0提问于2014-11-03得票数 0

1回答

从选定区域或坐标中的pdf中提取文本和图像

我有一个特定的要求，从一个pdf的file.The区域中的特定区域提取文本和图像可能是选定的或突出显示的，或者是从给定的一组坐标。当我浏览的时候，所有的方法都是完全从PDF中提取图像和文本，而不是在指定的位置。我尝试了iTextSharp，Syncfussion，Apose，但找不到更好的方法。

浏览 0修改于2010-03-12得票数 2

1回答

我想打印一个TinyMCE区域的内容

tiny-mce' id='editor2'></textarea></body> 这将创建两个(许多)具有丰富格式的文本区域，但是，我无法提取文本区域的内容并将其放入

浏览 53修改于2020-04-13得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何从pdf文档中提取特定矩形区域内的文本？

Jquery从文本中提取URL

将一个blob列中的pdf存储到数据库表中，在顶端表单/区域中预览pdf？

利用Tabula从PDF中提取表

从pdf中提取区域

如何查找camelot的表区域

如何丢弃PDF中的裁剪文本

Python-Camelot提取空表

使用Camelot查找PDF尺寸

提取PDF的部分

无法读取横越线突出显示的准确文本

如何识别哪些剪辑路径应用于路径或填写PDF矢量图形？

如何使用python-camelot获取表格坐标？

自动删除裁剪区域之外的所有PDF内容

通过坐标提取PDF页面的区域

如何从不可搜索的pdf中检测出可搜索的pdf？

Ghost脚本更改输入pdf的尺寸

Pdf真实裁剪

从选定区域或坐标中的pdf中提取文本和图像

我想打印一个TinyMCE区域的内容

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐