我正在寻找服务器端PDF库(或命令行工具),它可以:
示例:
服务器程序将扫描PDF,查找搜索模式,保存与patten匹配的页面,并将文件保存在磁盘中。
与PHP / Ruby集成会更好。命令行工具也可以接受。它将是一个服务器端(linux或win32)批处理工具。不支持GUI/登录。i18n支持将是不错的,但不需要。谢谢~
发布于 2010-04-28 04:39:22
pdfminer + python中的多行模式匹配
发布于 2010-04-23 12:58:04
我的公司阿塔拉索刚刚发布了一些在.NET上运行的PDF操作工具。有一个文本提取类,可以用来查找文本并决定如何拆分文档,还有一个非常高级的文档类,可以使拆分变得非常简单。假设您有一个流到源PDF和一个越来越有序的列表来描述每个拆分的起始页面,那么生成拆分文件的代码如下所示:
public void SplitPdf(Stream stm, List<int> pageStarts, string outputDirectory)
{
PdfDocument mainDoc = new PdfDocument(stm);
int lastPage = mainDoc.Pages.Count - 1;
for (int i=0; i < pageStarts.Count; i++) {
int startPage = pageStarts[i];
int endPage= (i < pageStarts.Count - 1) ?
pageStarts[i + 1] - 1 :
lastPage;
if (startPage > endPage) throw new ArgumentException("list is not ordered properly", "pageStarts");
PdfDocument splitDoc = new PdfDocument();
for (j = startPage; j <= endPage; j++)
splitDoc.Pages.Add(mainDoc.Pages[j];
string outputPath = Path.Combine(outputDirectory,
string.Format("{0:D3}.pdf", i + 1));
splitDoc.Save(outputPath);
}如果将其概括为页面范围结构:
public struct PageRange {
public int StartPage;
public int EndPage;
}如果StartPage和EndPage包含描述一系列页面,那么代码就更简单了:
public void SplitPdf(Stream stm, List<PageRange> ranges, string outputDirectory)
{
PdfDocument mainDoc = new PdfDocument(stm);
int outputDocCount = 1;
foreach (PageRange range in ranges) {
int startPage = Math.Min(range.StartPage, range.EndPage); // assume not in order
int endPage = Math.Max(range.StartPage, range.EndPage);
PdfDocument splitDoc = new PdfDocument();
for (int i=startPage; i <= endPage; i++)
splitDoc.Pages.Add(mainDoc.Pages[i]);
string outputPath = Path.Combine(outputDirectory,
string.Format("{0:D3}.pdf", outputDocCount));
splitDoc.Save(outputPath);
outputDocCount++;
}
}发布于 2010-04-23 14:36:03
PDFBox是一个Java库,但它也有一些命令行工具:
http://pdfbox.apache.org/
PDFBox可以提取文本,也可以重建/拆分PDFS。
https://stackoverflow.com/questions/2681007
复制相似问题