当使用C# iTextSharp阅读PDF时,默认情况下在数据集之间使用空白。
当我尝试按空格拆分时,这会给我带来麻烦,因为PDF中的数据包含空格。
例如,我有一个如下所示的PDF,它有一个表:
基金AA|固定收益
基金BB|现金
iTextSharp提取的结果是:
基金AA固定收益
资金BB现金
这样我就不能分开了。所以我想设置一个特殊的字符,比如数据集之间的+。通过这种方式,我可以进行分解和判断。
预期的结果是:
基金AA+Fixed收入
基金BB+Cash
有谁知道如何做到这一点吗?
谢谢。
发布于 2016-08-19 17:56:06
实际上,除非我们更新源代码,否则无法将空格中的分隔符设置为“+”。
这就是我为自己解决问题的方式。我下载源代码并更新它,然后获得新的itextsharp.dll,它现在使用'+‘作为分隔符。
我认为如果我们将其设置为属性字段或参数,并且用户可以设置它的值,这会更好。
我更新的代码行粘贴在下面:https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs行193,https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs行145
https://stackoverflow.com/questions/39031634
复制相似问题