首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在C# iTextSharp中设置数据集之间的字符

如何在C# iTextSharp中设置数据集之间的字符
EN

Stack Overflow用户
提问于 2016-08-19 13:22:58
回答 1查看 92关注 0票数 1

当使用C# iTextSharp阅读PDF时,默认情况下在数据集之间使用空白。

当我尝试按空格拆分时,这会给我带来麻烦,因为PDF中的数据包含空格。

例如,我有一个如下所示的PDF,它有一个表:

基金AA|固定收益

基金BB|现金

iTextSharp提取的结果是:

基金AA固定收益

资金BB现金

这样我就不能分开了。所以我想设置一个特殊的字符,比如数据集之间的+。通过这种方式,我可以进行分解和判断。

预期的结果是:

基金AA+Fixed收入

基金BB+Cash

有谁知道如何做到这一点吗?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2016-08-19 17:56:06

实际上,除非我们更新源代码,否则无法将空格中的分隔符设置为“+”。

这就是我为自己解决问题的方式。我下载源代码并更新它,然后获得新的itextsharp.dll,它现在使用'+‘作为分隔符。

我认为如果我们将其设置为属性字段或参数,并且用户可以设置它的值,这会更好。

我更新的代码行粘贴在下面:https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs行193,https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs行145

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39031634

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档