首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >阿拉伯语pdf文本提取

阿拉伯语pdf文本提取
EN

Stack Overflow用户
提问于 2022-06-09 11:45:09
回答 2查看 335关注 0票数 2

我试图从阿拉伯pdfs中提取文本- -原始数据提取,而不是OCR -。

我尝试过许多包、工具,但它们都不起作用,python包、pdfBox、adobe和许多其他工具以及所有这些工具和字段都可以正确提取文本,要么它读取文本LTR,要么它做错误的解码。

以下是来自不同工具的两个示例

样本1:

代码语言:javascript
复制
املحتويات

7 الثانية الطبعة مقدمة
9 وتاريخه األدب -١
51 الجاهليون -٢
95 الشعر نحل أسباب -٣
149 والشعراء الشعر -٤
213 مرض شعر -٥
271 الشعر -٦
285 الجاهيل النثر -٧

样本2:

代码语言:javascript
复制
ﺔﻴﻧﺎﺜﻟا ﺔﻌﺒﻄﻟا ﺔﻣﺪﻘﻣ
ﻪﺨﻳرﺎﺗو بدﻷا -١
نﻮﻴﻠﻫﺎﺠﻟا -٢
ﺮﻌﺸﻟا ﻞﺤﻧ بﺎﺒﺳأ -٣
ءاﺮﻌﺸﻟاو ﺮﻌﺸﻟا -٤
ﴬﻣ ﺮﻌﺷ -٥
ﺮﻌﺸﻟا -٦
ﲇﻫﺎﺠﻟا ﺮﺜﻨﻟا -٧

原文

是的,我可以复制它,得到同样的渲染文本。

有什么工具可以正确提取阿拉伯文本吗?

书的链接可以找到这里

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-06-09 14:59:21

PDF中的文本与用于构造它的文本不一样,在您的示例中,页面7在表面以阿拉伯语显示,但在纯文本中编码为7。

然而,更大的问题是字体所支持的语言,因此在记事本中,我不得不接受脚本字体来查看相似之处,但这就是使用字体替换。

另一个复杂的问题是Unicode和空格排序。

所以结果是

代码语言:javascript
复制
pdftotext -f 5 -l 5 في_الأدب_الجاهلي.pdf try.txt

充其量看起来就像

因此,概括地说,与任何其他简单尝试相比,示例1即使不是更好,也是相等的.

稍后从B.A.评论中编辑B.A.评论

我找到了一种解决这个问题的方法,在提取文本之后,打开txt文件并使用提供 unicodedata.normalize() 函数的unicodedata模块对其内容进行规范化。因此,我现在可以说pdftotext是阿拉伯文本提取的最佳工具。

票数 1
EN

Stack Overflow用户

发布于 2022-10-03 08:58:15

Unicode规范化应该解决这个问题。(您可以选择NFKC)

大多数编程语言都是正常的。有关正常化的更多信息,请在这里查看。https://unicode.org/reports/tr15/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72559699

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档