文章/答案/技术大牛

发布

社区首页 >问答首页 >阿拉伯语pdf文本提取

问阿拉伯语pdf文本提取
EN

Stack Overflow用户

提问于 2022-06-09 11:45:09

回答 2查看 335关注 0票数 2

我试图从阿拉伯pdfs中提取文本- -原始数据提取，而不是OCR -。

我尝试过许多包、工具，但它们都不起作用，python包、pdfBox、adobe和许多其他工具以及所有这些工具和字段都可以正确提取文本，要么它读取文本LTR，要么它做错误的解码。

以下是来自不同工具的两个示例

样本1：

املحتويات

7 الثانية الطبعة مقدمة
9 وتاريخه األدب -١
51 الجاهليون -٢
95 الشعر نحل أسباب -٣
149 والشعراء الشعر -٤
213 مرض شعر -٥
271 الشعر -٦
285 الجاهيل النثر -٧

样本2：

ﺔﻴﻧﺎﺜﻟا ﺔﻌﺒﻄﻟا ﺔﻣﺪﻘﻣ
ﻪﺨﻳرﺎﺗو بدﻷا -١
نﻮﻴﻠﻫﺎﺠﻟا -٢
ﺮﻌﺸﻟا ﻞﺤﻧ بﺎﺒﺳأ -٣
ءاﺮﻌﺸﻟاو ﺮﻌﺸﻟا -٤
ﴬﻣ ﺮﻌﺷ -٥
ﺮﻌﺸﻟا -٦
ﲇﻫﺎﺠﻟا ﺮﺜﻨﻟا -٧

原文

是的，我可以复制它，得到同样的渲染文本。

有什么工具可以正确提取阿拉伯文本吗？

书的链接可以找到这里

pdf

text-extraction

pdf-parsing

pdfparser

pdftextstream

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-06-09 14:59:21

PDF中的文本与用于构造它的文本不一样，在您的示例中，页面7在表面以阿拉伯语显示，但在纯文本中编码为7。

然而，更大的问题是字体所支持的语言，因此在记事本中，我不得不接受脚本字体来查看相似之处，但这就是使用字体替换。

另一个复杂的问题是Unicode和空格排序。

所以结果是

pdftotext -f 5 -l 5 في_الأدب_الجاهلي.pdf try.txt

充其量看起来就像

因此，概括地说，与任何其他简单尝试相比，示例1即使不是更好，也是相等的.。

稍后从B.A.评论中编辑B.A.评论

我找到了一种解决这个问题的方法，在提取文本之后，打开txt文件并使用提供 unicodedata.normalize() 函数的unicodedata模块对其内容进行规范化。因此，我现在可以说pdftotext是阿拉伯文本提取的最佳工具。

票数 1

Stack Overflow用户

发布于 2022-10-03 08:58:15

Unicode规范化应该解决这个问题。(您可以选择NFKC)

大多数编程语言都是正常的。有关正常化的更多信息，请在这里查看。https://unicode.org/reports/tr15/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72559699

复制

相似问题

问阿拉伯语pdf文本提取
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阿拉伯语pdf文本提取EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阿拉伯语pdf文本提取
EN