文章/答案/技术大牛

发布

社区首页 >问答首页 >Python中使用split()函数后的阿拉伯词表示

问Python中使用split()函数后的阿拉伯词表示
EN

Stack Overflow用户

提问于 2017-10-05 06:55:09

回答 2查看 1.3K关注 0票数 0

在Python中使用split()函数表示阿拉伯单词时，我遇到了问题。我使用阿拉伯文本作为输入文件(您可以尝试任何阿拉伯语源)。

下面是我从这里派生出来的原始代码

#!/usr/bin/env python
# encoding: utf8


from pprint import pprint
from random import choice
import codecs



# ----------------------build deictionary--------------------------
EOS = ['.', '?', '!']
file=u'C:\python27\نجود.txt'
fname = open(file, 'r')
#file1=codecs.open(file , 'r', 'utf-8')
text = fname.read()
#text=file1.read()
words = text.split()
d = {}
for i, word in enumerate(words):
    try:
        first, second, third = words[i], words[i + 1], words[i + 2]
    except IndexError:
        break
    key = (first, second)
    if key not in d:
        d[key] = []
        #
    d[key].append(third)

pprint (d)
    #for k, v in d.iteritems():
      #  print k, v
# -------------------------generate text---------------------------
li = []
first, second = key
li.append(first)
li.append(second)
while True:
    try:

        third = choice(d[key])  
    except KeyError:
        break
    li.append(third)
    if third[-1] in EOS:  
        break
    # else
    key = (second, third)
    first, second = key

gtext = ' '.join(li)
#decoded = gtext.decode('utf8')
print "النص المنشأ:", gtext
#file1.close()

我需要的输出和使用英文输入文件一样，如下所示：

{('He', 'is'): ['happy.',
                'happy.',
                'going.',
                'sleep.',
                'sad.',
                'happy.',
                'happy.',
                'sleep.',
                'angry.',
                'angry.'],
 ('angry.', 'He'): ['is', 'is'],
 ('going.', 'He'): ['is'],
 ('happy.', 'He'): ['is', 'is', 'is', 'is'],
 ('is', 'angry.'): ['He', 'He'],
 ('is', 'going.'): ['He'],
 ('is', 'happy.'): ['He', 'He', 'He', 'He'],
 ('is', 'sad.'): ['He'],
 ('is', 'sleep.'): ['He', 'He'],
 ('sad.', 'He'): ['is'],
 ('sleep.', 'He'): ['is', 'is'],
 ('He', 'is'): ['angry.']}

但这些词看上去像是无法读懂的文本：

    {('\xd8\xa3\xd9\x86\xd8\xa7', '\xd8\xa8\xd8\xb5\xd8\xaf\xd8\xaf'):['\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9'],('\xd8\xa7\xd9\x84\xd8\xa8\xd8\xb1\xd9\x86\xd8\xa7\xd9\x85\xd8\xac','\xd9\x81\xd9\x8a'): ['\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86.'('\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a', '\xd8\xb3\xd8\xaa\xd9\x83\xd9\x88\xd9\x86'): ['\xd9\x85\xd8\xae\xd8\xaa\xd9\x84\xd9\x81\xd8\xa9.'],('\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86','\xd8\xb1\xd8\xa7\xd8\xa6\xd8\xb9'): ['\xd9\x88\xd8\xac\xd9\x85\xd9\x8a\xd9\x84,','\xd9\x88\xd9\x8a\xd8\xb3\xd8\xaa\xd8\xad\xd9\x82'],('\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86','\xd9\x85\xd8\xb9'): ['\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a'('\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86.', '\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'): ['\xd8\xb1\xd8\xa7\xd8\xa6\xd8\xb9'],('\xd8\xa8\xd8\xb5\xd8\xaf\xd8\xaf', '\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9'): ['\xd9\x87\xd8\xb0\xd8\xa7'],('\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9', '\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'): ['\xd9\x85\xd8\xb9'],('\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9', '\xd9\x87\xd8\xb0\xd8\xa7'): ['\xd8\xa7\xd9\x84\xd8\xa8\xd8\xb1\xd9\x86\xd8\xa7\xd9\x85\xd8\xac'],('\xd8\xb1\xd8\xa7\xd8\xa6\xd8\xb9', '\xd9\x88\xd8\xac\xd9\x85\xd9\x8a\xd9\x84,'): ['\xd9\x88\xd9\x84\xd9\x83\xd9\x86'],('\xd8\xb1\xd8\xa7\xd8\xa6\xd8\xb9', '\xd9\x88\xd9\x8a\xd8\xb3\xd8\xaa\xd8\xad\xd9\x82'): ['\xd8\xa7\xd9\x84\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9.'],('\xd8\xb3\xd8\xaa\xd9\x83\xd9\x88\xd9\x86', '\xd9\x85\xd8\xae\xd8\xaa\xd9\x84\xd9\x81\xd8\xa9.'): ['\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'],('\xd8\xb9\xd9\x84\xd9\x8a\xd9\x83\xd9\x85', '\xd8\xa3\xd9\x86\xd8\xa7'): ['\xd8\xa8\xd8\xb5\xd8\xaf\xd8\xaf'],('\xd9\x81\xd9\x8a', '\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86.'): ['\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'],('\xd9\x85\xd8\xae\xd8\xaa\xd9\x84\xd9\x81\xd8\xa9.', '\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'): ['\xd8\xb1\xd8\xa7\xd8\xa6\xd8\xb9'],('\xd9\x85\xd8\xb9', '\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a'): ['\xd8\xb3\xd8\xaa\xd9\x83\xd9\x88\xd9\x86'],('\xd9\x87\xd8\xb0\xd8\xa7', '\xd8\xa7\xd9\x84\xd8\xa8\xd8\xb1\xd9\x86\xd8\xa7\xd9\x85\xd8\xac'): ['\xd9\x81\xd9\x8a'],('\xd9\x88\xd8\xac\xd9\x85\xd9\x8a\xd9\x84,', '\xd9\x88\xd9\x84\xd9\x83\xd9\x86'): ['\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9'],('\xd9\x88\xd9\x84\xd9\x83\xd9\x86', '\xd8\xaa\xd8\xac\xd8\xb1\xd8\xa8\xd8\xa9'): ['\xd8\xa8\xd8\xa7\xd9\x8a\xd8\xab\xd9\x88\xd9\x86'],('\xef\xbb\xbf\xd8\xa7\xd9\x84\xd8\xb3\xd9\x84\xd8\xa7\xd9\x85', '\xd8\xb9\xd9\x84\xd9\x8a\xd9\x83\xd9\x85'): ['\xd8\xa3\xd9\x86\xd8\xa7']}

或者像这样，如果Python 3：

{('ï»؟ط§ظ„ط³ظ„ط§ظ…', 'ط¹ظ„ظٹظƒظ…'): ['ط£ظ†ط§'],
 ('ط£ظ†ط§', 'ط¨طµط¯ط¯'): ['طھط¬ط±ط¨ط©'],
 ('ط§ظ„ط¨ط±ظ†ط§ظ…ط¬', 'ظپظٹ'): ['ط¨ط§ظٹط«ظˆظ†.'],
 ('ط§ظ„ط¹ط±ط¨ظٹ', 'ط³طھظƒظˆظ†'): ['ظ…ط®طھظ„ظپط©.'],
 ('ط¨ط§ظٹط«ظˆظ†', 'ط±ط§ط¦ط¹'): ['ظˆط¬ظ…ظٹظ„,', 'ظˆظٹط³طھط\xadظ‚'],
 ('ط¨ط§ظٹط«ظˆظ†', 'ظ…ط¹'): ['ط§ظ„ط¹ط±ط¨ظٹ'],
 ('ط¨ط§ظٹط«ظˆظ†.', 'ط¨ط§ظٹط«ظˆظ†'): ['ط±ط§ط¦ط¹'],
 ('ط¨طµط¯ط¯', 'طھط¬ط±ط¨ط©'): ['ظ‡ط°ط§'],
 ('ط±ط§ط¦ط¹', 'ظˆط¬ظ…ظٹظ„,'): ['ظˆظ„ظƒظ†'],
 ('ط±ط§ط¦ط¹', 'ظˆظٹط³طھط\xadظ‚'): ['ط§ظ„طھط¬ط±ط¨ط©.'],
 ('ط³طھظƒظˆظ†', 'ظ…ط®طھظ„ظپط©.'): ['ط¨ط§ظٹط«ظˆظ†'],
 ('ط¹ظ„ظٹظƒظ…', 'ط£ظ†ط§'): ['ط¨طµط¯ط¯'],
 ('طھط¬ط±ط¨ط©', 'ط¨ط§ظٹط«ظˆظ†'): ['ظ…ط¹'],
 ('طھط¬ط±ط¨ط©', 'ظ‡ط°ط§'): ['ط§ظ„ط¨ط±ظ†ط§ظ…ط¬'],
 ('ظˆط¬ظ…ظٹظ„,', 'ظˆظ„ظƒظ†'): ['طھط¬ط±ط¨ط©'],
 ('ظˆظ„ظƒظ†', 'طھط¬ط±ط¨ط©'): ['ط¨ط§ظٹط«ظˆظ†'],
 ('ظپظٹ', 'ط¨ط§ظٹط«ظˆظ†.'): ['ط¨ط§ظٹط«ظˆظ†'],
 ('ظ‡ط°ط§', 'ط§ظ„ط¨ط±ظ†ط§ظ…ط¬'): ['ظپظٹ'],
 ('ظ…ط®طھظ„ظپط©.', 'ط¨ط§ظٹط«ظˆظ†'): ['ط±ط§ط¦ط¹'],
 ('ظ…ط¹', 'ط§ظ„ط¹ط±ط¨ظٹ'): ['ط³طھظƒظˆظ†']}

我已经尝试过许多解决方案，但问题仍未解决

我试过：

解决方案1：

stack= d.items()
    while stack:
        k, v = stack.pop()
        if isinstance(v, dict):
            stack.extend(v.iteritems())
        else:
            output= "%s: %s" % (k, v)
            print output.decode('utf8')

解决方案2：

 for k, v in d.items():
       print k, v

解决方案3：

for k, v in d.keys():
    print k, v
    for attribute, value in d.items():
        print('{} : {}'.format(attribute, value))

解决方案4：

 words = text.split()
    uniwords= unicode(words)
    print uniwords

但问题仍然存在。此外，我尝试了codecs模块，但仍然打印像上面的输出。实际上，只有当我使用文件I/O而不是普通文本时，才会出现这个问题。

所以我需要的是，如果我打印拆分函数，它应该用阿拉伯单词打印，就像在英语示例中一样。

python

python-2.7

python-3.x

arabic

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-10-08 18:37:50

在python3中，您需要将fname = open(file, 'r')更改为fname = open(file, 'r', encoding='utf-8')。

示例：在您的文件上运行以下代码：

with open('/tmp/test.txt', 'r', encoding='utf-8') as f:
    l = f.read()
    print(l.split())

您将得到一个由" "拆分的单词列表

票数 2

Stack Overflow用户

发布于 2017-10-08 18:51:56

Python尝试用默认OS编码打开文件，而文件可能是用UTF-8编码的。你需要：

open('...', 'r', encoding='utf-8')

另外，除非您有一个非常好的理由，否则请尽量远离Python2.7。使用unicode字符串既旧又难。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46579601

复制

相似问题

问Python中使用split()函数后的阿拉伯词表示
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中使用split()函数后的阿拉伯词表示EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中使用split()函数后的阿拉伯词表示
EN