文章/答案/技术大牛

发布

社区首页 >问答首页 >非英语词汇的n-克生成

问非英语词汇的n-克生成
EN

Stack Overflow用户

提问于 2015-12-09 17:34:21

回答 1查看 171关注 0票数 0

我正在为捷克语单词表演Bigram生成。我可以用Python生成Bi。问题在于捷克语中的非英语字符。

输入：

共和报“proti znovuzvoleníObamy”。

执行Bigram，输出是

[‘\xc3\xa1n’，‘策略吉’，‘战略家’，'proti'，'znovuzvolen\xc3\xad'，‘znovuzvolen\xc3xad’，'Obamy']

捷克语的特殊字母被转换为\xc3xAD。需要对代码进行哪些更改才能在输出中以正确的方式获得特殊的字母

python

non-ascii-characters

n-gram

non-english

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-09 17:41:21

数据是正确的，但是当您将列表转换为字符串时，输出是使用repr为列表项准备的，而不是str。比较：

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34185299

复制

相似问题

问非英语词汇的n-克生成
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非英语词汇的n-克生成EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非英语词汇的n-克生成
EN