首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Python通过文本的标题检测文本的语言(.csv)?

如何使用Python通过文本的标题检测文本的语言(.csv)?
EN

Stack Overflow用户
提问于 2020-05-18 14:43:50
回答 1查看 573关注 0票数 3

为了研究目的,我应该:

title

  • Identifying通过
  1. 读取.csv文件
  2. 检测文本的语言,文本的参数由某些关键字ex检测。脑叶切除->脑

我试着用Python和它的库NLTK来做第2和第3点,如果你做过类似的事情,你能给我一些提示吗?

提前谢谢你!

EN

回答 1

Stack Overflow用户

发布于 2020-05-19 01:21:27

这并不是完全可靠的,但您可以尝试几种语言识别工具。

使用langid.py

其中最受欢迎和最容易使用的是langid.py https://github.com/saffsd/langid.py

安装:python -m pip install -U langid

代码语言:javascript
复制
>>> import langid

>>> text = "Hallo, wie gehts?"
>>> lang, log_prob = langid.classify(text)
>>> print(lang)
de

使用pyCLD2

pycld2chromium-compact-language-detector的包装器,参见https://github.com/aboSamoor/pycld2

安装:python -m pip install -U pycld2

代码语言:javascript
复制
>>> import pycld2 as cld2

>>> text = "Hallo, wie gehts?"

>>> isReliable, textBytesFound, details = cld2.detect(text)
>>> lang = details[0][1]
>>> print(lang)
de

使用cld3

安装:python -m pip install -U pycld3

代码语言:javascript
复制
>>> import cld3

>>> text = "Hallo, wie gehts?"

>>> prediction = cld3.get_language(text)
>>> print(prediction.language)
de

以下是https://arxiv.org/pdf/1910.06748.pdf最近的一个很好的总结(2019年)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61872214

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档