为了研究目的,我应该:
title
我试着用Python和它的库NLTK来做第2和第3点,如果你做过类似的事情,你能给我一些提示吗?
提前谢谢你!
发布于 2020-05-19 01:21:27
这并不是完全可靠的,但您可以尝试几种语言识别工具。
使用langid.py
其中最受欢迎和最容易使用的是langid.py https://github.com/saffsd/langid.py
安装:python -m pip install -U langid
>>> import langid
>>> text = "Hallo, wie gehts?"
>>> lang, log_prob = langid.classify(text)
>>> print(lang)
de使用pyCLD2
pycld2是chromium-compact-language-detector的包装器,参见https://github.com/aboSamoor/pycld2
安装:python -m pip install -U pycld2
>>> import pycld2 as cld2
>>> text = "Hallo, wie gehts?"
>>> isReliable, textBytesFound, details = cld2.detect(text)
>>> lang = details[0][1]
>>> print(lang)
de使用cld3
安装:python -m pip install -U pycld3
>>> import cld3
>>> text = "Hallo, wie gehts?"
>>> prediction = cld3.get_language(text)
>>> print(prediction.language)
de以下是https://arxiv.org/pdf/1910.06748.pdf最近的一个很好的总结(2019年)
https://stackoverflow.com/questions/61872214
复制相似问题