我正在对GitHub评论做一些分析。但要做到这一点,我需要从大量注释中自动排除代码样本和错误消息。
另一种更简单的方式是,我可以只保留评论的英文部分。虽然几乎没有库来检测句子的语言,但在我的情况下也没有什么挑战。1)注释部分并不总是遵循正确的英语语法;2)代码样本和错误信息也主要由英语单词组成。
那么我最好的方法是什么呢?结果不需要100%准确,我只想知道最好的方法,至少能给我一个满意的结果。有什么想法吗?
发布于 2020-10-02 15:14:53
这个问题很老了,但是我在谷歌上搜索到了这个问题;所以提供this答案,以防有人也遇到这个问题。
https://stackoverflow.com/questions/47117874
复制相似问题