我是机器学习和人工智能的新手,我正在努力解决一个问题,在这个问题中,我需要清理一个表格(数据库)中的文本/单词。例如,我应该删除诸如和,等等之类的词,或者用COMP之类的词替换COMP,或者用适当的词替换其他缩写词。我想找到一些关于为此目的提出的技术的资源,并找到我还能做些什么来更好地清理桌子。谢谢你的帮助。
发布于 2016-01-25 22:28:44
例如,我应该删除诸如和,等等..。
在自然语言处理中,第一个任务称为停止词删除。您可以通过查看文字在文档中的频率来识别它们;信息不丰富的单词经常出现。
https://datascience.stackexchange.com/questions/9955
相似问题