我学习文学,并试图弄清楚如何将一系列小说从.txt或其他格式导入到python中,以处理不同的词频、相似性等。我希望尝试建立一些定量的方法来定义一个流派,而不仅仅是主题。
我特别想看看这些小说中是否出现了特定的词串、概念和位置。类似于:(http://web.uvic.ca/~mvp1922/modmac/)。然后,我想把重点放在一部小说上,使用过去的数据作为比较,并分别分析它的人物运动和与其他人物的互动。
如果这个问题是模糊的,不清楚的,或者仅仅是一个愚蠢的问题,我非常抱歉。我才刚刚起步。
发布于 2019-01-24 00:16:49
欢迎使用StackOverflow!
这是一个非常非常大的话题。如果您刚刚开始,我建议您使用this book,它将引导您使用Python库了解一些NLP的基础知识。(如果您已经使用过Python,而不是NLP,那么本书的某些部分将有点初级。)我在大学阶段的课程教学中使用过这本书,并有很好的经验。
一旦你掌握了基础知识,听起来你基本上就遇到了文本分类(或可能的集群)问题。关于这个主题有很多很好的教程,包括很多使用Python库的,比如scikit-learn。为了更有效地进行谷歌搜索,你需要探索的其他主题是“词袋”(忽略句子结构的分析,很可能是你将开始的方法)和“命名实体识别”(如果你想识别字符、位置等)。
对于将来的问题,获得有用答案的最好方法是发布你正在苦苦挣扎的代码的具体示例- this是一个很好的资源,可以帮助你做到这一点。许多用户会避免使用open-ended questions,但会跳过所有需要解决的明确而具体的问题。
祝您学习愉快!
https://stackoverflow.com/questions/54327552
复制相似问题