首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从txt文件导入小说/非小说

从txt文件导入小说/非小说
EN

Stack Overflow用户
提问于 2019-01-23 20:43:10
回答 1查看 43关注 0票数 0

我学习文学,并试图弄清楚如何将一系列小说从.txt或其他格式导入到python中,以处理不同的词频、相似性等。我希望尝试建立一些定量的方法来定义一个流派,而不仅仅是主题。

我特别想看看这些小说中是否出现了特定的词串、概念和位置。类似于:(http://web.uvic.ca/~mvp1922/modmac/)。然后,我想把重点放在一部小说上,使用过去的数据作为比较,并分别分析它的人物运动和与其他人物的互动。

如果这个问题是模糊的,不清楚的,或者仅仅是一个愚蠢的问题,我非常抱歉。我才刚刚起步。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-01-24 00:16:49

欢迎使用StackOverflow!

这是一个非常非常大的话题。如果您刚刚开始,我建议您使用this book,它将引导您使用Python库了解一些NLP的基础知识。(如果您已经使用过Python,而不是NLP,那么本书的某些部分将有点初级。)我在大学阶段的课程教学中使用过这本书,并有很好的经验。

一旦你掌握了基础知识,听起来你基本上就遇到了文本分类(或可能的集群)问题。关于这个主题有很多很好的教程,包括很多使用Python库的,比如scikit-learn。为了更有效地进行谷歌搜索,你需要探索的其他主题是“词袋”(忽略句子结构的分析,很可能是你将开始的方法)和“命名实体识别”(如果你想识别字符、位置等)。

对于将来的问题,获得有用答案的最好方法是发布你正在苦苦挣扎的代码的具体示例- this是一个很好的资源,可以帮助你做到这一点。许多用户会避免使用open-ended questions,但会跳过所有需要解决的明确而具体的问题。

祝您学习愉快!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54327552

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档