首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >你将如何使用马尔可夫链来发现英语文本的特征?

你将如何使用马尔可夫链来发现英语文本的特征?
EN

Stack Overflow用户
提问于 2021-11-23 20:02:01
回答 1查看 21关注 0票数 0

我正在做一个项目,涉及识别特定组中文本的特征。例如,假设有两组文本:一组包含发送给员工的电子邮件,另一组包含发送给老板的电子邮件。这个想法是为了探索在给你下面和你上面的人写电子邮件时,存在句法或词汇选择上的差异。我最初的方法是使用k-means聚类来识别语法序列和单词序列,这些序列(1)对每个组都是唯一的,(2)识别出更多的子组(这是成功的)。

然而,有人建议我使用马尔可夫链来分析个人的电子邮件写作习惯,并识别每个组的个人电子邮件特征(他们说我应该得到相同的序列)。我以前从来没有用过马尔可夫链,当我试图弄清楚这一点时,我非常迷茫。马尔可夫链如何引导我找到语法或单词序列?有关于这类事情的教程吗?任何帮助和指导,让我在这里开始非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2021-11-23 20:21:15

我认为你绝对应该看看Latent Dirichlet Allocation

这种方法允许捕获语料库中主题的分布。本文的主要参考文献是Thomas L. Griffiths and Mark Steyvers (2004)。如果你想要更多的实践材料,我建议你看看这个网站(https://github.com/sekhansen),它提供了关于这个主题的很好的教程。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70087136

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档