我有一份关于不同主题的会议清单。
Conference on genomics and neurosciences
Advances in string theory and astrophysics
Genomics and neuroscience: 20 years of research
Swiss Physics society meeting on string theory and astrophysics
...它们分为不同的类,如1和3、2和4。对这些标题进行分组的正确工具是什么?
发布于 2018-06-25 22:46:18
我假设您有一些带有标签的培训数据,即标题已经链接到给定类的数据?这就是监督学习(相对于非监督学习),因此您可以遵循以下步骤:
第一步:你有文字作为输入,所以你需要一个方法来创建数字表示(向量)。为此,您可以研究诸如Word2Vec 2,Doc2Vec、GLoVE或类似TF-以色列国防军之类的算法。如果您选择第一个,您可能会考虑在python中尝试空间库。这是关于Word2Vec使用spaCy的教程。
第二步:一旦你得到了每个标题的数字表示,你就需要对它们进行分类。你可以用几种方法。也许最简单的方法是类似于集群算法,例如SciKit学习中的数据库扫描算法 -这里是一个演示。您可以尝试更复杂的方法,例如支持向量机或神经网络,但最好从一种方法开始,它将使您更快地获得某些结果。你是分类五级标题,所以一定要形成你的问题作为一个与回归问题相反的分类。
第三步:评估你的结果,并尝试改变上面循环的一部分。
在上面,我假设您是在讨论会议标题的语义意义,而不是文字/字母组合之间的相似性。当然,这可以通过分析计算,而不需要使用学习的模型。
针对OP的评论:根据我的经验,使用TF或称为最小新集的方法可能是将标题放入允许聚类的表示中的一个好方法。一旦集群形成,就由您来解释它们并分配标签。如果你知道只有10次会议,那么要取得成果应该不会太困难。做类似事情的看一下这篇硕士论文 -而不是会议,他们想要检测主题。免责声明:我监督了那篇论文。
发布于 2019-09-01 16:04:43
如果您的数据没有标记,并且您希望在数字特征中转换它们,您可以尝试Bour增益嵌入。为此,您需要两个会议标题之间的距离。这可能是Jaccard距离(单词袋)和Levenshtein距离的组合(但只有当你用类似的字符(例如物理和天体物理学)写的单词时,这才会有意义)。在数值特征中有这样的表示,允许进行k-均值聚类,例如标记或标记后,进行监督学习。有关更多细节,您可以在这里查看:http://www.orges-leka.de/automatic_功能_engineering.html (免责声明:我已经写了这篇博客文章)。我在我的网站上对搜索查询做了一些类似的事情:https://www.kaggle.com/orgesleka/keywords-similarity-dataset --使用Bour增益算法时的要点--是如何定义两个会议标题的距离/相似性,这影响了表示。
https://datascience.stackexchange.com/questions/33644
复制相似问题