文章/答案/技术大牛

发布

问文档解析建模和方法？
EN

Data Science用户

提问于 2019-02-08 09:37:25

回答 1查看 236关注 0票数 1

我对数据科学/机器学习还比较陌生(是的，我知道)，并且正在尝试文本分析。我只想要一个相对幼稚的方法，我想知道我的方法在程序上是否有效，即使我可能没有得到完美的结果。我想比较我的模型与全文tf-以色列国防军搜索特定技能/关键字对照的简历索引。

任务:对job descriptions进行分类，而不是以一种无监督的方式对它们进行聚类。最后，我希望将resumes与它们相匹配，作为我的想法的一个基本实现。我在想，简单地实现单词嵌入和kmeans是可以的。基本上，从特定的职务说明中提取document_vectors，然后根据这些向量对职务说明进行聚类。这将创建一个贫民区“标记”系统，这样我就可以应用一个分类算法，然后我将使用简历raw_text并提取一个新的向量，将其应用到其中一个集群中(回归)。

总结

1. Use a large database of job descriptions
2. Tokenize the text, and apply doc2vec and generate document vectors
3. Cluster the documents and group similar job descriptions
    NOTE: as to how many clusters to use, that will have to be tuned
4. Tokenize the raw_text of a resume
5. Use regression (or some technique) to find the closest cluster based on the resume vector compared to the cluster vector.

现在，我意识到在我这样做的方式中很可能有一些巨大的漏洞(我使用的是基于没有训练的直觉)。例如，我甚至可以将简历与职务描述匹配的假设是基于这样的想法，即这些甚至是可比较的文本结构--以及匹配的好坏也取决于文档聚类的好坏。

我想知道这种方法对一些天真的事情是否有好处，或者我是否遗漏了任何重要的东西。我用的是nltk，scikit-learn和gensim Word2Vec

data-mining

text-mining

word2vec

classification

scikit-learn

回答 1

Data Science用户

发布于 2019-02-13 13:22:51

你说的话似乎是合理的。

您也可以尝试在提到时创建文档嵌入，并使用k最近的邻居根据一定的距离查找与给定简历最近的职务说明，而无需对职务说明进行任何聚类。有些k最近邻居的近似实现非常快，比如https://github.com/nmslib/nmslib。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/45251

复制

相似问题

问文档解析建模和方法？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档解析建模和方法？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档解析建模和方法？
EN