首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文档解析建模和方法?

文档解析建模和方法?
EN

Data Science用户
提问于 2019-02-08 09:37:25
回答 1查看 236关注 0票数 1

我对数据科学/机器学习还比较陌生(是的,我知道),并且正在尝试文本分析。我只想要一个相对幼稚的方法,我想知道我的方法在程序上是否有效,即使我可能没有得到完美的结果。我想比较我的模型与全文tf-以色列国防军搜索特定技能/关键字对照的简历索引。

任务:对job descriptions进行分类,而不是以一种无监督的方式对它们进行聚类。最后,我希望将resumes与它们相匹配,作为我的想法的一个基本实现。我在想,简单地实现单词嵌入和kmeans是可以的。基本上,从特定的职务说明中提取document_vectors,然后根据这些向量对职务说明进行聚类。这将创建一个贫民区“标记”系统,这样我就可以应用一个分类算法,然后我将使用简历raw_text并提取一个新的向量,将其应用到其中一个集群中(回归)。

总结

代码语言:javascript
复制
1. Use a large database of job descriptions
2. Tokenize the text, and apply doc2vec and generate document vectors
3. Cluster the documents and group similar job descriptions
    NOTE: as to how many clusters to use, that will have to be tuned
4. Tokenize the raw_text of a resume
5. Use regression (or some technique) to find the closest cluster based on the resume vector compared to the cluster vector.

现在,我意识到在我这样做的方式中很可能有一些巨大的漏洞(我使用的是基于没有训练的直觉)。例如,我甚至可以将简历与职务描述匹配的假设是基于这样的想法,即这些甚至是可比较的文本结构--以及匹配的好坏也取决于文档聚类的好坏。

我想知道这种方法对一些天真的事情是否有好处,或者我是否遗漏了任何重要的东西。我用的是nltkscikit-learngensim Word2Vec

EN

回答 1

Data Science用户

发布于 2019-02-13 13:22:51

你说的话似乎是合理的。

您也可以尝试在提到时创建文档嵌入,并使用k最近的邻居根据一定的距离查找与给定简历最近的职务说明,而无需对职务说明进行任何聚类。有些k最近邻居的近似实现非常快,比如https://github.com/nmslib/nmslib

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/45251

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档