我使用AngelList DB根据他们的行业对初创公司进行分类,因为这些初创公司是根据社区输入进行分类的,这在大多数时候是误导性的。
我的业务目标是提取指示此特定创业公司属于哪个行业的关键字,然后将其映射到LinkedIn sheet https://developer.linkedin.com/docs/reference/industry-codes中指定的一个行业
我尝试了Azure机器学习,在那里我推送了300家初创公司的描述,并分析了关键字提取非常糟糕,甚至没有接近我试图实现的目标。
我想知道数据科学家将如何处理这个问题?我应该去哪里找呢?我不应该在哪里呢?是关键词分析工具(如Google Adwords keyword planner是一个可行的选择)
发布于 2016-03-30 03:32:04
正在使用文本分类...
为了能够将其视为分类问题,您需要一个训练集,它是一组用正确的LinkedIn类别标记的AngelList条目。这可以手动完成,或者您可以雇佣一些Mechanical Turks来为您完成这项工作。
因为你有大约150个类别,我想每个类别至少需要20-30*个AngelList条目。因此您的训练集将是{input: angellist_description,result: linkedin_id}
在此之后,您需要深入研究文本分类技术,尝试并优化结果的准确性/精确度。“驯服文本”这本书有整整一章是关于文本分类的。实现基于文本的分类器的一个好工具是Apache Solr或Apache Lucene。
* 20-30是个人的快速估计,而不是基于科学方法。你可以在网上查找一些方法,以获得一个好的估计方法。
发布于 2016-03-30 03:23:25
使用文本聚类。
Step #1使用文本聚类从所有描述中提取主要的“主题”。(在这里会很有帮助)
所有descriptions
LinkedIn Step #2手动将提取的主题映射到的类别中。
第3步使用前两步的输出遍历公司-> extracted topic -> linkedin类别
https://stackoverflow.com/questions/36291712
复制相似问题