首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从创业公司的描述中找到创业公司的行业

从创业公司的描述中找到创业公司的行业
EN

Stack Overflow用户
提问于 2016-03-30 01:57:54
回答 2查看 95关注 0票数 0

我使用AngelList DB根据他们的行业对初创公司进行分类,因为这些初创公司是根据社区输入进行分类的,这在大多数时候是误导性的。

我的业务目标是提取指示此特定创业公司属于哪个行业的关键字,然后将其映射到LinkedIn sheet https://developer.linkedin.com/docs/reference/industry-codes中指定的一个行业

我尝试了Azure机器学习,在那里我推送了300家初创公司的描述,并分析了关键字提取非常糟糕,甚至没有接近我试图实现的目标。

我想知道数据科学家将如何处理这个问题?我应该去哪里找呢?我不应该在哪里呢?是关键词分析工具(如Google Adwords keyword planner是一个可行的选择)

EN

回答 2

Stack Overflow用户

发布于 2016-03-30 03:32:04

正在使用文本分类...

为了能够将其视为分类问题,您需要一个训练集,它是一组用正确的LinkedIn类别标记的AngelList条目。这可以手动完成,或者您可以雇佣一些Mechanical Turks来为您完成这项工作。

因为你有大约150个类别,我想每个类别至少需要20-30*个AngelList条目。因此您的训练集将是{input: angellist_description,result: linkedin_id}

在此之后,您需要深入研究文本分类技术,尝试并优化结果的准确性/精确度。“驯服文本”这本书有整整一章是关于文本分类的。实现基于文本的分类器的一个好工具是Apache Solr或Apache Lucene。

* 20-30是个人的快速估计,而不是基于科学方法。你可以在网上查找一些方法,以获得一个好的估计方法。

票数 2
EN

Stack Overflow用户

发布于 2016-03-30 03:23:25

使用文本聚类。

Step #1使用文本聚类从所有描述中提取主要的“主题”。(在这里会很有帮助)

所有descriptions

  • Process:文本的
  1. 输入语料库使用Carrot2
  2. 输出每个文档都将被标注一个主题

LinkedIn Step #2手动将提取的主题映射到的类别中。

第3步使用前两步的输出遍历公司-> extracted topic -> linkedin类别

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36291712

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档