文章/答案/技术大牛

发布

社区首页 >问答首页 >从创业公司的描述中找到创业公司的行业

问从创业公司的描述中找到创业公司的行业
EN

Stack Overflow用户

提问于 2016-03-30 01:57:54

回答 2查看 95关注 0票数 0

我使用AngelList DB根据他们的行业对初创公司进行分类，因为这些初创公司是根据社区输入进行分类的，这在大多数时候是误导性的。

我的业务目标是提取指示此特定创业公司属于哪个行业的关键字，然后将其映射到LinkedIn sheet https://developer.linkedin.com/docs/reference/industry-codes中指定的一个行业

我尝试了Azure机器学习，在那里我推送了300家初创公司的描述，并分析了关键字提取非常糟糕，甚至没有接近我试图实现的目标。

我想知道数据科学家将如何处理这个问题？我应该去哪里找呢？我不应该在哪里呢？是关键词分析工具(如Google Adwords keyword planner是一个可行的选择)

azure-machine-learning-studio

machine-learning

回答 2

Stack Overflow用户

发布于 2016-03-30 03:32:04

正在使用文本分类...

为了能够将其视为分类问题，您需要一个训练集，它是一组用正确的LinkedIn类别标记的AngelList条目。这可以手动完成，或者您可以雇佣一些Mechanical Turks来为您完成这项工作。

因为你有大约150个类别，我想每个类别至少需要20-30*个AngelList条目。因此您的训练集将是{input: angellist_description，result: linkedin_id}

在此之后，您需要深入研究文本分类技术，尝试并优化结果的准确性/精确度。“驯服文本”这本书有整整一章是关于文本分类的。实现基于文本的分类器的一个好工具是Apache Solr或Apache Lucene。

* 20-30是个人的快速估计，而不是基于科学方法。你可以在网上查找一些方法，以获得一个好的估计方法。

票数 2

Stack Overflow用户

发布于 2016-03-30 03:23:25

使用文本聚类。

Step #1使用文本聚类从所有描述中提取主要的“主题”。(在这里会很有帮助)

所有descriptions

Process:文本的

输入语料库使用Carrot2
输出每个文档都将被标注一个主题

LinkedIn Step #2手动将提取的主题映射到的类别中。

第3步使用前两步的输出遍历公司-> extracted topic -> linkedin类别

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36291712

复制

相似问题

问从创业公司的描述中找到创业公司的行业
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从创业公司的描述中找到创业公司的行业EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从创业公司的描述中找到创业公司的行业
EN