首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >可比较的公司选择

可比较的公司选择
EN

Stack Overflow用户
提问于 2017-06-17 03:52:35
回答 2查看 55关注 0票数 0

我在这个问题上已经有一段时间了,让我来解释一下。我希望找到具有相似商业模式的公司,即他们做类似的事情。我已经搜索了各种方法来根据公司的业务描述对公司进行建模,以比较哪些公司最相似。到目前为止,我已经利用神经网络(最后的论文链接)和其他nlp技术研究了语义文本相似性,尽管第一种技术似乎最有希望。

如果我有一个文档库,每个文档都是一家公司的业务描述……

公司1:在美国制造、维护和维修卡车车身,它制造卡车车身…

公司2:为不同行业提供服务台和保修保险管理服务公司还为消费电子和暖通空调行业提供服务项目。

连队3:...

等。

我有一个目标公司,我们会说...

T公司:致力于识别、评估和鉴定潜在的天然气和油井。

我想找出语料库中哪些公司的商业模式与目标公司最相似。

我可以用什么好方法来做这件事?

EN

回答 2

Stack Overflow用户

发布于 2017-06-17 03:58:54

如何计算每个公司描述的TFIDF分数,然后计算目标公司的TFIDF分数。查找与目标公司具有相似TFIDF分数的公司。

票数 0
EN

Stack Overflow用户

发布于 2017-06-18 22:31:38

所采用的技术的成功取决于多个问题。我不会争论其他方面的重要性,但我想到的三个方面如下。

  1. 你有多少描述或例子?您的数据集的异构性如何?

这对模型的选择产生了至关重要的影响。例如,如果你对不同的公司类型的数量有一个很好的猜测,你可以对k个主题使用LDA (潜在狄利克雷分配),其中k是你对类型数量的猜测。然后,您可以使用经过训练的模型来推断主题分布,并使用一些分歧度量,如Kullback-Leibler分歧,找到类似的公司描述。如果您对公司类型的数量一无所知,可以尝试hierarchical LDA,它不需要指定主题的数量。在Java、R、python等语言中有大量的LDA实现。但是,如果您有一个高度异构的数据集,并且每个类型只有很少的实例,那么这很可能不会很好地工作。

  1. 您是否有可区分公司类型的预定义关键字集?

如果是这样的话,你可以使用上面的技术来扩展你的关键字集合,因为它给你提供了经常出现共现的术语簇。然后,您可以尝试一种简单的基于规则的方法,其中您只需计算常用术语的数量。如果你没有这样的一套方法,有一种方法可以帮助你学习它们(链接到下面的​论文)。但同样,您需要能够预先按主题拆分数据集。

  1. Labels

您是否尝试过通过手动标记一些描述的监督方法?如果这太麻烦了,你也可以看看主动学习模型。

http://dl.acm.org/citation.cfm?id=1119287

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44596990

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档