文章/答案/技术大牛

发布

社区首页 >问答首页 >数据分析:组值流acc.趋同

问数据分析:组值流acc.趋同
EN

Stack Overflow用户

提问于 2019-11-19 08:01:37

回答 1查看 48关注 0票数 0

我的同事和我(都是机械工程师)喜欢学习python并解决新的有趣的问题。

我们的问题：，我们希望分析组件的价值流(> 50.000)，并根据它们的价值流的相似性对它们进行分组。

举个例子，假设我们有三种材料A、B和C，它们的数据如下：

A= 610384,521056,112200,194825633，45

B= 10389,462,1028503

C= 10389,462,1028503,112200，45,194825633

每个数组表示一个值流，每个元素表示值流中的每台机器。例如，要生产，必须运行5台以上的机器。"610384“是值流中第一台机器的数目。如您所见，A和B与C相似，因为B是C的100%子流，但是A包含3台相同的机器，但顺序不同。

约束：

anything

arrays有不同的长度，

数组也可以包含子数组或顺序不同等。一切都是可能的(我们正在挖掘数据集)。

我们可以从上到下从上到下对4个层次进行评分:技术、工艺描述、过程描述细节、机器编号->：机器编号10389和462根本不相等，但这两台机器都被用来“钻”孔。因此，第2级(流程描述)将是相等的。因此，我们可以用这个来评价它们不是100%或0%相等，但可能在这台机器上给出30%的相似性(不是整个值流！)。

4个层次的例子:手动钻井(1) ->钻井(2) ->钻孔90度(3) ->机器编号462 (4)

问题：

我们应该如何对每个价值流进行评级？考虑到不同的长度等，考虑到
，我们如何以有用的方式对给定的评级进行聚类？

我们是否应该使用合适的算法？我们需要自己来定义规则吗？如果是的话，你能推荐阅读吗？

我们的目标：集团类似的价值流，这样我们就可以看到我们的价值流高速公路，看看机器是否应该被移动。

PS:这是Reddit r/analytics的调整后的转发

python

stream

analytics

production

回答 1

Stack Overflow用户

发布于 2019-11-19 08:43:10

这可能是部分解决方案，

我使用了以下缩写。收视率：

md -手工钻孔，d-钻孔,30或45或60 -在一定程度上钻孔

1)机器10389等级：'md-d- 90 -10389‘#手动钻+钻+90度

2) 462定级机：'md-d- 45 -462‘#手动钻+钻+45度

import fuzzywuzzy
from fuzzywuzzy import process
matches = fuzzywuzzy.process.extract('md-d-90-10389',['md-d-45-462'],scorer=fuzzywuzzy.fuzz.token_sort_ratio)
print(matches[0][1], '%')

产出: 33 %

有许多方法可以像余弦相似或Jaccard相似这样做。我们可以先试试这个。

如果相似度大于80%，则只保留一台机器。让我们只取两个值流A和C，如果521056和10389有80%的相似性，那么我们只能为了简化而丢弃其他流。我们留10389块吧。

A= 610384,10389,112200,194825633，45 #取代521056至10389

C= 10389,462,1028503,112200，45,194825633

然后，我们可以通过检验A和C之间的余弦相似性来评估价值流的贴近度。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58929177

复制

相似问题

问数据分析:组值流acc.趋同
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据分析:组值流acc.趋同EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据分析:组值流acc.趋同
EN