我有一个数据集,其中包含通过URI表示的数据。我想要对能够从我的顺序数据中预测数据样本的前置和后继的数据进行建模。数据集如下所示:

例如,给定"HTTP://example.com/112",该模型生成"HTTP://example.com/296“作为前导,并生成"HTTP://example.com/322”作为后继。我想为这个数据集构建一个马尔可夫决策过程模型,以获得上述结果。如果有人能帮我找到一个适合Python的包,那就太好了。我检查了"hmmlearn“包,用它我可以实现一个隐马尔可夫模型。但我的数据没有隐藏状态。此外,我不确定是否应该将这些数据转换为数字数据,然后我才能构建马尔可夫模型。
提前谢谢你!
发布于 2020-12-01 17:33:45
如果没有隐藏状态,你就有了马尔可夫链。它们自己实现起来并不难,但是如果你想要一个库,有一个石榴库:
from pomegranate import MarkovChain
#say you have two sequences of clicks:
sequences = [['uri1', 'uri5', 'uri3', 'uri5'], ['uri2', 'uri3', 'uri1', 'uri2']]
model = MarkovChain.from_samples(sequences)学习的转换概率:
print(model.distributions[1])
uri5 uri5 0.0
uri5 uri3 1.0
uri5 uri1 0.0
uri5 uri2 0.0
uri3 uri5 0.5
uri3 uri3 0.0
uri3 uri1 0.5
uri3 uri2 0.0
uri1 uri5 0.5
uri1 uri3 0.0
uri1 uri1 0.0
uri1 uri2 0.5
uri2 uri5 0.0
uri2 uri3 1.0
uri2 uri1 0.0
uri2 uri2 0.0https://stackoverflow.com/questions/63689107
复制相似问题