我已经进行了归一化TF-以色列国防军和关键字RDD,现在想要计算余弦相似度,以找到相关评分的文档。
所以我试着
documentRdd = sc.textFile("documents.txt").flatMap(lambda l: re.split(r'[^\w]+',l))
keyWords = sc.textFile("keywords.txt").flatMap(lambda l: re.split(r'[^\w]+',l))
normalizer1 = Normalizer()
hashingTF = HashingTF()
tf = hashingTF.transform(documentRdd)
tf.cache()
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
normalizedtfidf=normalizer1.transform(tfidf)现在,我想计算一下我尝试使用的标准文件和keyWords.So之间的余弦相似性。
x = Vectors.dense(normalizedtfidf)
y = Vectors.dense(keywordTF)
print(1 - x.dot(y)/(x.norm(2)*y.norm(2)) , "is the releavance score")但这会将错误抛出
TypeError: float()参数必须是字符串或数字
这意味着我传递错误的格式.Any帮助是感激的。
更新
我当时试过了
x = Vectors.sparse(normalizedtfidf.count(),normalizedtfidf.collect())
y = Vectors.sparse(keywordTF.count(),keywordTF.collect())但得到
TypeError:不能将类型视为向量
作为错误。
发布于 2019-09-25 08:03:47
您得到了错误,因为您正试图强制地将RDD转换为向量。
通过执行以下步骤,您可以在不执行转换的情况下实现所需的内容:
的两个RDDs中都没有唯一的索引。
# Adding index to both RDDs by row.
rdd1 = normalizedtfidf.zipWithIndex().map(lambda arg : (arg[1], arg[0]))
rdd2 = keywordTF.zipWithIndex().map(lambda arg : (arg[1], arg[0]))
# Join both RDDs.
rdd_joined = rdd1.join(rdd2)具有计算余弦距离的函数的
map RDD .def cosine_dist(row):
x = row[1][0]
y = row[1][1]
return (1 - x.dot(y)/(x.norm(2)*y.norm(2)))
res = rdd_joined.map(cosine_dist)然后您可以使用您的结果或运行collect来查看它们。
https://stackoverflow.com/questions/58092111
复制相似问题