我正在处理亚马逊评论数据集。目标是提取每种产品的正面和负面特征。
例如:对于“这个产品有很好的电池寿命”这句话,我想把‘电池’这个词提取出来作为一个积极的特征。
数据集包含以下字段:
审核者的reviewerID - ID,例如A2SUAM1J3GNN3B
产品的asin - ID,例如0000013714
reviewerName -审阅者的名称
有帮助的-评估的有用性,例如2/3
reviewText -评论文本
整体-产品的评级
摘要-评论摘要
unixReviewTime -评审时间(unix )
reviewTime -评审时间(raw)
到目前为止,我将两个列表的评论分开: positive_reviews和negative_reviews。
positive_reviews =评等>3的所有评论,negative_reviews =评级<3的所有评论
我清理了文字并标记了它。在那之后,我提取了形容词后面的名词,希望这些特定的名词成为我要寻找的特征。之后,我尝试使用聚类算法(k-means,DBSCAN),希望它能够创建一个表示我想要提取的特性的组。
结果一点也不好,我希望这里的人能想出一个办法来解决这个问题。
发布于 2020-03-26 19:46:04
您可能需要探索主题建模,而不是聚类;这将使您从评论中提取出一般主题。
https://stackoverflow.com/questions/60866271
复制相似问题