我想使用R从带有Amazon评论的UCI中阅读一个数据集。
数据集的格式为ARFF (.arff)。
我使用以下脚本:
require("foreign")
setwd("H:/DataSet/amazon")
reviews <- read.arff("amazon.arff")我得到了以下错误
Read.arff中的错误(“amazon.arff”):无效的属性规范。
谢谢你的帮助。
发布于 2012-03-31 11:28:09
我想您是指UCI机器学习库中的"Amazon评论集数据集“。就连Weka也不能打开这个数据集,他说
"...not被识别为'Arff数据文件‘文件。.属性名并不是唯一的。“
如果您查看该文件,就会看到许多类似于
@attribute '\'\'\'\'\'\'\'\'\'\'r\'\'\'\'\'\'\'\'\'\'\'' numeric所以文件出了问题,这不是R或任何“Arff”读取例程的错误。您应该询问dataset创建者,该创建者的名称和电子邮件地址都提供在描述页上。
发布于 2015-04-29 16:13:30
我找到了让Weka打开.arff文件的解决方案。
无法确定结构为arff (原因: java.lang.illegalArgumentException:属性名不是唯一的!)原因:不‘我’类‘))。
它不是类似于@attribute "'\'\'\'\'\'\'\'\'\'\'r\'\'\'\'\'\'\'\'\'\'\'‘数值的属性“。
如果您在文本编辑器中打开arff文件(我使用了TextMate),您将找到罪魁祸首。(在文本伴侣中,他们显示< NUL >)
您可以使用control搜索'I‘'T’和'Th‘的属性,但是为了加快搜索速度,这里有3个易于搜索的属性,它们接近问题站点。
我要搜索“t_wo”,
“Th”搜索“ff_”
对于'T‘搜索'x_’(这个属性将在上面)
您不能简单地删除它们,因为无法知道哪些数字适用,所以我建议将它们重命名为T2-4,I2-4 Th2-4。还需要将属性“class”重命名为“class1”
发布于 2019-05-05 18:53:03
在您的特殊情况下,dataset有一些问题,我无法读取它。
不确定它是否有用,但是如果您想使用R读取.arff文件,则可以使用RWeka包来完成另一种方法。
包有一些依赖关系: rJava (注1)和RWekajars。
然后,通过使用以下脚本,您将能够读取数据集(注2):
library(rJava)
library("RWeka")
x <- read.arff(file= "amazon.arff")我还没有对您的数据集进行专门的尝试(由于数据集的问题),但是在使用iris.arff数据集时,它运行得很好(当然,需要更改文件的名称)。
Notes
https://stackoverflow.com/questions/9951839
复制相似问题