我试图通过ReadMe使用霍普金斯等人包,但无法让它处理我自己的数据。演示程序运行良好,我按照包的要求转换了数据(每个文本的单个txt文件和带有真正标签的control.txt文件等等)。我没有做的是创建table.file。该表文件包含一个单词频率表,演示文件在Excel中打开时如下所示:
table.file
不幸的是,似乎没有任何关于如何创建这样一个table.file的文档。文件只说:
table.file:存储词频表的文件路径。默认为“tablefile.txt”。当然,用户必须具有对此文件的读写访问权限,而以前的文件内容将被覆盖。
有人能告诉我生成这样的文件的程序或代码吗?还是我错过了文档中的什么东西?
发布于 2015-09-04 08:56:25
我搜索了更久,现在已经解决了我自己的问题。我把它发出去,这样发现这个的人就能得到关键的线索。
tablefile.txt是一个单独的文档术语矩阵,包含三个额外的列:"FILENAME“(要分析的每个文本的文件名,例如'text21.txt.')、”true“(类别的真值;可以是测试集的值NA )、"TRAININGSET”(指示文本是否属于1=training集或0=test集)。
可以使用来自net 例如这个的教程生成文档术语矩阵。
https://stackoverflow.com/questions/32297139
复制相似问题