我试图重新创建谷歌的“你好预测”算法来测试我的网络。我从同一个地方拿到了我的训练样本。
因为我不希望你遵循上面的链接,简单地说一下“你好预测”:这是Google预测API的一个"Hello world“示例,基本上是一个用西班牙语、英语和法语的字符串组成的大型培训集来训练ANN的例子。在这个练习结束时,网络应该能够检测到这三种语言中的每一种。
现在,我面临着将数据输入网络的问题。
如何操作可变长度的文本字符串以输入固定大小的网络输入?
我看到了两种考虑词序的解决方案:
有人成功地解决了这个问题吗?第二比第一好吗?还有第三种解决办法吗?
谢谢。
发布于 2013-08-05 13:07:36
为什么你不尝试一些特征提取?tf_idf是NLP中常用的,我认为您可以找到其他一些有用的数值特性。
https://stackoverflow.com/questions/17423307
复制相似问题