首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ANN:语言检测

ANN:语言检测
EN

Stack Overflow用户
提问于 2013-07-02 10:33:21
回答 1查看 140关注 0票数 1

我试图重新创建谷歌的“你好预测”算法来测试我的网络。我从同一个地方拿到了我的训练样本。

因为我不希望你遵循上面的链接,简单地说一下“你好预测”:这是Google预测API的一个"Hello world“示例,基本上是一个用西班牙语、英语和法语的字符串组成的大型培训集来训练ANN的例子。在这个练习结束时,网络应该能够检测到这三种语言中的每一种。

现在,我面临着将数据输入网络的问题。

如何操作可变长度的文本字符串以输入固定大小的网络输入?

我看到了两种考虑词序的解决方案:

  1. 使网络输入足够大,以适应整个句子。这是最现实的,但却是浪费的方法。我相信谷歌已经想出了一个更好的方法。
  2. 将句子分成固定大小的子串,如:如果n= 2,“ab de”变成"ab“、"bc”、"cd“、de”。

有人成功地解决了这个问题吗?第二比第一好吗?还有第三种解决办法吗?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2013-08-05 13:07:36

为什么你不尝试一些特征提取?tf_idf是NLP中常用的,我认为您可以找到其他一些有用的数值特性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17423307

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档