首页
学习
活动
专区
圈层
工具
发布

RNN实现
EN

Stack Overflow用户
提问于 2018-04-21 10:32:33
回答 1查看 149关注 0票数 0

我将使用Pytorch实现RNN。但是,在此之前,我在理解问题中提出的字符一级热编码方面有一些困难。

请在下面找到问题

  • 选择你想要你的神经网络学习的文本,但是要记住,为了学习结构,你的数据集必须相当大!RNN接受了关于高度多样化的文本(小说、歌词、Linux内核等)的培训。有了成功,你才能有创造力。作为一种简单的选择,Gutenberg是免费书籍的来源,您可以在这里下载.txt格式的完整小说。
  • 对于这个模型,我们将使用字符级表示。为此,您可以使用带有256个字符的扩展ASCII。当您阅读所选的训练集时,您将一次一个字符读入一个热编码,也就是说,每个字符将映射到一个1和零的向量,其中一个表示哪个字符存在: char→0,0,···,1,···,0,0,你的神经网络将在这些长度-256二进制向量中读取作为输入。

例如,我在python上读过一本小说。唯一字符总数为97个。人物总数在30万左右。

那么,我的输入是97x256一个热编码矩阵吗?

或者是30万x 256一个热编码矩阵?

EN

回答 1

Stack Overflow用户

发布于 2018-04-21 13:48:13

一个热假设你的每一个向量应该是不同的在一个地方。因此,如果你有97个独特的字符,那么我认为你应该使用一个1-热向量的大小( 97 +1= 98)。额外的向量将所有未知字符映射到该向量。但是你也可以使用256长度的向量。所以你的输入是:

batch (B=批次大小,N=字符的no,V=一个热向量大小)。

但是,如果您使用的是库,它们通常会询问词汇表中的字符索引,并将索引处理为一个热点转换。希望这能有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49954852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档