首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自修深度学习

自修深度学习
EN

Data Science用户
提问于 2019-07-11 17:32:34
回答 1查看 2.7K关注 0票数 4

我对使用深度学习和教程进行自动完成很感兴趣,我发现这里总是以特定数量的字符为条件的(给定40个字符,预测下一个字符或整个单词)。但是在现实世界中,自动完成是在输入第一个字母之后完成的。

我正在检查Whatsapp的自动完成功能是如何工作的,我有以下观察:

#1.在收到第一个字母后,自动完成程序已经开始工作。

#2.在我进入一个空格之前,Whatsapp建议继续使用一个单词,例如:输入“L”就会使我联想到L,比如'Like','Last‘。

#3.如果我在一个单词后面输入一个空格,自动完成将建议我使用下一个单词,例如:输入“最后一个”将导致建议“时间”、“夜晚”、“周”。

4.如果我输入“I If ru”,它会建议我“跑”、“跑”。(注意:语法上,运行是错误的)

人们可以使用RNNs/LSTM进行一次热编码或字嵌入来做这样的事情。

然而,我想知道火车数据集应该是什么样子:

  1. 基于字符的模型是否包含不同的n-克单词,例如:stackNewline1.1char基础1克('l','i','k','e')单词将覆盖#1和#2,因为我可以对下一个character. 1.2进行示例。以“L”、“i”、“k”、“e”、“S”、“u”、“n”为基础的查基将涵盖#3,因为我可以预测整个完整的下一个单词(基于字符),同时也保留了对前一个单词的依赖。

通过使用1.1和1.2,我可以涵盖案例#1、#2和#3以及模型2--单词依赖。

  1. 它是以字为基础的模型,有不同的n-克,例如:stackNewline2.1以1克为基础,例如.“喜欢太阳”->序列:“喜欢",预测:”太阳“。这将允许我模型#3 stackNewline2.2基于2克,例如。“喜欢太阳”和“->序列”:“喜欢太阳",预测:”和“。这将使我能够建立一个更长时间的依赖。

通过使用1.1和2.1,我将涵盖案例#1、#2、#3。

问题:

我想知道更好的做法是:使用1.1和1.2或1.1和2.1。

另外,让我知道我的想法是正确的,如果我是完全错误的地方,如果我错过了什么,或者如果你认为有更简单的方法去做。如果有什么建议我会很高兴的。

EN

回答 1

Data Science用户

发布于 2019-07-13 18:29:53

这可以很容易地使用一个标准的Seq2Seq字级模型,而无需在培训过程中进行任何修改。在推理过程中,在译码器中,只需根据所提供的部分词输入来掩蔽词汇表。

通过掩蔽,我的意思是将一个非常高的分数(inf)分配给不以部分单词输入开始的单词,从而限制解码器预测只从部分单词输入开始的单词。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/55521

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档