max_len在深层次学习中的价值是否取决于用例?假设它是与Twitter相关的分类,是否应该将值设置为280 (280是tweet中字符的最大长度)?
发布于 2022-08-21 07:02:31
绝对不是,在你通过标记器将文本转换成序列之后,你可以迭代这些序列,得到seqeunces的长度。
max_len函数中的pad_sqeuences参数引用序列的最大长度,因此它并不意味着基于其字符的tweet的长度,而是指序列的长度。
在那之后,你不需要给它设定推特序列的最大长度,甚至你也可以把它设置得更低。但是请注意,通过这种方法,在将标记器放入tweet列表之前,最好删除停止词和筛选字符。
https://stackoverflow.com/questions/73432054
复制相似问题