问将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)
EN

Stack Overflow用户

提问于 2019-06-30 07:09:28

回答 1查看 34关注 0票数 0

我一直在关注TensorFlow文本分类教程(https://www.tensorflow.org/tutorials/keras/basic_text_classification)，对IMDB评论进行分类。IMDB数据是keras发行版的一部分，并经过下载和预处理。我想用我自己的文本做实验。有没有一种有效的方法将我自己的文本预处理成word->int表示？我尝试过使用字典、元组和排序，但效率非常低。我有种感觉，有一种更有效的方法。

我浏览了nltk和keras预处理工具，但可能忽略了其中的一些内容。

python

tensorflow

keras

回答 1

Stack Overflow用户

发布于 2019-06-30 09:12:00

对于从文本序列到整数序列的简单转换，我们可以使用keras.preprocessing.text.Tokenizer模块。

Tokenizer为语料库中出现的每个单词分配一个索引(不是零)。使用这个词汇表，文本被标记化。

假设文本是你拥有的句子列表。然后,

tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )

其中maxlen是标记化消息将被填充的最大长度(主要通过添加零)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56821415

复制

相似问题

问将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)
EN