首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)

将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)
EN

Stack Overflow用户
提问于 2019-06-30 07:09:28
回答 1查看 34关注 0票数 0

我一直在关注TensorFlow文本分类教程(https://www.tensorflow.org/tutorials/keras/basic_text_classification),对IMDB评论进行分类。IMDB数据是keras发行版的一部分,并经过下载和预处理。我想用我自己的文本做实验。有没有一种有效的方法将我自己的文本预处理成word->int表示?我尝试过使用字典、元组和排序,但效率非常低。我有种感觉,有一种更有效的方法。

我浏览了nltk和keras预处理工具,但可能忽略了其中的一些内容。

EN

回答 1

Stack Overflow用户

发布于 2019-06-30 09:12:00

对于从文本序列到整数序列的简单转换,我们可以使用keras.preprocessing.text.Tokenizer模块。

Tokenizer为语料库中出现的每个单词分配一个索引(不是零)。使用这个词汇表,文本被标记化。

假设文本是你拥有的句子列表。然后,

代码语言:javascript
复制
tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )

其中maxlen是标记化消息将被填充的最大长度(主要通过添加零)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56821415

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档