我一直在关注TensorFlow文本分类教程(https://www.tensorflow.org/tutorials/keras/basic_text_classification),对IMDB评论进行分类。IMDB数据是keras发行版的一部分,并经过下载和预处理。我想用我自己的文本做实验。有没有一种有效的方法将我自己的文本预处理成word->int表示?我尝试过使用字典、元组和排序,但效率非常低。我有种感觉,有一种更有效的方法。
我浏览了nltk和keras预处理工具,但可能忽略了其中的一些内容。
发布于 2019-06-30 09:12:00
对于从文本序列到整数序列的简单转换,我们可以使用keras.preprocessing.text.Tokenizer模块。
Tokenizer为语料库中出现的每个单词分配一个索引(不是零)。使用这个词汇表,文本被标记化。
假设文本是你拥有的句子列表。然后,
tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )其中maxlen是标记化消息将被填充的最大长度(主要通过添加零)。
https://stackoverflow.com/questions/56821415
复制相似问题