我有一个任务,我希望使用TextCNN来完成它。输入序列如下:
"1|100 2|101 3|200 ..."我希望用空格来拆分序列,并得到像{'1|100': 1, '2|101': 2, '3|200':3, ...}这样的单词。我尝试使用tf.contrib.learn.preprocessing.VocabularyProcessor来生成单词并转换序列,但是它也将符号'|‘视为分隔符,并返回{'1': 1, '100': 2, '2': 3, '101': 4, '3': 5, '200':6, ...}
那么,如何使用我选择的分隔符生成单词呢?
发布于 2020-06-15 15:03:39
您可以使用tf tokenizer自定义filters参数来完成此操作
text = ['1|100 2|101 3|200', '1|100 2|111 3|210']
tk = tf.keras.preprocessing.text.Tokenizer(filters='')
tk.fit_on_texts(text)
tk.word_index
# {'1|100': 1, '2|101': 2, '3|200': 3, '2|111': 4, '3|210': 5}https://stackoverflow.com/questions/62382026
复制相似问题