首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在tensorflow中生成带有给定分隔符的词汇?

如何在tensorflow中生成带有给定分隔符的词汇?
EN

Stack Overflow用户
提问于 2020-06-15 13:44:52
回答 1查看 24关注 0票数 0

我有一个任务,我希望使用TextCNN来完成它。输入序列如下:

代码语言:javascript
复制
"1|100 2|101 3|200 ..."

我希望用空格来拆分序列,并得到像{'1|100': 1, '2|101': 2, '3|200':3, ...}这样的单词。我尝试使用tf.contrib.learn.preprocessing.VocabularyProcessor来生成单词并转换序列,但是它也将符号'|‘视为分隔符,并返回{'1': 1, '100': 2, '2': 3, '101': 4, '3': 5, '200':6, ...}

那么,如何使用我选择的分隔符生成单词呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-06-15 15:03:39

您可以使用tf tokenizer自定义filters参数来完成此操作

代码语言:javascript
复制
text = ['1|100 2|101 3|200', '1|100 2|111 3|210']

tk = tf.keras.preprocessing.text.Tokenizer(filters='')
tk.fit_on_texts(text)

tk.word_index
# {'1|100': 1, '2|101': 2, '3|200': 3, '2|111': 4, '3|210': 5}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62382026

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档