我有一个包含一个名为my_col的列的Dataset。my_col是一个正数,我想将它转换为5个存储桶的一个热编码向量:
fc_my_col = fc.indicator_column(
fc.bucketized_column(
fc.numeric_column('my_col'), boundaries=[1000, 2000, 3000, 4000]))
feature_columns = [fc_my_col]
...
inp_layer = fc.feature_columns.input_layer(features_batch, feature_columns)当my_col有一个值,但有些记录没有,我希望所有5个存储桶指示器在这种情况下都是0。
我可以为缺失的数字填充一个默认值,但由于bucketized_column将整个数字范围放入桶中,因此我总是会落入其中之一。
我可以“忽略”一个存储桶吗?告诉bucketized_column去掉“边界之外”吧?
谢谢!
发布于 2018-10-25 15:58:39
使用default_value,如下所示:
fc_my_col = fc.indicator_column(
fc.bucketized_column(
fc.numeric_column('my_col', default_value=0), boundaries=[1000, 2000, 3000, 4000]))
feature_columns = [fc_my_col]https://stackoverflow.com/questions/51137418
复制相似问题