优点 6层transformer基本达到了bert-12的性能,并且hidden size更小,实际是比bert-6更小的; 因为有pre-train KD,所以可以拿来当bert 一样直接在下游fine-tuning