不,tensorflow默认发行版是构建没有CPU扩展的,如SSE4.1、SSE4.2、AVX、AVX2、FMA等,因为这些构建(例如来自pip install tensorflow的构建)旨在与尽可能多的CPU兼容。另一个论点是,即使有了这些扩展,CPU也比GPU慢得多,而且预计在GPU上执行中型和大型机器学习培训。也见一个相关讨论。
文章是正确的,AVX和FMA指令显著(高达300%!)加速线性代数的计算,即点积、矩阵乘、卷积等。如果你想利用它,我必须通过从源编译tensorflow,这是在这个问题中讨论的。