support CC 8.6
2021-01-08 20:52:53.437690: W tensorflow/stream_executor/gpu/asm_compiler.cc:194] Used ptxas:314] Unimplemented: /usr/local/cuda-11.0/bin/ptxasptxas too old.Modify $PATH to customize ptxas location.作为测试,我安装了C
warn-spills --use_fast_math -maxrregcount 128 nv_wavenet_perf.cu -o nv_wavenet_perf_dualptxasmemory in function '_Z25nv_wavenet_singleBlock_8RIffLi64ELi256ELi256ELi1EEv17nv_wavenet_paramsIT_T0_E'
ptxasmemory in function '_Z25nv_wavenet_singleBlock_8RI
以下是这两个版本的ptxas -v输出 __volatile__ float array[32];ptxas info : Compilingentry function '_Z2swPcS_PfiiiiS0_' for 'sm_20'88 bytes stack frame, 0 bytes spill s
我一直在我的Tesla K20m上写一个内核,当我用-Xptas=-v编译软件时,我得到了以下结果:ptxas info : Compilingentry function '_Z9searchKMPPciPhiPiS1_' for 'sm_10'
ptxas info : Used 8 registers, 80 bytes smem,如果我提到参数-arch=sm_35,我的内核执行时间会急剧增加,并且使用的寄存器数量也会增加
使用--ptxas-options=-v选项编译的CUDA内核似乎在指定 GPU体系结构时显示错误的sm_20 lmem(本地内存)统计信息。int i = 0; i < num; ++i )}1>ptxas info : Compiling entry function '_Z9fooKernelPi'