首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GPUS开发者

    DAY47:阅读read only cache和Time Function

    T __ldg(const T* address); returns the data of type T located at address address, where T is char, short 用户可以直接将__ldg()看成是一个作用于隐形的texture, 其后备存储覆盖了整个global memory的线性存储, 这样来用。 特别里手册中提到的const type * __restrict__ p形式的指针. (2)如果怕编译器的自动处理不保险, 你总是可以要求使用手工__ldg()函数来手工利用该cache. 然后还需要说明的是: 到了计算能力5.0+(Maxwell/Pascal...), 形式又发生了变化, 虽然取消了read-only cache, 但是__ldg依然有效.在5.0的Maxwell上, 总之虽然read-only cache不在了, 但是__ldg的效果依然存在.

    79310发布于 2018-08-01
  • 来自专栏GiantPandaCV

    LightSeq: Transformer高性能加速库

    hidden_size; for (uint idx = threadIdx.x; idx < hidden_size; idx += blockDim.x) { float4 vscale = __ldg ((const float4 *)scale + idx); float4 vbias = __ldg((const float4 *)bias + idx); float4 val =

    1.3K30发布于 2021-08-19
  • 来自专栏GPUS开发者

    DAY81:阅读Compute Capability 5.x

    cached in the unified L1/texture cache described in the previous section by reading it using the __ldg When the compiler detects that the read-only condition is satisfied for some data, it will use __ldg( , 我并没有使用纹理, 然后profiler报告,纹理读取吞吐率为XXX GB/s,这是因为它们两个现在合并成一个了,用户按照本章节说明的const __restrict__修饰过的指针,或者像是__ldg 这两代卡实际上可以观察到,例如某些较小的查找表,试图用__ldg在L1中查表,然后用户经常会惊喜(惊讶)的发现,改动改动代码,突然L1就完全失速了(表面),查找表的访问性能突然下降了一个数量级。

    84530发布于 2018-10-23
  • 来自专栏GPUS开发者

    DAY80:阅读Compute Capability 3.x

    also be cached in the read-only data cache described in the previous section by reading it using the __ldg When the compiler detects that the read-only condition is satisfied for some data, it will use __ldg( 此外,对普通用户最重要的是,对于只读的数据,提供了一个__ldg()函数。该函数能够在计算能力3.5+/5.X/6.X上,对很多应用起到显著的提速效果。 用户可以直接将__ldg()看成是一个隐形的纹理,自动覆盖了整个显存。用它就可以在计算能力3.5+上自动的利用纹理(或者等效的)缓存,而不需要手写纹理访问的代码。很是方便。

    78240发布于 2018-10-23
  • 来自专栏Listenlii的生物信息笔记

    Nature microbiology:全球污水处理厂细菌群落揭秘!

    本文提出了五个问题: (1)活性污泥微生物群落的全球多样性程度如何(2)活性污泥工艺中是否存在跨大陆的核心微生物群(3)活性污泥微生物群落是否具有纬向多样性梯度(LDG)(4)微生物多样性对活性污泥工艺的功能性重要吗 (3)活性污泥微生物群落是否具有纬向多样性梯度(LDG)中纬度丰度最高。曲线为基于最小二乘回归的多项式拟合。颜色表示全年平均气温。 不同尺度上的DDR。

    1.3K31发布于 2020-05-29
  • 来自专栏Fish

    剖析NVIDIA Volta架构之指令篇

    /* 0x000f8800fe2007f1 */ /*0288*/ @P5 LDG.E.CI R66, [R86+0x100]; /* 0xeed4a00010055642 */ /* P5 MOV R66, RZ; /* 0x5c9807800ffd0042 */ /*0298*/ @P6 LDG.E.CI R67, [R86+0x180];

    80740发布于 2019-05-28
  • 来自专栏GPUS开发者

    CUDA优化的冷知识18| texture和surface

    例如5.0的maxwell的卡, 对于普通的读取不能使用L1/read-only cache, 而texture和另外一种只读的读取方式(不维持一致性(NC)只读读取, 或者常见的__ldg()之类),

    1.4K30发布于 2021-02-05
  • 撞库攻击再现:第三位DraftKings黑客认罪揭示认证安全短板

    aeYFGlNGPch5/i0AskAWpmMVXj3lzK9JFM/1O1GWF7BfCwXFnSnjqctpFe+vXb/L03UKWI8DwmaRoWzcZX+nm0uWHMbHu8HRTZBdrGM3lDg

    16710编辑于 2025-12-16
  • 来自专栏GiantPandaCV

    【BBuf的CUDA笔记】十一,Linear Attention的cuda kernel实现补档(文末送书

    float ldg_v = valid_vo ? *ptr_v : 0.f; // 这部分代码根据是正向还是反向计算来更新 Q、K 和 V 的指针。 if( tidx < COLS_PER_ITER ) { smem_v[tidx] = ldg_v; } // 确保所有线程都完成了对共享内存的写操作,然后再进行后续计算。

    37710编辑于 2024-01-05
  • 来自专栏FreeBuf

    如何使用Badsecrets检测Web框架中的敏感信息

    2F1uXJncwC8egLu82JY9maweI0VmJSmRcTf0evxqqe7vc9MqpsUlpSVNh4bFnxVIo5E4PGX70kVaTFe0vu1YdGKmFX5PLvkmWIf%2FnwfgPMqYsa0%2F09trboJ5LGDEQRXSBb7ldG

    86220编辑于 2023-09-08
  • 来自专栏信数据得永生

    PyTorch 2.2 中文官方教程(十七)

    0.00% 7.846ms 156.920us 50 ampere_fp16_s1688gemm_fp16_128x128_ldg8 2.377ms 23.47% 2.377ms 95.080us 25 ampere_fp16_s1688gemm_fp16_128x128_ldg8 76.49% 7.843ms 156.860us 50 ampere_fp16_s1688gemm_fp16_128x128_ldg8 2.383ms 23.51% 2.383ms 95.320us 25 ampere_fp16_s1688gemm_fp16_128x128_ldg8

    1.8K10编辑于 2024-02-05
  • 来自专栏自动化测试工具

    vue07登陆注册--跨域请求问题+ base64编码+axios使用+面试题【v-bind和v-modul和{{}}的区别】

    CiAgICAgICAgICAgICAgICA8ZyBpZD0iR3JvdXAtMTgiIG9wYWNpdHk9IjAuOCIgdHJhbnNmb3JtPSJ0cmFuc2xhdGUoNzQuOTAxNDE2LCA1NjkuNjk5MTU4KSByb3RhdGUoLTcuMDAwMDAwKSB0cmFuc2xhdGUoLTc0LjkwMTQxNiwgLTU2OS42OTkxNTgpIHRyYW5zbGF0ZSg0LjkwMTQxNiwgNTI1LjE5OTE1OCkiPgogICAgICAgICAgICAgICAgICAgIDxlbGxpcHNlIGlkPSJPdmFsLTExIiBmaWxsPSIjQ0ZEQUU2IiBvcGFjaXR5PSIwLjI1IiBjeD0iNjMuNTc0ODc5MiIgY3k9IjMyLjQ2ODM2NyIgcng9IjIxLjc4MzA0NzkiIHJ5PSIyMS43NjYwMDgiPjwvZWxsaXBzZT4KICAgICAgICAgICAgICAgICAgICA8ZWxsaXBzZSBpZD0iT3ZhbC0zIiBmaWxsPSIjQ0ZEQUU2IiBvcGFjaXR5PSIwLjU5OTk5OTk2NCIgY3g9IjUuOTg3NDY0NzkiIGN5PSIxMy44NjY4NjAxIiByeD0iNS4yMTczOTEzIiByeT0iNS4yMTMzMDk5NyI+PC9lbGxpcHNlPgogICAgICAgICAgICAgICAgICAgIDxwYXRoIGQ9Ik0zOC4xMzU0NTE0LDg4LjM1MjAyMTUgQzQzLjg5ODQyMjcsODguMzUyMDIxNSA0OC41NzAyMzQsODMuNjgzODY0NyA0OC41NzAyMzQsNzcuOTI1NDAxNSBDNDguNTcwMjM0LDcyLjE2NjkzODMgNDMuODk4NDIyNyw2Ny40OTg3ODE2IDM4LjEzNTQ1MTQsNjcuNDk4NzgxNiBDMzIuMzcyNDgwMSw2Ny40OTg3ODE2IDI3LjcwMDY2ODgsNzIuMTY2OTM4MyAyNy43MDA2Njg4LDc3LjkyNTQwMTUgQzI3LjcwMDY2ODgsODMuNjgzODY0NyAzMi4zNzI0ODAxLDg4LjM1MjAyMTUgMzguMTM1NDUxNCw4OC4zNTIwMjE1IFoiIGlkPSJPdmFsLTMtQ29weSIgZmlsbD0iI0NGREFFNiIgb3BhY2l0eT0iMC40NSI

    1.2K20编辑于 2022-11-18
  • 来自专栏全栈程序员必看

    金蝶K3数据库表名对应及表说明[通俗易懂]

    万能报表字段描述 1 0 0 47 t_SonCompany 分支机构 分支机构 0 0 0 48 t_VoucherTplType 凭证事务表 凭证事务表 0 0 0 49 t_LedgerPageSetup Ldg 页面设置表 Ldg页面设置表 1 0 0 50 t_Organization 客户表 客户资料 0 0 0 51 t_Kds_Report 二次开发平台报表 存放二次开发平台的报表 1 0 0 52 t_Kds_ReportClass

    7.5K11编辑于 2022-06-28
  • 来自专栏全栈程序员必看

    金蝶K3 WISE所有单据数据库内码及描述对照表[通俗易懂]

    t_SonCompany 分支机构 分支机构 47 t_VoucherTplType 凭证事务表 凭证事务表 48 t_LedgerPageSetup Ldg 页面设置表 Ldg页面设置表 49 t_Organization 客户表 客户资料 50 t_Kds_Report 二次开发平台报表 存放二次开发平台的报表

    6.5K22编辑于 2022-11-08
  • 来自专栏小锋学长生活大爆炸

    【翻译】Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs

    我们实现了基于线性确定性贪婪(LDG) [20] 的分区算法,这是一种基于流的分区解决方案。

    88740编辑于 2023-10-17
  • 来自专栏全栈程序员必看

    Data URI scheme「建议收藏」

    helywJ9EmDnrySHLS2pBSPneipCQNPQvYvNI2QzTymCPBJt57a9Zc4F57cn6QDUQu2CIO3mVjifNSKm1keMATLjbUN3m79+/fa88995x95CO/Y9dd9z7r7MJNOHJ6YW+Ldg1bX3

    97560编辑于 2022-11-02
领券