首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习;PCIe 速率调研;

    为了了解,上来先看几篇中文博客进行简单了解: 如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL?

    2.8K20发布于 2020-12-30
  • 来自专栏AIUAI

    Caffe2 - (十一)ResNet50 Multi-GPU 训练

    Caffe2 - Multi-GPU 训练 1. workspace.FetchBlob("gpu_{}/{}_accuracy".format(device, prefix)))) return np.average(accuracy) 3.11 Multi-GPU confidence scores as the caption display_images_and_confidence() 4. resnet50_trainer.py ''' ResNet50 的 multi-GPU 分布式计算 例如,可以在 imagenet data 上训练 单机多卡(single-machine multi-gpu) 时,可以设置 num_shards = 1.

    2.2K40发布于 2019-02-18
  • 来自专栏AI研习社

    如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL?

    NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather

    4.3K91发布于 2018-03-19
  • 来自专栏AI科技评论

    开发 | 如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL?

    回答: NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather

    3.8K80发布于 2018-03-14
  • 在本地电脑部署自己的 DeepSeek 大模型 AI:小白也能轻松上手

    GPU DeepSeek-R1-Zero 671B ~1,543 GB Multi-GPU (e.g., NVIDIA A100 80GB x16)DeepSeek-R1 671B ~1,543 GB Multi-GPU 24GB or higher DeepSeek-R1-Distill-Qwen-14B 14B ~36 GB Multi-GPU (e.g., NVIDIA RTX 4090 x2) DeepSeek-R1-Distill-Qwen-32B 32B ~82 GB Multi-GPU (e.g., NVIDIA RTX 4090 x4) DeepSeek-R1-Distill-Llama-70B70B ~181 GB Multi-GPU

    4.6K01编辑于 2025-02-06
  • 来自专栏CreateAMind

    tensorpack

    Data-parallel multi-GPU training is off-the-shelf to use. It is as fast as Google's benchmark code. while Send loss to your phone Install: Dependencies: Python 2 or 3 TensorFlow >= 1.0.0 (>=1.1.0 for Multi-GPU

    98420发布于 2018-07-24
  • 来自专栏逍遥剑客的游戏开发

    GDC2016: AMD LiquidVR

    Affinity multi-GPU 对应NVIDIA的VR SLI. ? 去年在UE4中整合过VR SLI, 性能提升的确挺明显的, 不过用了两块980Ti, 也挺烧包的. 总体看下来, 还少个类似NVIDIA Multi-Resolution Shading的特性, 虽说现阶段没游戏支持, 但是未来对性能的改善会比较明显, 至少在我看来, 这个比Multi-GPU有用多了

    57720发布于 2019-02-20
  • 来自专栏逍遥剑客的游戏开发

    GDC2016: AMD LiquidVR

    v=e_o22yJOgkg 其实就是Timewarp Affinity multi-GPU 对应NVIDIA的VR SLI. 总体看下来, 还少个类似NVIDIA Multi-Resolution Shading的特性, 虽说现阶段没游戏支持, 但是未来对性能的改善会比较明显, 至少在我看来, 这个比Multi-GPU有用多了

    65590发布于 2018-05-21
  • 来自专栏浊酒清味

    Tensorflow入门教程,TensorFlow-Examples on Github

    保存和储存一个模型 Tensorboard 第五章 数据管理 建立一个图像数据集 TensorFlow Dataset API 加载和解析数据 建立和加载 TFRecords 图像转换 第六章 Multi GPU Multi-GPU 基本操作 用Multi-GPU训练一个神经网络 内容分析 这个教程有基本的机器学习模型,也有深度学习的基本模型,包括现在流行的GAN,在模型方面比较全面。

    88330发布于 2019-08-21
  • 来自专栏AINLP

    pytorch-pretrained-BERT:BERT PyTorch实现,可加载Google BERT预训练模型

    /tests/ Training on large batches: gradient accumulation, multi-GPU and distributed training BERT-base can activate in the fine-tuning scripts run_classifier.py and run_squad.py: gradient-accumulation, multi-gpu Multi-GPU: Multi-GPU is automatically activated when several GPUs are detected and the batches are splitted

    5.3K00发布于 2019-10-10
  • 来自专栏Hi0703

    2021-4-28

    NVIDIA/nccl(https://github.com/NVIDIA/nccl) Nvidia英伟达的Multi-GPU多卡通信框架NCCL。 NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather

    1K00发布于 2021-04-28
  • 来自专栏vanguard

    cuQuantum installation

    Python APIs via cuQuantum Python.NVIDIA cuQuantum Appliance offers a containerized solution, including a multi-GPU

    54900编辑于 2022-06-04
  • 来自专栏GoCoding

    MMDetection 快速开始,训练自定义数据集

    checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth \ --out results.pkl \ --eval bbox \ --show # multi-gpu training python tools/train.py \ configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py \ --work-dir _train # multi-gpu python tools/train.py \ configs/voc_cat/faster_rcnn_r50_fpn_1x_voc_cat.py \ --work-dir _train_voc_cat # multi-gpu faster_rcnn_r50_fpn_1x_voc_cat.py \ _train_voc_cat/latest.pth \ --out results.pkl \ --eval bbox \ --show # multi-gpu

    2.2K22发布于 2021-05-06
  • 来自专栏machine_learning

    亚马逊DRKG使用体验

    --num_proc NUM_PROC The number of processes to train the model in parallel.In multi-GPU training, the --rel_part Enable relation partitioning for multi-GPU training. --async_update Allow asynchronous update on node embedding for multi-GPU training.This overlaps

    1.6K52发布于 2020-09-11
  • 来自专栏往期博文

    图像超分——Real-ESRGAN快速上手

    be 2, 3, 4. default=4)" -t tile-size tile size (>=32/0=auto, default=0) can be 0,0,0 for multi-gpu realesrgan-x4plus-anime | realesrnet-x4plus)" -g gpu-id gpu device to use (default=auto) can be 0,1,2 for multi-gpu " -j load:proc:save thread count for load/proc/save (default=1:2:2) can be 1:2,2,2:2 for multi-gpu

    5K32编辑于 2022-09-19
  • 来自专栏机器学习与统计学

    不要再用Ollama,不要再用llama.cpp

    我的启动脚本中是设置了并发相关参数的 搜了一下了 Reddit 的 LocalLLaMA 社区,发现很多吐槽 llama.cpp 项目 issue 还有吐槽 看了一个博主的文章《# Stop Wasting Your Multi-GPU 参考资料 [1] Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2

    86510编辑于 2025-10-11
  • 来自专栏C++ 动态新闻推送

    C++ 动态新闻推送 第59期

    the new hotness, but we’ll always have maker functions CTAD把活交给了编译器推导,但大家没咋用,还是有make_xx函数来构造对象,清晰,明确 Multi-GPU Programming with Standard Parallel C++, Part 1 Multi-GPU Programming with Standard Parallel C++, Part

    50010编辑于 2022-04-24
  • 来自专栏AIUAI

    论文实践讨论 - Pyramid Scene Parsing Network

    compatible with BVLC and you can have a glance at Caffe vision of yjxiong which is a OpenMPI-based Multi-GPU Besides, you should use OpenMPI-based Multi-GPU caffe to gather the bn parameters.

    76530发布于 2019-02-18
  • 来自专栏大数据智能实战

    pytorch版本的OpenNMT多任务编译实践

    Beta Features (committed): multi-GPU Structured attention [Conv2Conv convolution model] SRU "RNNs faster

    1.2K10发布于 2019-05-26
  • 来自专栏机器学习、深度学习

    视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

    For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers Multi-GPU training

    1.1K80发布于 2018-01-03
领券