当前位置: 首页 > news >正文

深圳 网站优化公司排名山东网站开发网络公司

深圳 网站优化公司排名,山东网站开发网络公司,广州做网站(信科网络),建筑方案设计说明模板intro: 费了老大劲,来重新编译pytorch,中间报了无数错误。原生的编译好的pytorch是直接用的其自带NCCL库,并且从外部是不能进行插桩的,因为根本找不到libnccl.so文件。下面记录下重新编译pytorch的过程。指定USE_SYSTEM_NCCL1。这…

intro:

     费了老大劲,来重新编译pytorch,中间报了无数错误。原生的编译好的pytorch是直接用的其自带NCCL库,并且从外部是不能进行插桩的,因为根本找不到libnccl.so文件。下面记录下重新编译pytorch的过程。指定USE_SYSTEM_NCCL=1。这里不知道为啥,用原生库进行编译的时候,总会爆nvlink相关的错误,如果有知道的大神,可以在评论区赐教,万分感谢。

相关环境配置

Ubuntu 22.04.5 LTS

cuda 11.8+ cudnn 8.9.7

python 3.11.10

torch V2.0.1+ nccl 2.21.5

NVIDIA GeForce RTX 4090 D 

gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0

cmake version 3.22.1

如果WSL和cuda以及cudnn不太会配的可以参考:Windows11 + WSL Ubuntu + Pycharm + Conda for deeplearning | 公孙启

        以下是查看一些环境使用的bash命令,可以根据本地配置的路径自行修改,关于系统内搭建NCCL环境的方法可以参考:手动配置NCCL环境_nccl 参数设置-CSDN博客。这里是实际上是使用了一个Anaconda的虚拟环境,以下工作都要在虚拟环境内进行:

conda create -n py_pi python=3.11
conda activate py_pi
python --verion
lsb_release -a
nvcc --version
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
cat /usr/local/cuda/include/nccl.h | grep NCCL_MAJOR -A 2

        clone pytorch指令如下,如果速度慢或者失败,建议不要再WSL下进行,因为WSL似乎没法直接科学上网,可以在宿主机windows下直接科学上网clone即可,再打开WSL挂载到相应的目录下。或者可以更换镜像源

git clone --branch v2.0.1 --recursive https://github.com/pytorch/pytorch
pip install -r requirements.txt

pytorch源码的编译:

        完成以上步骤就可以开始源码编译了,这是一个非常耗时的工作,应该需要一个多小时的时间,具体时间CPU支持的MAX_JOBS的数量有关,我这里写好了一个bash脚本,直接保存运行即可(是在pytorch 的路径下)。这里建议把numpy降级为1.26.3:

pip install numpy==1.26.3
#!/bin/bash# 设置环境变量
export NCCL_ROOT=/usr/local/cuda
export NCCL_INCLUDE_DIR=$NCCL_ROOT/include
export NCCL_LIB_DIR=$NCCL_ROOT/targets/x86_64-linux/lib
export LD_LIBRARY_PATH=$NCCL_LIB_DIR:$LD_LIBRARY_PATH
export LIBRARY_PATH=$NCCL_LIB_DIR:$LIBRARY_PATH
export CPATH=$NCCL_INCLUDE_DIR:$CPATH
export MAX_JOBS=20
#这里的环境变量可以根据你的实际环境去改变,但是如果是按照我以上的流程去配的,使用这个应该没有问题。
#MAX_JOBS数量务必根据你的cpu情况去自行设定,设的太大了内存会报错。我这里是intel i7 14700k 设置为20的话绰绰有余。
# 清理之前的构建
make clean
python setup.py clean
rm -rf build# 编译 PyTorch
USE_GLOO=0 USE_SYSTEM_NCCL=1 NCCL_INCLUDE_DIR=$NCCL_INCLUDE_DIR NCCL_LIB_DIR=$NCCL_LIB_DIR python setup.py develop
#注意这里USE_GLOO=0,否则会报错,我也不知道为啥。

           编译过程中可能会有各种各样的问题,相当折磨,所以需要耐心一点。如果出现错误,找到相关的错误日志,然后可以问一下chatgpt或者找一下网上有没有类似的问题。我遇到的问题在上面已经避坑,补充一个可能遇到的问题,虽然我没遇到:解决 libstdc++.so.6: version ‘GLIBCXX_3.4.30‘ not found 问题

如果编译完成了,你可以使用以下的脚本来测试:


import torchprint("torch version",torch.__version__)
print(torch.cuda.is_available(), torch.distributed.is_nccl_available())
print("nccl version:",torch.cuda.nccl.version())
print("cuda version:", torch.version.cuda)       cudnn_version = torch.backends.cudnn.version()
print("cuDNN version:", cudnn_version)
print(torch.cuda.device_count(), torch.cuda.get_device_name(0))

输出类似于这样就可以了:

torch version 2.0.0a0+gite9ebda2
True True
nccl version: (2, 21, 5)
cuda version: 11.8
cuDNN version: 8907
1 NVIDIA GeForce RTX 4090 D

参考

2024 最新PyTorch源码编译流程和踩坑记录,PyTorch build from source

Docker内 Pytorch+NCCL源码编译

http://www.yayakq.cn/news/132806/

相关文章:

  • 国内开源代码网站广州广告公司前100名排行
  • 青岛网站推广途径外国网站上做雅思考试
  • 淘宝客网站WordPress网络营销的主要形式有建设网站
  • 建设银行官方网站个人系统板块wordpress批量编辑
  • 网站建设属于什么经济科目如何网站防止采集
  • 宁夏区建设厅网站网站源代码怎么放入 dede网站后台
  • 如何进入网站管理页面好制作网站公司
  • 昆明微网站搭建怎么查网站是哪家公司做的
  • 有没有个人网站服装网站建设与实现
  • 给非吸公司建设网站你认为什么对网络营销至关重要
  • 大学生网页设计实训报告google优化推广
  • 栖霞建设官方网站wordpress悬浮qq
  • 旅游网站排名排行榜自己做的博客网站吗
  • 芜湖市网站建设建站主机
  • 汕头龙湖网站建设南京网站建设方案
  • 做卖东西的网站搭建一个服务器买域名做网站
  • 网站如何做的看起来高大上网站建设平台官网要点有哪些
  • 上海 有哪些做网站的公司好北京注册公司可以申请北京车牌吗
  • 郑州电力高等专科学校官网seo计费管理系统
  • 网站设计规划范文成都网站建设哪家
  • 哪家做网站性价比高上海景观设计公司排行
  • 国外网站服务器租用电子商务网站建设方案书的总结
  • 合肥哪里有做网站的搜索引擎广告属于什么渠道
  • 关于网站开发的外文翻译3d展示网站源码
  • 泉州网站建设方案外包北京网站建设公司电扬
  • 做全国性的app网站推广多少wordpress 缩略图类型
  • html5网站制作工具网站服务器和网站备案吗
  • h5免费制作网站财务公司业务范围
  • 山东做网站费用自学室内装修设计教程
  • 音乐应用网站模板软件开发公司规章制度