遇到的问题是这样的:

“莫名其妙,GPU驱动就没了,可能是因为update && upgrade了一下?(ROS安装源的问题,更换到了国内之后好像没有重新安装,还用了autoremove进行清理),总之就是GPU挂了。。。”

凭借的记忆通过本地deb的方式,重装发现一直出错。

一直出错,那就一直尝试,卸载重装(主要卸载的还是Nvidia相关的),但是同样还是错误。。。

重新下载一个CUDA版本?下载了安装还是错误。。。

最终,理清楚思路,可能是Linux内核的问题,因为之前出现过,新内核安装完驱动后启动不了,切换成上一个内核就行了。。。(印象中是这样的)

于是,切换到就内核再装,还是一样的错误,发现错误提示里还有新内核的痕迹,果断,把新内核卸载并且清空,Nvidia以及CUDA相关的也全都卸载重装……

终于,成功了!

Nvidia卸载重装:卸载干净了再装!

显卡驱动容易挂掉?(可能是这样,但是正经安装的,绝不应该!)

这次完全是装不了,刚才也说了,采用逆向分析应该是内核版本的原因,但是Nvidia相关如果要重装,那也得卸载干净了再重装:

sudo apt-get remove --purge '*nvidia*'
sudo apt-get remove --purge '*cuda*'
sudo apt-get autoremove
sudo apt-get autoclean

如果安装了TensorRT和CuDNN,这两个也一起卸载了。

Nvidia相关驱动的安装原则

最好的实践方式是采用deb的本地安装,也就是先下载,然后再通过apt方式安装,以CUDA为例:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

安装CuDNN和TensorRT也是这样,这样可以保证,驱动尽可能不会掉

CuDNN和TensorRT的deb包需要单独下载(需要开发者账户),然后安装上面的安装解压安装即可。