1、到英伟达官网下载最新的N卡驱动,并上传到linux服务器上,执行如下指令,按提示一步步安装
./NVIDIA-Linux-x86_64-550.144.03.run
2、 主服务安装
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable ollama
3、检测ollama服务是否正常启动 journalctl -u ollama -f 输出的信息没有报错信息即可。 4、修改ollama的模型路径,使下载和创建的模型到自定义的目录下 步骤一:创建环境变量配置文件 sudo mkdir -p /etc/systemd/system/ollama.service.d sudo nano /etc/systemd/system/ollama.service.d/override.conf
步骤二:添加环境变量
输入以下内容(替换为你的实际路径):
[Service]
Environment="OLLAMA_MODELS=/mnt/nvme1/ai/ollama_models"
注意,如果ollama服务还要对本机以外的客户端服务,还需要做全ip的端口监听,否则默认仅监听127.0.0.1的11434端口
Environment="OLLAMA_HOST=0.0.0.0:11434"
步骤三:保存并退出
按 Ctrl+O 保存,Ctrl+X 退出编辑器。
5、确保目录权限正确
Ollama 服务默认以 ollama 用户运行,需确保自定义目录对该用户有读写权限:
sudo chown -R ollama:ollama /mnt/nvme1/ai/ollama_models
sudo chmod -R 755 /mnt/nvme1/ai/ollama_models
6、重载配置并重启服务 sudo systemctl daemon-reload sudo systemctl restart ollama 7、验证是否生效 journalctl -u ollama -f 输出的信息没有报错信息即可。
测试在线下载模型 ollama pull deepseek-r1:32b
检查文件是否生成在自定义路径:
ls /mnt/nvme1/ai/ollama_models/blobs
双显卡并行运行32B_Q6模型
为了运行速度,而且我显卡不接显示器的,干脆就让两张A4000运行在计算卡模式
nvidia-smi -i 0,2 -c 3
1、通过设置可见显卡(仅A4000)