服务器配置:从装机到维护
实验室新到了一台 A100 四卡机,记录一下装机和运维过程。
好像成了实验室的网管(
配置:
CPU : Intel Xeon Gold 6248R 3GHz 96核
内存 1T
8T HDD
预装 ubuntu 18.04
10.20
在 tuna 下载 debian 11.5 netinst 镜像
https://mirrors.tuna.tsinghua.edu.cn/debian-cd/11.5.0/amd64/iso-cd/
用 balenaEtcher 烧到 u盘
折腾了大半天,主要问题来源于校园网
实验室里有线网只有校园网,但 debian netinst 版本没有 GUI,没法搞校园网验证
命令行版本的校园网验证一直有问题
无线网卡没有,即使有也需要装驱动之类的
所以尝试搞 debian 的离线版,带有 GUI
但推测是由于没有显卡驱动的原因,GNOME 桌面环境起不来,表现是 系统初始化之后完全黑屏, ctrl+alt+F1 也切不到命令行
rescue 模式可以切进命令行,但没啥卵用
grub 看不懂也不会写
总之卡住了
cinnamon 救我狗命
抛弃 GNOME 装了 cinnamon ,终于有了 GUI,搞校园网登录
有了网问题基本就解决了
总之还是要思考一下怎么路由校园网
10.21
今日新坑: apt-get
和 apt
并不完全一样
请使用 apt-get purge
而非 apt purge
新建账号:sudo useradd -m [username]
安装 nvidia driver :
在 nvidia 官网 https://www.nvidia.com/en-us/drivers/unix/
下载了 515.76 版本 production branch 的 driver
禁用原来的开源驱动 nouveau:
编辑 /etc/modprobe.d/blacklist-nouveau.conf
写入如下内容
blacklist nouveau
options nouveau modeset=0
运行 update-initramfs -u
为了防止 GUI 占用显卡驱动,将登录方式换为命令行 systemctl set-default multi-user.target
然后 reboot
之前装过 debian 官方的 apt 驱动,但版本太低
使用 sudo apt-get purge nvidia.
卸载所有 nvidia 相关组件
运行安装下载的 nvidia 驱动
使用 nvidia-smi
测试驱动安装情况
安装 spack:
首先创建一个 spack 账户:sudo useradd -m spack
把默认 shell 修改为 bash : chsh -s /bin/bash
clone spack 的 github 仓库,并 checkout 到一个 release
然后用 root 把整个 spack 拷到 /opt
下
debian 执行 /etc/update-motd.d
目录下所有可执行文件更新 /var/run/motd.dynamic
https://wiki.debian.org/motd
sudo usermod -a -G [group] [user]
用户加入组
ssh
ssh 配置文件位于 /etc/ssh/ssd_config
公钥登录需要保证用户 .ssh
目录权限 700
.ssh
目录下:
authorized_keys
,config
, id_rsa
权限 600