运维日记之一:自爆黑群晖

回到家躺在椅子上,突然发现什么最可怕? A: 得知作业截止时间不是晚上而是中午十二点B: 老板在 Slack 给你发了 114514 条消息未读C: 偷偷藏着的裙子被妈妈发现D: 家里服务器从内网上消失了发生了肾么事情?上周日回到了家里,突然发现发现 ping 不到家里的服务器了,过去一看发现似乎是网线松动(灯不亮了),可是插紧以后仍旧 ping 不上,因为懒得搬显示器和键盘具体排查了,干脆直接彻底断电让他自己硬重启了。 重启以后发现群晖迟迟没有上线,也完全 ping 不到,等了五分钟也没有反应,大事不妙! SRE 开始在开机过程中,持续开着的 ping 返回了类似下面的内容: root@proxmox:~# ping 10.99.xx.xx PING 10.99.xx.xx (10.99.xx.xx) 56(…

home-lab Kubernetes 集群流水账

流水账物理上位于四个地点的五个节点,两个节点位于家中虚拟化平台上、国内腾讯云与阿里云的学生机上各有一个节点、一个节点位于香港的某 IDC,etcd 节点在家中。整个内网三层互通,家中虚拟化平台上两个节点,通过位于内网的转发节点与其他节点通过 zerotier 虚拟网络通信。集群搭建使用了 rancher 作为管理平台,在内网配置完成后,在各个节点依次启动 agent,完成集群建设。CNI 选择了 calico 在原本三层互通的结构下直接 bgp 路由完成内部连接。ingress 使用了 traefik,部署使用了 daemonset 在所有节点提供服务。储存选择了 nfs,在家中黑群晖上暴露了整个网段可读写的 nfs 共享盘,再使用 catalog 里的 nfs-client-provisioner 即可,注意如果你也使用了 synology,权限 Squash 一定要选择 no mapping 否则权限问题会影响很多应用。在集群外部搭建了…