Kubernetes
October 12, 2023

Поиск по логам syslog проблем с пробами и флапов сетки

Иногда необходимо посмотреть связано ли как-то падение проб с ошибками в сети. Для этого можно погрепать syslog с проблемной ноды на предмет ошибок.

Примеры ошибок проб в логах.

Oct 4 15:25:59 prod-cluster kubelet[1406]: I1008 15:25:59.445165 1406 prober.go:121] "Probe failed" probeType="Readiness" pod="svc-backend/api-service-server-76fdghj5f7-66jdq7" podUID=53fa06b0-ffa9-43f6-a085-1499aa05dd00 containerName="api-service-server" probeResult=failure output="Get \"http://10.11.14.21:80/ref/health": dial tcp 10.11.14.21:80: connect: connection refused"

Т.е можно погрепать логи по словосочетанию "Probe failed". И посмотреть когда эти ошибки начали появляться.

Ошибки проб можно сопоставить с флапами сети.

Сеть упала.

Oct 8 15:18:29 prod-cluster systemd-networkd[652]: cali80b47e0cad0: Link DOWN 
Oct 8 15:18:29 prod-cluster systemd-networkd[652]: cali80b47e0cad0: Lost carrier

И поднялась.

Oct 8 15:19:43 prod-cluster systemd-networkd[652]: cali9a61293f2b4: Link UP 
Oct 8 15:19:43 prod-cluster systemd-networkd[652]: cali9a61293f2b4: Gained carrier

Таким образом, зная время начала падения проб и время начала/окончания флапа, можно сопоставить их.