Infrastructure Engineer (42415)

Staňte sa súčasťou projektu zameraného na návrh a prevádzku NVIDIA AI infraštruktúry. Vašou úlohou v pozícii Infrastructure Engineera bude správa bare-metal serverov, GPU klastrov, úložísk a sieťových prepojení, ako aj automatizácia procesov a nasadení. Pracovať budete s technológiami ako Linux (Debian), Ansible, Terraform, Prometheus či Grafana. Vyžaduje sa skúsenosť s hardvérom, sieťami, správou identít a ITIL procesmi. Nevyhnutná je schopnosť zabezpečiť stabilnú prevádzku v kritickom prostredí a znalosť anglického jazyka.

🚀 Projekt
- koordinácia prevádzky s tímami dátových centier: koordinácia a podpora aktivít životného cyklu hardvéru (inštalácie, upgrady GPU, rozširovanie úložísk, aktualizácie firmvéru) a správa prepojení serverov/sietí a súvisiacej dokumentácie
- správa serverov a uzlov: provisionovanie a údržba bare-metal serverov a GPU uzlov (PXE boot, inštalácie OS, aktualizácie firmvéru)
- návrh a prevádzka infraštruktúrneho stacku NVIDIA AI
- automatizácia & IaC: vývoj a údržba Ansible a Terraform playbookov na automatizáciu provisioningu, konfigurácie a nasadení
- správa OS a firmvéru: údržba prostredí založených na Debiane, aplikovanie patchov a správa aktualizácií firmvéru vo veľkom rozsahu
- správa identít a prístupov: integrácia a údržba Keycloak, Entra ID / CAIMAN a AD pre autentifikáciu a autorizáciu používateľov
- prevádzka AI & HPC workloadov: podpora a prevádzka distribuovaných AI workloadov na bare-metal hostoch a v prostredí Kubernetes
- monitoring a observabilita: prevádzka stackov Prometheus a Grafana pre proaktívny monitoring infraštruktúry a alerting
- správa úložísk: správa vysoko výkonných úložných systémov
- ITIL procesy: dodržiavanie a zlepšovanie procesov incident, problem a change managementu; dokumentácia runbookov a štandardných operačných postupov. Dodržiavanie zásad ZERO Outage
- konzultácie a poskytovanie projektových výstupov na splnenie rozsahu projektu so zameraním na technologický stack Nvidia

🎯 Skills
- skúsenosti s inštaláciou, údržbou a prevádzkou hardvéru.
- pokročilá znalosť Linuxu (preferovaný Debian) v produkčných prostrediach
- praktické skúsenosti s Infrastructure-as-Code (Ansible, Terraform); výhodou Redfish
- znalosť serverových platforiem s NVIDIA GPU akceleráciou
- znalosť Nvidia AI softvérového stacku súvisiaceho s orchestráciou GPU
- znalosť softvérového stacku GPU cloud platforiem vrátane jeho závislostí na nižších vrstvách
- dobré pochopenie základov sietí (IP, routing, VLANy, DNS, firewally a L1, L2)
- skúsenosti so systémami správy identít a prístupov (Keycloak, Entra ID, LDAP)
- znalosť monitorovacích nástrojov (Prometheus, Grafana)
- znalosť vysoko výkonných úložných systémov (výhodou WEKA od Hitachi)
- pracovná znalosť ITIL procesov (incident, problem, change)
- silné schopnosti riešenia problémov a prevádzkovej podpory v 24/7 kritickom prostredí
- skúsenosti s veľkými GPU klastrami, HPC alebo dátovými centrami
- znalosť sovereign cloud a požiadaviek na bezpečnosť a compliance dát
- znalosť Terraform a GitOps pre infraštruktúrne zmeny
- znalosť anglického jazyka

#admin-linux

Infrastructure Engineer (42415)

I'm interested