Habilitation obligatoire
La mission consiste à établir, exploiter et améliorer une plateforme AI/MLOps basée sur Kubernetes / OpenShift pour supporter le cycle de vie complet des modèles ML, depuis l'expérimentation jusqu’au déploiement opérationnel.
Objectifs principaux (non exhaustif) :
Garantir la fiabilité, la scalabilité et la sécurité de la plateforme AI.
Fluidifier le passage ML → production, en automatisant au maximum les étapes.
Compétences techniques essentielles :
Expertise containers Docker, orchestration Kubernetes, avec forte pratique OpenShift.
Compétence DevOps : CI/CD, IaC, GitOps.
Maîtrise de solutions MLOps : Kubeflow, Elyra, environnements LLM.
Connaissances avancées sur les pipelines : Tekton, modèles de déploiement, Artifactory.
Compétences en scripting : Python, Go.
Connaissance des frameworks de Machine Learning
Soft skills & exigences :
Autonomie sur un environnement complexe.
Capacité à intervenir sur une plateforme AI en production.
Aptitude au troubleshooting multi-couches (pods, ressources, pipelines).
Rigueur, sécurité et conformité dans les environnements sensibles
Maintenance & Opérations
Exploitation quotidienne d’une plateforme AI basée sur kube/OCP.
Application des mises à jour, correctifs et évolutions des composants plateforme.
Déploiement & Supervision
Déploiement des modèles ML dans l’environnement OCP.
Automatisation des tâches de scaling, monitoring et gestion du cycle de vie.
CI/CD & Pipelines
Conception, construction et maintenance de pipelines CI/CD avec Tekton ou Kubeflow.
Gestion des workflows d’entraînement, réentraînement et inference.
Support & Troubleshooting
Diagnostic des crashes pods, problèmes de ressources, échecs pipelines.
Résolution des incidents liés à la production de modèles.
Customisation & Sécurité
Rebuild et customisation de composants plateforme (workbenches, runtimes).
Garantie de la conformité & sécurité sur l’ensemble des environnements.