Former vos équipes à la data science Python moderne

Du prototype au passage en production haute performance

Formations intra-entreprise intensives en Python, data science et calcul performant. Pour data scientists, ingénieurs et chercheurs en entreprise.

En français ou en anglais — sur site ou à distance

15 ans de formations professionnelles en entreprise depuis 2011
200 000+ inscrits au MOOC Python FUN co-créé en 2014 ★★★★ Voir les avis →
20+ ans d'usage de Python en recherche
Directeur de Recherche à Inria — institut national de recherche en sciences du numérique

Trois formations data science conçues pour la production

Chaque formation dure 3 jours (21 heures), en présentiel ou à distance, pour 10 participants maximum.

Python data science — niveau 1

Analyse et visualisation de données

  • NumPy
  • Pandas
  • Seaborn

Les fondations de l'écosystème data science Python. Vectorisation, broadcasting, manipulation de DataFrames, séries temporelles, format Parquet, visualisation statistique avec Seaborn.

Voir le programme →

Python data science — niveau 2

Manipulation avancée et haute performance

  • Polars
  • Numba
  • Multiprocessing

Aller au-delà de Pandas quand les volumes dépassent la RAM ou que les performances comptent. Polars et son streaming engine, accélération JIT avec Numba, parallélisme multi-cœurs avec multiprocessing.

Voir le programme →

Python machine learning

Du concept à la mise en production

  • scikit-learn

Maîtrise pratique du machine learning supervisé et non supervisé avec scikit-learn. Pipelines, régularisation, méthodes d'ensemble, sélection de modèles. Accent mis sur la rigueur méthodologique : évitement du surapprentissage, validation croisée, sélection sans fuite de données.

Voir le programme →

Vos équipes ont-elles le niveau Python requis ?

Les formations data science supposent une bonne maîtrise de Python : fonctions, itération, modules, espaces de nommage. Si ce n'est pas le cas de tous vos collaborateurs, je peux compléter la formation par le module Python — niveau 1 en amont des journées data science. Pour les équipes qui développent du code complexe, le module Python — avancé (programmation objet, décorateurs, métaclasses) est également disponible.

Ces compléments sont proposés au cas par cas — n'hésitez pas à m'en parler dans votre demande de devis.

Pourquoi me confier la formation de vos équipes ?

Un chercheur qui pratique ce qu'il enseigne

Directeur de Recherche à Inria, j'utilise Python depuis plus de 20 ans dans mes propres travaux de recherche, sur des données à très grande échelle : analyse complète du graphe social de Twitter (505 millions de comptes, 23 milliards de liens), traitement de l'intégralité du graphe de transactions Bitcoin (16,5 milliards de liens, 1,5 milliard d'adresses), mesures massives d'exposition aux ondes radio. Ces travaux ont donné lieu à une couverture par le New York Times, le Washington Post, Fortune et Le Monde. Quand j'enseigne Polars, le streaming engine ou les pièges du parallélisme, ce sont les outils que j'utilise au quotidien.

Une pédagogie rodée sur 200 000 apprenants

Co-créateur en 2014 avec Thierry Parmentelat du MOOC Python sur la plateforme FUN, suivi par plus de 200 000 inscrits et utilisé par Sorbonne Université et CentraleSupélec. Les supports et la progression pédagogique sont éprouvés sur un public extrêmement varié, du débutant complet au développeur expérimenté qui souhaite consolider ses fondations. Cette diversité m'a appris à identifier rapidement le niveau réel d'une équipe et à adapter le rythme en conséquence.

Un focus performance toujours à l'état de l'art

La spécificité de mon catalogue : aller au-delà de la data science d'introduction. Polars vs Pandas sur des volumes qui dépassent la RAM, parallélisme CPU-bound, accélération JIT avec Numba, gestion mémoire fine. Ce sont les sujets qui distinguent une équipe qui prototype d'une équipe qui livre en production. Les supports évoluent en continu pour suivre l'écosystème — nouvelles versions de Polars, évolutions du streaming engine, bonnes pratiques émergentes — parce que c'est aussi mon terrain de recherche au quotidien.

IA agentique

Pourquoi former vos équipes à l'ère de l'IA agentique ?

Claude Code, Codex, Cursor, Windsurf, Gemini CLI, Aider : les agents de codage transforment le métier d'ingénieur. Un développeur peut aujourd'hui produire des centaines de lignes de NumPy ou Polars sans en maîtriser les fondements. C'est précisément ce qui rend la formation stratégique aujourd'hui.

Les modèles sont structurellement en retard sur les bibliothèques

L'entraînement d'un modèle de pointe prend des mois, et les bibliothèques data science évoluent en permanence — nouvelles API Polars, évolutions du streaming engine, changements de comportement de scikit-learn, nouvelles versions de NumPy. Les agents génèrent souvent du code qui paraît plausible mais s'appuie sur des API obsolètes, des patterns dépréciés, ou ignore des optimisations récentes. Sans une équipe capable de reconnaître ces décalages, le code produit dérive silencieusement.

L'IA agentique amplifie autant les lacunes que les compétences

Pour un ingénieur qui maîtrise le sujet, c'est un véritable accélérateur de productivité : il sait orienter l'agent, vérifier ses sorties, corriger ses dérives. Pour une équipe qui ne maîtrise pas les fondamentaux, c'est l'inverse : un puits de code non maintenable, où s'accumulent des bugs subtils et difficiles à corriger. Une étude récente de CodeRabbit, relayée par Stack Overflow, montre que le code généré par IA contient 1,7 fois plus de bugs que le code écrit par des humains, dont 75 % de problèmes en plus sur la logique et la correction — exactement le type d'erreurs qui passent en code review et finissent en incidents de production.

Mes formations intègrent l'usage des agents IA

J'utilise moi-même ces outils au quotidien dans mon travail de recherche — Claude Code, GitHub Copilot, et d'autres — et j'en ai une vision transversale. Au-delà des fondamentaux Python et data science, j'enseigne comment tirer le meilleur parti des assistants de codage dans un contexte professionnel : structurer ses demandes pour obtenir du code de qualité, relire et auditer les sorties efficacement, identifier les patterns suspects, et combiner l'agent avec les bonnes pratiques de test et de profilage. L'objectif : faire de l'IA un véritable levier de productivité, tout en garantissant la maintenabilité et la fiabilité du code livré.

Former vos équipes aujourd'hui, c'est leur donner la capacité critique qui transforme un agent IA en véritable levier de productivité, et un avantage compétitif durable face à des équipes qui subissent l'IA au lieu de la piloter.

Au-delà de la formation : conseil et accompagnement

Vos équipes ont besoin d'un regard externe sur leur pipeline de données ? J'interviens également en conseil pour évaluer les pratiques d'analyse, identifier les goulots de performance, et proposer des améliorations concrètes. Audit ponctuel de quelques jours ou accompagnement régulier sur plusieurs mois, selon le besoin.

Découvrir le conseil et l'accompagnement →

La satisfaction des participants

Sur 289 évaluations collectées sur 39 sessions de formation depuis 2022 :

4,98/5 sur la maîtrise du sujet
4,88/5 sur les qualités pédagogiques
4,93/5 sur l'écoute et l'adaptation aux questions
90 % des participants jugent le format distanciel équivalent ou meilleur que le présentiel

Témoignages

« M. Legout maîtrise parfaitement le sujet. Il répond humblement à toutes les questions de la manière la plus claire et la plus honnête. J'ai très bien appris Pandas et Seaborn, et également plein de choses très utiles sur NumPy : les méthodes les plus efficaces parmi plusieurs, la manière dont NumPy "pense". J'aimerais bien participer aussi s'il donne un autre cours. »

— Tony Z., Mines Paris – PSL / CEMEF

« Arnaud Legout est un très bon formateur, il explique très bien, il connaît très bien son sujet et répond à toutes nos questions. L'outil CoCalc est très pratique, il permet d'écrire du code tout en ce que le formateur puisse voir ce que l'on fait pour qu'il puisse nous aider en cas de blocage. J'ai appris beaucoup de choses qui me seront très utiles dans mon travail. »

— Damien P., IGBMC – CNRS

« Very well documented. Perfectly meets my needs and goes further. Pedagogical course. The rhythm is fine. The answers to questions are great. »

— Fabien P., Observatoire de la Côte d'Azur

Ils m'ont confié la formation de leurs équipes

Entreprises tech et industrie

Orange · Cisco · Intel Mobile Communications · Gemalto · EPCOS · Transvalor · Supersonic Imagine · CNEDI-CERTIAM · Eau d'Azur

Recherche publique et enseignement supérieur

CNRS · INRAE · INSERM · Observatoire de la Côte d'Azur · Université Côte d'Azur

Formation spécialisée

École des Marins-Pompiers de Marseille

Questions fréquentes

Format et organisation

Le format distanciel est-il adapté à ce type de formation ?

Oui, et c'est une question légitime pour des formations aussi techniques. Le distanciel fonctionne bien ici pour plusieurs raisons : les exercices pratiques se font sur CoCalc, un environnement cloud collaboratif qui me permet de voir le code de chaque participant en temps réel et d'intervenir directement en cas de blocage — exactement comme en présentiel. Les sessions sont limitées à 10 participants maximum pour garantir un suivi individualisé. Le rythme est adapté, avec des temps d'échanges fréquents. Dans nos enquêtes post-formation, 90 % des participants jugent le format distanciel équivalent ou supérieur au présentiel.

Quelle est la durée et la structure des formations ?

Chaque formation dure 3 jours (21 heures), en sessions continues. Le format intra-entreprise permet d'adapter le rythme journalier à vos contraintes (3 jours consécutifs ou espacés). Le groupe est limité à 10 participants maximum.

Les formations peuvent-elles se dérouler dans nos locaux ?

Oui. Les formations sont proposées en présentiel sur site ou à distance. Pour le présentiel, chaque participant a besoin d'un poste avec accès à internet et d'un grand écran permettant de mettre deux fenêtres côte à côte confortablement, ou d'un double écran. L'environnement technique (CoCalc) ne nécessite aucune installation.

Contenu et niveau

Faut-il déjà connaître Python pour suivre ces formations ?

Cela dépend de la formation choisie. La formation Python data science (NumPy, Pandas, Seaborn) suppose une première expérience de Python mais pas de data science. La formation Data science haute performance en Python (Polars, Numba, parallélisme) s'adresse à des équipes déjà à l'aise avec l'écosystème data science. Si votre équipe a besoin d'une remise à niveau sur Python avant de démarrer, je propose également une formation Python niveau 1 dédiée. Un échange préalable permet de vérifier l'adéquation entre le niveau de l'équipe et le programme proposé.

Les formations sont-elles adaptables au contexte de notre équipe ?

Oui. Le format intra-entreprise permet d'ajuster le contenu à vos cas d'usage, vos données et vos contraintes techniques. Un échange de cadrage avant la formation permet d'identifier les priorités et d'orienter les exercices en conséquence.

Quelle est la différence entre les trois formations du catalogue ?

Les trois formations couvrent des niveaux et des objectifs distincts : Python data science pose les fondations (NumPy, Pandas, visualisation) ; Data science haute performance en Python va vers la performance à grande échelle (Polars, Numba, parallélisme, gestion mémoire) ; la troisième formation est centrée sur le machine learning avec scikit-learn, du prototype à la mise en production. Elles peuvent être suivies indépendamment selon le niveau de l'équipe.

Organisation et tarifs

Les formations sont-elles disponibles en anglais ?

Oui. Toutes les formations sont disponibles en français ou en anglais, selon la composition de votre équipe.

Comment obtenir un devis ?

Il suffit de remplir le formulaire de contact. Je prends en compte le nombre de participants, le format souhaité (présentiel / distanciel), la langue et les éventuels besoins d'adaptation du programme. Un devis est envoyé rapidement après un échange de cadrage.

Peut-on avoir des références de formations déjà réalisées ?

Ces formations ont été réalisées pour des équipes de nombreuses organisations, en entreprise comme en recherche publique : Orange, Cisco, Intel Mobile Communications, Gemalto, EPCOS, Transvalor, Supersonic Imagine, Eau d'Azur côté entreprises ; CNRS, INRAE, INSERM, Observatoire de la Côte d'Azur, Université Côte d'Azur côté recherche et enseignement supérieur. Des témoignages détaillés sont disponibles sur la page, et je peux fournir des références supplémentaires sur demande.

Proposez-vous du suivi post-formation ?

Les formations sont conçues pour être directement opérationnelles. Les supports complets (notebooks, exercices, corrections) sont remis à chaque participant. Pour des besoins de suivi spécifiques ou d'accompagnement plus long, n'hésitez pas à l'évoquer dans votre demande de devis.

Discutons de votre besoin de formation

Chaque formation peut être adaptée au contexte de vos équipes : niveau initial, cas d'usage métier, choix des modules. Décrivez-moi votre besoin et je vous propose un format et un devis adaptés.