NumPy et Pandas sont les fondations de l'écosystème data science Python. Mal maîtrisées, ces librairies produisent du code lent, verbeux et fragile : copies inutiles, itérations explicites là où la vectorisation s'impose, confusion entre vues et copies dans Pandas.
J'ai vu ces pièges des dizaines de fois en formation. Ils ne viennent pas du niveau des participants : ils viennent d'un modèle mental incomplet du fonctionnement interne de ces librairies. Cette formation construit ce modèle mental, pour que vos équipes écrivent du code data science correct dès le premier jet.
À l'issue de cette formation, vos collaborateurs sauront
- Maîtriser le type
ndarrayde NumPy : création, indexation, slicing, reshaping - Appliquer la vectorisation et le broadcasting pour écrire des calculs efficaces sans boucles
- Manipuler des DataFrames Pandas avec les opérations avancées :
groupby,merge,pivot - Gérer correctement les index, les dates et les séries temporelles dans Pandas
- Lire et écrire des fichiers Parquet avec Pandas et PyArrow pour un stockage efficace
- Produire des visualisations statistiques publiables avec Seaborn
- Éviter les pièges courants : copie vs vue, chaînage d'indexation, types implicites
Programme détaillé
Module 1 — Environnement de travail
Installation d'un environnement data science avec Conda. IDE moderne : VS Code, git, intégration LLM.
Module 2 — NumPy, le calcul vectorisé en Python
Le type ndarray : structure mémoire, dtype, dimensions. Création de tableaux, slicing, reshaping, indexation avancée. Vectorisation et ufuncs. Broadcasting : règles et applications. Fonctions d'agrégation et de tri. Présentation de SciPy.
Module 3 — Pandas, manipulation de données tabulaires
Series et Index : structure, alignement automatique. DataFrame : création, sélection, filtrage, modification. Lecture et écriture : CSV, Excel, JSON, Parquet. Nettoyage de données : valeurs manquantes, doublons, types. Opérations avancées : concat, groupby, merge/join, pivot table. Gestion des dates et séries temporelles : DatetimeIndex, resample, rolling. Format Parquet : compression, partitionnement, interopérabilité avec PyArrow.
Module 4 — Seaborn, visualisation statistique
Architecture de Seaborn et relation avec Matplotlib. Graphiques relationnels (relplot), de distribution (displot), catégoriels (catplot). Visualisations multivariées : distplot, pairplot. Personnalisation : thèmes, palettes, export de figures publiables.
Vos équipes ont-elles le niveau Python requis ?
Les formations data science supposent une bonne maîtrise de Python : fonctions, itération, modules, espaces de nommage. Si ce n'est pas le cas de tous vos collaborateurs, je peux compléter la formation par le module Python — niveau 1 en amont des journées data science. Pour les équipes qui développent du code complexe, le module Python — avancé (programmation objet, décorateurs, métaclasses) est également disponible.
Ces compléments sont proposés au cas par cas — n'hésitez pas à m'en parler dans votre demande de devis.
Public et prérequis
Public cible
Data scientists, ingénieurs, chercheurs et doctorants souhaitant maîtriser les outils Python fondamentaux pour l'analyse de données.
Prérequis
Maîtrise intermédiaire de Python : fonctions, itération, espaces de nommage, importation de modules. Si vos équipes n'ont pas ce niveau, je propose une mise à niveau Python en complément — voir le bloc Vos équipes ont-elles le niveau Python requis ? ci-dessus.
Méthode pédagogique
La formation alterne exposés théoriques courts et exercices pratiques sur notebooks Jupyter. Chaque concept est immédiatement mis en application. J'attache une attention particulière à ce que chaque participant suive, quel que soit son niveau initial, et je calibre la profondeur de chaque sujet en fonction du groupe.
Les supports sont fournis aux participants à l'issue de la formation, accompagnés des notebooks d'exercices corrigés.
Documentation officielle
NumPy, Pandas, Seaborn, format Apache Parquet.
Questions fréquentes
Quelle est la différence entre une vue et une copie dans Pandas, et pourquoi est-ce important ?
C'est historiquement l'un des pièges les plus fréquents en Pandas. Depuis Pandas 3.0, le mécanisme Copy-on-Write (CoW) uniformise complètement la notion de vue et rend ce problème beaucoup plus simple à raisonner. La formation couvre les idiomes les plus modernes et efficaces des librairies enseignées — y compris les évolutions récentes de Pandas qui changent les bonnes pratiques.
Pourquoi apprendre Seaborn plutôt que Matplotlib directement ?
Seaborn est construit au-dessus de Matplotlib et produit des visualisations statistiques publiables avec beaucoup moins de code. Il est couvert en module 4, avec la personnalisation des thèmes et l'export de figures. Matplotlib reste accessible en dessous quand une personnalisation fine est nécessaire.
Le format Parquet est-il vraiment nécessaire à ce niveau ?
Oui. Parquet est devenu le format de référence pour l'échange et le stockage de données tabulaires en data science. La formation couvre la lecture et l'écriture Parquet avec Pandas et PyArrow, ainsi que la compression et le partitionnement — des notions utiles dès qu'on travaille avec des fichiers de taille significative.
Mes équipes n'ont pas toutes le même niveau Python. Comment ça se passe ?
Le niveau est calibré en fonction du groupe. Si certains collaborateurs n'ont pas le niveau Python requis (fonctions, itération, modules, espaces de nommage), la formation Python niveau 1 peut être ajoutée en amont. C'est à discuter au moment du devis.
Cette formation couvre-t-elle les séries temporelles ?
Oui, en module 3 : DatetimeIndex, resample et rolling sont traités dans Pandas. C'est un sujet fréquent pour les équipes qui travaillent sur des données de capteurs, des logs ou des données financières.
Le format distanciel est-il adapté à ce type de formation ?
Oui. 90 % des participants jugent le format distanciel équivalent ou supérieur au présentiel. J'anime des formations à distance depuis 2020 et j'ai développé une pratique solide de l'enseignement en ligne. J'utilise Zoom, qui permet d'enregistrer les sessions et de les mettre à disposition des participants si souhaité, et CoCalc, une plateforme en ligne qui donne accès à des serveurs pré-configurés avec l'ensemble du matériel de formation et des librairies installées. CoCalc me permet également de suivre en temps réel la progression de chaque participant et d'intervenir directement pour corriger ou débloquer.