Comment calculer les indicateurs statistiques d'un échantillon en Python ? | MetMat

Comment calculer les indicateurs statistiques d'un échantillon en Python ?

En chargeant un fichier csv via `pandas.read_csv` puis en utilisant `describe`, `head`, `shape`, `sort_values` sur le DataFrame

Charger un fichier csv, visualiser les premières lignes, calculer un résumé statistique et trier les données avec pandas.

Que ferais-tu face à un exercice de ce type ?

Un fichier notes.csv contient deux colonnes eleve et note. Afficher les 5 premières lignes, le résumé statistique et trier par note décroissante.

L'objectif

Charger un fichier csv, visualiser les premières lignes, calculer un résumé statistique et trier les données avec pandas.

Le principe

pandas.read_csv renvoie un DataFrame ; df.shape donne (n, p), df.head() affiche les premières lignes, df.describe() renvoie pour chaque colonne numérique $\mathrm{count}, \mathrm{mean}, \mathrm{std}, \min, Q_1, \mathrm{median}, Q_3, \max$ , et df.sort_values(by=...) trie selon une colonne.

La méthode

1
J'importe pandas : import pandas as pd.
2
Je charge le fichier : df = pd.read_csv('fichier.csv').
3
J'explore : df.shape (taille), df.head() (5 premières lignes), df.columns (noms).
4
J'applique df.describe() pour le résumé statistique et df.sort_values(by='col') pour trier.

Pour comprendre, fais des exercices !

0/5 validés

Exercice d'exemple

Un fichier notes.csv contient deux colonnes eleve et note. Afficher les 5 premières lignes, le résumé statistique et trier par note décroissante.

Étape 1 —

J'importe pandas : import pandas as pd.

import pandas as pd.

Étape 2 —

Je charge le fichier : df = pd.read_csv('fichier.csv').

df = pd.read_csv('notes.csv').

Étape 3 —

J'explore : df.shape (taille), df.head() (5 premières lignes), df.columns (noms).

df.head() affiche les 5 premières lignes ; df.shape donne le couple $(n, 2)$ .

Étape 4 —

J'applique df.describe() pour le résumé statistique et df.sort_values(by='col') pour trier.

df.describe() renvoie mean, std, min, max de note ; df.sort_values(by='note', ascending=False) trie du meilleur au moins bon.

import pandas as pd
df = pd.read_csv('notes.csv')
print(df.head())
print(df.shape)
print(df.describe())
print(df.sort_values(by='note', ascending=False))

On dispose du résumé (mean, std, quartiles) et de la liste triée par note décroissante.

Application guidée

Sur un DataFrame df de colonnes [taille, poids, age], calculer la moyenne de chaque colonne et identifier la ligne de taille maximale.

Application autonome 1

Filtrer les élèves ayant une note supérieure à $12$ dans le DataFrame df = pd.read_csv('notes.csv').

Application autonome 2

Un fichier ventes.csv comporte les colonnes produit, quantite, prix_unitaire. Charger le fichier, afficher les $3$ premières lignes, calculer le résumé statistique de quantite et trier par prix_unitaire décroissant.

Application autonome 3

Sur un DataFrame df avec colonnes ['ville', 'temp_min', 'temp_max'], calculer pour chaque ville l'amplitude thermique temp_max - temp_min et identifier la ville ayant l'amplitude maximale.

Crée ton compte pour accéder à la fiche et aux exercices

En chargeant un fichier csv via pandas.read_csv puis en utilisant describe, head, shape, sort_values sur le DataFrame

Pour comprendre, fais des exercices !

En chargeant un fichier csv via `pandas.read_csv` puis en utilisant `describe`, `head`, `shape`, `sort_values` sur le DataFrame