Comment calculer les indicateurs statistiques d'un échantillon en Python ?
pandas.read_csv puis en utilisant describe, head, shape, sort_values sur le DataFrameCharger un fichier csv, visualiser les premières lignes, calculer un résumé statistique et trier les données avec pandas.
Un fichier notes.csv contient deux colonnes eleve et note. Afficher les 5 premières lignes, le résumé statistique et trier par note décroissante.
Charger un fichier csv, visualiser les premières lignes, calculer un résumé statistique et trier les données avec pandas.
pandas.read_csv renvoie un DataFrame ; df.shape donne (n, p), df.head() affiche les premières lignes, df.describe() renvoie pour chaque colonne numérique , et df.sort_values(by=...) trie selon une colonne.
import pandas as pd.df = pd.read_csv('fichier.csv').df.shape (taille), df.head() (5 premières lignes), df.columns (noms).df.describe() pour le résumé statistique et df.sort_values(by='col') pour trier.Un fichier notes.csv contient deux colonnes eleve et note. Afficher les 5 premières lignes, le résumé statistique et trier par note décroissante.
import pandas as pd.import pandas as pd.
df = pd.read_csv('fichier.csv').df = pd.read_csv('notes.csv').
df.shape (taille), df.head() (5 premières lignes), df.columns (noms).df.head() affiche les 5 premières lignes ; df.shape donne le couple .
df.describe() pour le résumé statistique et df.sort_values(by='col') pour trier.df.describe() renvoie mean, std, min, max de note ; df.sort_values(by='note', ascending=False) trie du meilleur au moins bon.
import pandas as pd
df = pd.read_csv('notes.csv')
print(df.head())
print(df.shape)
print(df.describe())
print(df.sort_values(by='note', ascending=False))
On dispose du résumé (mean, std, quartiles) et de la liste triée par note décroissante.
Sur un DataFrame df de colonnes [taille, poids, age], calculer la moyenne de chaque colonne et identifier la ligne de taille maximale.
Filtrer les élèves ayant une note supérieure à dans le DataFrame df = pd.read_csv('notes.csv').
Un fichier ventes.csv comporte les colonnes produit, quantite, prix_unitaire. Charger le fichier, afficher les premières lignes, calculer le résumé statistique de quantite et trier par prix_unitaire décroissant.
Sur un DataFrame df avec colonnes ['ville', 'temp_min', 'temp_max'], calculer pour chaque ville l'amplitude thermique temp_max - temp_min et identifier la ville ayant l'amplitude maximale.
Crée ton compte pour accéder à la fiche et aux exercices