Durée : 50 minutes
pandas et matplotlib pour explorer un dataset et en extraire des informations pertinentes.Définition : L’IA regroupe l’ensemble des techniques permettant à une machine de simuler une forme d’intelligence. Parmi ces techniques figure l’apprentissage automatique, qui permet aux systèmes d’améliorer leurs performances en apprenant à partir des données.
Exemples d’applications : reconnaissance vocale, analyse d’images, recommandation de produits, etc.
Avant toute modélisation, la qualité des données est primordiale. Un nettoyage, une normalisation et une exploration minutieuse permettent d’améliorer considérablement la performance des modèles.
Objectif : Charger et explorer le dataset iris.csv, puis visualiser ses caractéristiques à l’aide d’un graphique en nuage de points.
pandas pour charger le fichier iris.csv (assurez-vous que le fichier se trouve dans le même répertoire que votre script)..head() et obtenez un résumé statistique avec .describe().matplotlib afin de visualiser la relation entre sepal_length et sepal_width. Les points doivent être colorés en fonction de la variable species.
import pandas as pd
import matplotlib.pyplot as plt
# Chargement du dataset
df = pd.read_csv('iris.csv')
# Exploration du dataset
print("Les 5 premières lignes du dataset :")
print(df.head())
print("\nDescription statistique du dataset :")
print(df.describe())
# Visualisation de la distribution des espèces
plt.figure(figsize=(8,6))
# Conversion de la colonne 'species' en codes numériques pour la coloration
colors = df['species'].astype('category').cat.codes
plt.scatter(df['sepal_length'], df['sepal_width'], c=colors, cmap='viridis')
plt.xlabel('Longueur des sépales')
plt.ylabel('Largeur des sépales')
plt.title('Répartition des espèces selon les dimensions des sépales')
plt.colorbar(label="Code de l'espèce")
plt.show()
pandas et matplotlib sont installés (commande : pip install pandas matplotlib).iris.csv est placé dans le même dossier que votre script Python, ou modifiez le chemin en conséquence.
La méthode .head() permet d’obtenir un aperçu rapide du dataset, tandis que .describe() fournit des statistiques essentielles pour détecter d’éventuelles anomalies.
La conversion de la colonne species en codes numériques permet d’affecter des couleurs distinctes aux différentes espèces dans le scatter plot. Cela rend la visualisation intuitive et facilite l’analyse des regroupements.