Séance 1 : Introduction à l'Intelligence Artificielle et à l’Apprentissage Automatique

Durée : 50 minutes

Objectifs de la séance

Contextualiser l’IA : Comprendre son évolution historique, ses enjeux et ses multiples domaines d’application (reconnaissance d’image, NLP, systèmes de recommandation, etc.).
Découvrir l’apprentissage automatique : S’initier aux bases de l’apprentissage supervisé et non supervisé, en lien avec vos acquis en algorithmique (tri, KNN, algorithmes gloutons).
Manipuler et visualiser des données en Python : Utiliser pandas et matplotlib pour explorer un dataset et en extraire des informations pertinentes.

Plan de la séance

1. Partie Théorique (15–20 minutes)

Introduction à l’Intelligence Artificielle

Définition : L’IA regroupe l’ensemble des techniques permettant à une machine de simuler une forme d’intelligence. Parmi ces techniques figure l’apprentissage automatique, qui permet aux systèmes d’améliorer leurs performances en apprenant à partir des données.

Exemples d’applications : reconnaissance vocale, analyse d’images, recommandation de produits, etc.

Les grandes familles d’algorithmes en IA

Apprentissage supervisé : Le modèle apprend à partir de données annotées pour faire des prédictions ou classer des informations.
Apprentissage non supervisé : Le modèle explore les données pour déceler des structures cachées sans informations préalables sur les classes.

Importance de la préparation des données

Avant toute modélisation, la qualité des données est primordiale. Un nettoyage, une normalisation et une exploration minutieuse permettent d’améliorer considérablement la performance des modèles.

2. Partie Pratique (30–35 minutes)

Exercice : Exploration et Visualisation d’un Dataset Simple

Objectif : Charger et explorer le dataset iris.csv, puis visualiser ses caractéristiques à l’aide d’un graphique en nuage de points.

Consignes :

Chargement : Utilisez pandas pour charger le fichier iris.csv (assurez-vous que le fichier se trouve dans le même répertoire que votre script).
Exploration : Affichez les 5 premières lignes avec la méthode .head() et obtenez un résumé statistique avec .describe().
Visualisation : Créez un graphique en nuage de points avec matplotlib afin de visualiser la relation entre sepal_length et sepal_width. Les points doivent être colorés en fonction de la variable species.

Exemple de code Python :


import pandas as pd
import matplotlib.pyplot as plt

# Chargement du dataset
df = pd.read_csv('iris.csv')

# Exploration du dataset
print("Les 5 premières lignes du dataset :")
print(df.head())
print("\nDescription statistique du dataset :")
print(df.describe())

# Visualisation de la distribution des espèces
plt.figure(figsize=(8,6))
# Conversion de la colonne 'species' en codes numériques pour la coloration
colors = df['species'].astype('category').cat.codes
plt.scatter(df['sepal_length'], df['sepal_width'], c=colors, cmap='viridis')
plt.xlabel('Longueur des sépales')
plt.ylabel('Largeur des sépales')
plt.title('Répartition des espèces selon les dimensions des sépales')
plt.colorbar(label="Code de l'espèce")
plt.show()

Propositions de Corrections et Commentaires

Afficher/Cacher les corrections

Ouvertures et Possibilités d’Application

Explorer d’autres types de visualisations (boxplots, histogrammes) pour approfondir l’analyse.
Tester un algorithme de clustering (ex. K-means) sur le dataset pour vérifier la cohérence des regroupements avec les espèces réelles.
Appliquer ces techniques sur d’autres datasets issus de domaines variés (finance, santé, environnement) afin d’observer leurs applications concrètes.