Topic outline

  • Nous avons nettoyé nos données, nous avons aussi étudiés nos données et nous les connaissons mieux. Certaines techniques nous permettent de traiter nos données de façon a mieux modéliser un phénomène, ces techniques sont appelées Scaling et Normalisation. Dans cette section nous allons appliquer ces techniques pour améliorer nos données.


    Activité 1 : Un peu de théorie

    Distanciel - 4h

    Normaliser  et une technique qui permet d'uniformiser les données. Nous pouvons donc traiter des données avec des valeurs différents (température,  humidité, ...) de la même façon. Ça facilite aussi les calcules statistiques et la modélisation.

    Regardez cette video sur la normalisation : https://www.coursera.org/lecture/data-analysis-with-python/data-normalization-in-python-pqNBS

    Il y a plusieurs méthodes de normalisation. Nous allons utiliser une bibliothèque python pour cette procédure :  sklearn. Sklearn (ou SciKitLearn) met à votre disposition des fonctions pour normaliser nos données, pour créer des modèles statistiques et autres.

    Nous allons utiliser le module preprocessing de sklearn pour la normalisation et échelonnage. Regardez la documentation pour continuer : https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing


    Activité 2 : Premiers pas en preprocessing et sklearn

    Distanciel - 8h
    Nous allons nous familiariser avec preprocessing

    

    Activité 3 : Traitons les données météo

    Distanciel - 4h
    Nous allons appliquer les méthodes de sklearn pour normaliser nos données.

    • Complétez la Partie 3 du Notebook 11
    • Publiez le fichier data/weather_madrid_normal.csv dans votre repository GitHub
    • Publiez votre notebook
    Maintenant vous pouvez valider la competence normaliser un ensemble des données avec Sklearn