Contexte
Ce projet permet de mettre en application les concepts du machine learning. A partir d'un jeu de données contenant les caractéristiques de billets en précisant si ils sont vrais ou faux, mais incomplet.
Il s'agit d'identifier les valeurs manquantes à l'aide d'une régression linéaire pour ensuite véracité des résultats à travers une cross validation , et 4 algorithmes.
- Regression Logistique
- K-Means
- KNN
- Random Forest
Et finalement, vérifier la véracité de mes conclusions à travers un jeu de test.
Démarche
- Préparation des données sous Jupyter notebook.
- Mise en place d'une régression linéaire pour compléter les valeurs manquantes.
- Entrainement du jeu de données.
- Test du modèle.
- Mise en place d'une régression logistique pour identifier les vrais des faux billets.
- Entrainement du jeu de données.
- Evaluation du modèle de données par une matrice de confusion.
- Test d'un nouveau jeu de données.
- Evaluation du résultat final .
Outils utilisés
Python, bibliothèque Scikit learn.
Compétences acquises
- Principe et modèles du machine learning.
- utilisation des bibliothèques disponibles dans sklearn.
- Mise en place d'une cross validation.
- Test des différents modèles.
Exemples de visualisations
Extrait du support de présentation
Extrait du support de présentation "matrice de corrélation"
Extrait du support de présentation "Régression logistique"
Extrait du support de présentation "résultat de prédiction"
Extrait du support de présentation "Méthode silhouette"