Lectures des données et chargement des librairies

J'ai besoin de la librairie pyreadr qui permet de lire un fichier .rda de R.

Organisation du jeu données + train et test

Arbre de décision

Pré-élagage (une approche un peu bulldozer)

Le pré-élagage n'est rien d'autre que l'arrêt de la croissance de l'arbre de décision à un stade précoce. Pour cela, nous pouvons limiter la croissance des arbres en fixant des contraintes. Nous pouvons agir sur les paramètres tels que max_depth , min_samples etc.

Une façon efficace de procéder est de faire une recherche sur une grille de ces paramètres et de choisir les valeurs optimales qui donnent de meilleures performances sur les données de test.

Pour l'instant, nous allons contrôler les paramètres suivants :

Le vrai élagage (Cost Complexity Pruning)

Les arbres de décision peuvent facilement se retrouver en situation de surajustement. Une façon de l'éviter est de limiter la croissance des arbres en fixant des contraintes. Nous pouvons limiter des paramètres tels que max_depth , min_samples etc. Mais le moyen le plus efficace est d'utiliser des méthodes d'élagage comme l'élagage Cost Complexity Pruning. Cela permet d'améliorer la précision test et d'obtenir un meilleur modèle.

L'élagage par Cost Complexity Pruning consiste à trouver le bon paramètre pour $\alpha$. Nous allons obtenir les valeurs de $\alpha$ pour cet arbre et vérifier la précision avec les arbres élagués. Petite vidéo si vous avez un peu de temps.

Nous allons supprimer le dernier élément dans regtrees et ccp_alphas, car c'est l'arbre trivial avec un seul nœud.