TP 3 : Arbres de décision

Une tâche important en IA est de pouvoir classifier des objets : reconnaître des images, détecter des spams, trouver la famille d’une plante etc. Souvent, on ne sait pas vraiment définir explicitement une fonction permettant de classifier un objet. En effet, le processus que nous utilisons mentalement pour reconnaître un chat sur une image est difficile à décrire et d’autant plus à implémenter sur une machine pour laquelle une image n’est rien d’autre, au départ, qu’un tableau de nombres : on repère des formes, les yeux et la tête, on regarde la forme des oreilles etc. Autant de concepts qu’il faudrait réussir à formaliser dans un programme.

On va s’intéresser ici à l’apprentissage automatique d’une fonction de classification à partir d’exemples en utilisant une famille d’hypothèses appelées arbres de décision. On va voir comment utiliser les arbres de décision pour apprendre à classifier depuis des exemples, comment on peut mettre cet apprentissage en place avec python en utilisant la librairie scikit learn pour apprendre un arbre de décision depuis un jeu de données et comment évaluer la qualité de la fonction apprise par cross validation.

Arbres de décision

Un arbre de décision est une structure de données permettant de classifier des vecteurs de données la forme (x₁,…,x_n) ∈ D₁ × … × D_n dans des classes 𝒞 en répondant à une succession de questions. On utilise parfois leurs cousins, les flowcharts, pour expliquer le fonctionnement de certains systèmes (voir par exemple l’excellent SMBC Comics expliquant que l’IA détruira l’humanité). Les arbres de décision sont des structures de données particulièrement adaptée pour les problèmes de décision faisant intervenir des attributs qui prennent un nombre de valeur finie. Ils ont aussi l’avantage d’être facilement compréhensible par un humain : on peut exactement voir comment un arbre de décision arrive à une conclusion depuis un vecteur de données. On dit souvent qu’ils sont, en ce sens, interprétables. Cette affirmation est cependant rarement formalisée et à prendre avec des pincettes, la façon un arbre prend ses décisions a toutefois été apprise sur des données et il reste difficile d’y détecter des biais.

Formellement, un arbre de décision T est un arbre dont les noeuds internes sont étiquettés par des questions de la forme x_i = v, x_i ≤ v ou x_i ≥ v et les noeuds terminaux sont étiquetés par une classe c ∈ 𝒞. Chaque noeud a deux fils : un fils négatif, représenté à droite, et un fils positif, représenté à gauche. Étant donné un vecteur x = (x₁,…,x_n) de valeurs, T classifie x dans une classe c ∈ 𝒞 si on arrive dans une feuille étiquetée par c en suivant le processus suivant :

Par exemple, dans l’exemple suivant, un vecteur {"couleur": "jaune", "poids": "200g", "taille": "20cm", "diamQueue": "1cm"} sera classé en tant que banane. En effet, on commencera par descendre à droite puisque la couleur n’est pas verte, puis à gauche (la couleur est jaune) puis à droite (la taille est plus grande que 15cm). Vous pouvez passer votre souris sous l’image ci-dessous pour voir le chemin se colorer.

Comment seront classés les vecteurs suivants :

{"couleur": "rouge", "poids": "200g", "taille": "20cm", "diamQueue": "0.3cm"}
{"couleur": "vert", "poids": "100g", "taille": "15cm", "diamQueue": "1cm"}
{"couleur": "vert", "poids": "2000g", "taille": "30cm", "diamQueue": "0cm"}

Correction

Poivron

Poivron.

Chou.

Comment serait classé ce poivron à partir de sa représentation ? Le langage de représentation vous semble-t-il suffisamment riche pour classifier les légumes considérés dans l’arbre précédent ?

Correction

Cet exemple sera classé comme une banane, on voit donc ici les limites du modèle.

Classifier des iris !

Dans cette partie, on va s’intéresser à un jeu de données classique pour les arbres de décision : le jeu de données IRIS. Ce jeu de données contient des exemples d’iris classés en trois espèces : les iris setosa, versicolor et virginica. Les attributs qui sont utilisés dans le jeu de données sont : la longueur et largeur des pétales, la longeur et la largeur des sépales.

On peut trouver une version du jeu de données au format ARFF sur OpenML, ou au format CSV. Il existe de nombreux formats de fichiers pour échanger des jeux de données (ARFF, CSV, svmlight etc.). La plupart des librairies pour l’apprentissage vous permettra d’importer sans trop de problème les données depuis différents formats dans leur format local. Il faut cependant garder à l’esprit que la constitution de tels jeux de données et leur normalisation est en général un travail fastidieux mais nécessaire pour l’apprentissage. Nous utiliserons ici le fait que Scikit Learn propose déjà une fonction pour charger le jeu de données IRIS afin de faciliter la manipulation.

La librairie Scikit Learn

La libriaire Scikit Learn en python vous permet de mettre facilement en place des solutions utilisant l’apprentissage. Cette librairie est très riche et nous l’utiliserons plusieurs fois dans ce cours. Nous proposons ici de découvrir certaines de ses nombreuses fonctionnalités.

Installez la librairie dans Thonny (Outils -> Gérer les paquets) avec le paquet scikit-learn.

Si vous n’utilisez pas Thonny, vous pouvez le faire en ligne de commande avec

pip3 install scikit-learn
python3 -m pip install scikit-learn si la première commande échoue.

On va charger le jeu de données. Ce jeu de données est très populaire et on peut donc le charger directement depuis la librairiescikit-learn. En général, on dispose du jeu de données dans un fichier externe qu’on doit charger. Nous n’aborderons pas cet aspect aujourd’hui.

Pour importer la fonction dont on a besoin et charger le jeu de données, on écrira au début de notre fichier :

En utilisant print(iris), essayez de visualiser un peu le contenu de la variable iris.

Correction

On obtient :

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [5.5, 3.5, 1.3, 0.2],
       [4.9, 3.6, 1.4, 0.1],
       [4.4, 3. , 1.3, 0.2],
       [5.1, 3.4, 1.5, 0.2],
       [5. , 3.5, 1.3, 0.3],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4],
       [4.8, 3. , 1.4, 0.3],
       [5.1, 3.8, 1.6, 0.2],
       [4.6, 3.2, 1.4, 0.2],
       [5.3, 3.7, 1.5, 0.2],
       [5. , 3.3, 1.4, 0.2],
       [7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2.8, 4.5, 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [4.9, 2.4, 3.3, 1. ],
       [6.6, 2.9, 4.6, 1.3],
       [5.2, 2.7, 3.9, 1.4],
       [5. , 2. , 3.5, 1. ],
       [5.9, 3. , 4.2, 1.5],
       [6. , 2.2, 4. , 1. ],
       [6.1, 2.9, 4.7, 1.4],
       [5.6, 2.9, 3.6, 1.3],
       [6.7, 3.1, 4.4, 1.4],
       [5.6, 3. , 4.5, 1.5],
       [5.8, 2.7, 4.1, 1. ],
       [6.2, 2.2, 4.5, 1.5],
       [5.6, 2.5, 3.9, 1.1],
       [5.9, 3.2, 4.8, 1.8],
       [6.1, 2.8, 4. , 1.3],
       [6.3, 2.5, 4.9, 1.5],
       [6.1, 2.8, 4.7, 1.2],
       [6.4, 2.9, 4.3, 1.3],
       [6.6, 3. , 4.4, 1.4],
       [6.8, 2.8, 4.8, 1.4],
       [6.7, 3. , 5. , 1.7],
       [6. , 2.9, 4.5, 1.5],
       [5.7, 2.6, 3.5, 1. ],
       [5.5, 2.4, 3.8, 1.1],
       [5.5, 2.4, 3.7, 1. ],
       [5.8, 2.7, 3.9, 1.2],
       [6. , 2.7, 5.1, 1.6],
       [5.4, 3. , 4.5, 1.5],
       [6. , 3.4, 4.5, 1.6],
       [6.7, 3.1, 4.7, 1.5],
       [6.3, 2.3, 4.4, 1.3],
       [5.6, 3. , 4.1, 1.3],
       [5.5, 2.5, 4. , 1.3],
       [5.5, 2.6, 4.4, 1.2],
       [6.1, 3. , 4.6, 1.4],
       [5.8, 2.6, 4. , 1.2],
       [5. , 2.3, 3.3, 1. ],
       [5.6, 2.7, 4.2, 1.3],
       [5.7, 3. , 4.2, 1.2],
       [5.7, 2.9, 4.2, 1.3],
       [6.2, 2.9, 4.3, 1.3],
       [5.1, 2.5, 3. , 1.1],
       [5.7, 2.8, 4.1, 1.3],
       [6.3, 3.3, 6. , 2.5],
       [5.8, 2.7, 5.1, 1.9],
       [7.1, 3. , 5.9, 2.1],
       [6.3, 2.9, 5.6, 1.8],
       [6.5, 3. , 5.8, 2.2],
       [7.6, 3. , 6.6, 2.1],
       [4.9, 2.5, 4.5, 1.7],
       [7.3, 2.9, 6.3, 1.8],
       [6.7, 2.5, 5.8, 1.8],
       [7.2, 3.6, 6.1, 2.5],
       [6.5, 3.2, 5.1, 2. ],
       [6.4, 2.7, 5.3, 1.9],
       [6.8, 3. , 5.5, 2.1],
       [5.7, 2.5, 5. , 2. ],
       [5.8, 2.8, 5.1, 2.4],
       [6.4, 3.2, 5.3, 2.3],
       [6.5, 3. , 5.5, 1.8],
       [7.7, 3.8, 6.7, 2.2],
       [7.7, 2.6, 6.9, 2.3],
       [6. , 2.2, 5. , 1.5],
       [6.9, 3.2, 5.7, 2.3],
       [5.6, 2.8, 4.9, 2. ],
       [7.7, 2.8, 6.7, 2. ],
       [6.3, 2.7, 4.9, 1.8],
       [6.7, 3.3, 5.7, 2.1],
       [7.2, 3.2, 6. , 1.8],
       [6.2, 2.8, 4.8, 1.8],
       [6.1, 3. , 4.9, 1.8],
       [6.4, 2.8, 5.6, 2.1],
       [7.2, 3. , 5.8, 1.6],
       [7.4, 2.8, 6.1, 1.9],
       [7.9, 3.8, 6.4, 2. ],
       [6.4, 2.8, 5.6, 2.2],
       [6.3, 2.8, 5.1, 1.5],
       [6.1, 2.6, 5.6, 1.4],
       [7.7, 3. , 6.1, 2.3],
       [6.3, 3.4, 5.6, 2.4],
       [6.4, 3.1, 5.5, 1.8],
       [6. , 3. , 4.8, 1.8],
       [6.9, 3.1, 5.4, 2.1],
       [6.7, 3.1, 5.6, 2.4],
       [6.9, 3.1, 5.1, 2.3],
       [5.8, 2.7, 5.1, 1.9],
       [6.8, 3.2, 5.9, 2.3],
       [6.7, 3.3, 5.7, 2.5],
       [6.7, 3. , 5.2, 2.3],
       [6.3, 2.5, 5. , 1.9],
       [6.5, 3. , 5.2, 2. ],
       [6.2, 3.4, 5.4, 2.3],
       [5.9, 3. , 5.1, 1.8]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 
       'frame': None, 
       'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'), 
       'DESCR': '.. _iris_dataset:\n\nIris plants dataset\n--------------------\n\n**Data Set Characteristics:**\n\n:Number of Instances: 150 (50 in each of three classes)\n:Number of Attributes: 4 numeric, predictive attributes and the class\n:Attribute Information:\n    - sepal length in cm\n    - sepal width in cm\n    - petal length in cm\n    - petal width in cm\n    - class:\n            - Iris-Setosa\n            - Iris-Versicolour\n            - Iris-Virginica\n\n:Summary Statistics:\n\n============== ==== ==== ======= ===== ====================\n                Min  Max   Mean    SD   Class Correlation\n============== ==== ==== ======= ===== ====================\nsepal length:   4.3  7.9   5.84   0.83    0.7826\nsepal width:    2.0  4.4   3.05   0.43   -0.4194\npetal length:   1.0  6.9   3.76   1.76    0.9490  (high!)\npetal width:    0.1  2.5   1.20   0.76    0.9565  (high!)\n============== ==== ==== ======= ===== ====================\n\n:Missing Attribute Values: None\n:Class Distribution: 33.3% for each of 3 classes.\n:Creator: R.A. Fisher\n:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)\n:Date: July, 1988\n\nThe famous Iris database, first used by Sir R.A. Fisher. The dataset is taken\nfrom Fisher\'s paper. Note that it\'s the same as in R, but not as in the UCI\nMachine Learning Repository, which has two wrong data points.\n\nThis is perhaps the best known database to be found in the\npattern recognition literature.  Fisher\'s paper is a classic in the field and\nis referenced frequently to this day.  (See Duda & Hart, for example.)  The\ndata set contains 3 classes of 50 instances each, where each class refers to a\ntype of iris plant.  One class is linearly separable from the other 2; the\nlatter are NOT linearly separable from each other.\n\n|details-start|\n**References**\n|details-split|\n\n- Fisher, R.A. "The use of multiple measurements in taxonomic problems"\n  Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to\n  Mathematical Statistics" (John Wiley, NY, 1950).\n- Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis.\n  (Q327.D83) John Wiley & Sons.  ISBN 0-471-22361-1.  See page 218.\n- Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System\n  Structure and Classification Rule for Recognition in Partially Exposed\n  Environments".  IEEE Transactions on Pattern Analysis and Machine\n  Intelligence, Vol. PAMI-2, No. 1, 67-71.\n- Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule".  IEEE Transactions\n  on Information Theory, May 1972, 431-433.\n- See also: 1988 MLC Proceedings, 54-64.  Cheeseman et al"s AUTOCLASS II\n  conceptual clustering system finds 3 classes in the data.\n- Many, many more ...\n\n|details-end|\n', 
       'feature_names': ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'], 
       'filename': 'iris.csv', 
       'data_module': 'sklearn.datasets.data'}

On peut voir que iris.data contient un tableau. Quel est sa taille ? Même question avec iris.target.

Aide: la fonction len(t) renvoie la taille d’un tableau.

Correction

On exécute le programme suivant :

from sklearn.datasets import load_iris

iris = load_iris()

print("Taille de iris[\"data\"] :")
print(len(iris["data"]))
print("Taille de iris[\"target\"] :")
print(len(iris["target"]))

On obtient :

Taille de iris["data"] :
150
Taille de iris["target"] :
150

On remarque que iris.data et iris.target ont le même nombre de lignes. Ce qu’il faut donc comprendre c’est que iris.data[i] contient tous les attributs d’un vecteur exemple et iris.target[i] contient sa classe. On remarque que ces tableaux ne contiennent que des chiffres et qu’on ne voit pas à quoi ils correspondent. On trouvera les détails dans les tableaux iris.feature_names et iris.target_names.

Affichez les tableaux iris.feature_names et iris.target_names. Que contiennent-ils ?

Correction

from sklearn.datasets import load_iris

iris = load_iris()

print(iris["feature_names"])
print(iris["target_names"])

qui donne

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']

Ce qu’il faut comprendre c’est que la classe qui a le numéro i a le nom iris.target_names[i]. Pareillement, l’attribut en position i a le nom iris.feature_names[i]. Par exemple :

Cela nous indique que la première ligne du jeu de données (iris.data[0]) contient un exemple d’iris dont la longueur des sépales est 5.1cm, la largeur des sépales est 3.5cm, la longueur des pétales est 1.4cm et la largeur des pétales est 0.2cm. De plus :

Cela nous indique que la classe de la première ligne du jeu de donnée (iris.target[0]) est de classe 0, c’est-à-dire, "setosa".

Donnez pour iris.data[12] : le nom de sa classe, la longueur et largeur de ses pétales et de ses sépales. Même question pour iris.data[122].

Correction

print(iris["data"][12])
print(iris["target"][12])

donne

[4.8 3.  1.4 0.1]
0

On en déduit que iris.data[12] est un setosa dont la longueur des sépales est de 4.8cm, la largeur des sépales est de 3cm, la longueur des pétales est de 1.4cm et la largeur des pétales est de 0.1cm.

De même pour iris.data[122], on obtient:

[6.8 3.  5.5 2.1]
2

Donc on a un virginica dont la longueur des sépales est de 6.8cm, la largeur des sépales est de 3cm, la longueur des pétales est de 5.5cm et la largeur des pétales est de 2.1cm.

Pour chaque classe du problème (setosa, versicolor, virginica), combien y a-t-il de fleurs dans le jeu de données ? Cela est-il équilibré ? Pourquoi cela est-il important ?

Aide: Pour compter le nombre de fleurs de classe 0, on pourra initialiser une variable compteur à 0, faire une boucle qui parcours le tableau iris.target et incrémenter compteur chaque fois qu’on lit 0 dans le tableau. On fera de même pour les classes 1 et 2.

Correction

l = list(iris.target)
print(f"Nombre de fleurs au total :  {len(iris.target)}")
print(f"Nombre de setosa :  {l.count(0)}")
print(f"Nombre de versicolor :  {l.count(1)}")
print(f"Nombre de virginica :  {l.count(2)}")

donne

Nombre de fleurs au total :  150
Nombre de setosa :  50
Nombre de versicolor :  50
Nombre de virginica :  50

En présence d’un jeu de données pas équilibré, on pourrait faire de grandes erreurs sur une classe sous-représentée sans que cela ne se voit immédiatement dans les performances du modèle.

On va essayer de visualiser les données. Pour cela, nous allons utiliser la librairie python matplotlib.

Avec le gestionnaire de paquet de Thonny, installez matplotlib. On importera les fonctions dont on a besoin dans le code avec import matplotlib.pyplot as plt.

On va regarder la répartition de la longueur des sépales en fonction de la largeur des sépales :

Si vous souhaitez sauvegarder une image, vous pouvez remplacer plt.show() par plt.savefig("nom.png").

Adaptez le code précédent pour afficher la répartition des largeurs/longueurs de pétales. On adaptera la ligne définissant scatter et on changera le nom des axes.

Correction

Il faut changer la ligne

scatter = ax.scatter(iris.data[:,0], iris.data[:,1], c=iris.target)

scatter = ax.scatter(iris.data[:,2], iris.data[:,3], c=iris.target)

pour afficher les informations sur les pétales et non sur les sépales maintenant. Voici un script complet, où on a aussi changé les légendes :

from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris = load_iris()

ax = plt.subplot() # nécessaire pour tracer des points

# On trace des points dont l'absisse est la longueur des sépales, l'ordonnée la largeur
scatter = ax.scatter(iris.data[:,2], iris.data[:,3], c=iris.target) 

#     - iris.data[:,0] veut dire le premier élément de chaque 
#       tableau de iris.data, soit la longueur des sépales
#     - iris.data[:,1] veut dire le deuxième élément de chaque 
#       tableau de iris.data soit la largeur des sépales
#     - c=iris.target force la couleur en fonction de la classe (iris.target)

# On met en forme le diagramme
ax.set(xlabel="Longeur des pétales", ylabel="Largeur des pétales") # nom des axes
ax.legend(scatter.legend_elements()[0], iris.target_names, loc="lower right", title="Classes") # légende
plt.show() # on affiche !

Apprendre un arbre de décision

On va utiliser Scikit Learn pour générer un arbre de décision ayant appris à classifier depuis les exemples du jeux de données. On ne rentrera pas ici dans les détails de l’algorithme d’apprentissage pour nous concentrer sur la mise en pratique de la solution. On peut donner quand même une intuition du fonctionnement de ces algorithmes. L’algorithme d’apprentissage commence par construire la racine de l’arbre. Il va essayer de trouver une question x_i = v, x_i ≤ v, x_i ≥ v qui découpe le “mieux” le jeu de données, c’est-à-dire qu’on va essayer de trouver la question qui discrimine le plus les différentes classes. Pour évaluer cela, on utilise en général une méthode qui évalue le degré de mélange des classes. Il en existe principalement deux : l’entropie et la fonction de Gini. Pour un jeu de donné D ayant N exemples dont N_c éléments classé dans la classe c ∈ C et donc une proportion P_c = N/N_c éléments de classe c, on définit Gini(D) = 1 − ∑_c ∈ CP_c² et entropy(D) = − ∑_c ∈ CP_clog (P_c). Intuitivement, ces fonctions sont maximales quand les proportions de chaque classe sont similaires. Si une classe c a une proportion plus importante que les autres, alors P_c sera proche de 1 et les autres seront proche de 0. On voit alors que Gini(D) et entropy(D) seront petites. On va essayer de privilégier les questions qui séparent le jeu de donnée en D₁ et D₂ avec un petit degré de mélange. On appliquera la construction récursivement sur D₁ et D₂ ensuite pour construire un arbre complet jusqu’à ce qu’on décide qu’une classe est suffisamment représenté pour décider que tous les éléments sont dans cette classe. Cela est résumé ci-dessous :

Si on se contente de cette méthode d’apprentissage, on risque cependant de surapprendre notre modèle sur les exemples (overfitting) ce qui donnerait des arbres de décision mauvais en pratique sur des vecteurs en dehors de l’ensemble des exemples. La plupart des algorithmes d’apprentissage des arbres de décisions passent ensuite par une phase d’élagage : certains sous-arbres qui semblent être trop spécialisés aux exemples sont enlevés afin de mieux généraliser.

Dans ce TP, nous allons faire confiance aux développeurs de Scikit Learn et utiliser leur implémentation des arbres de décisions.

Et on l’entraînera sur les exemples avec fit. On lui passera comme argument un tableau contenant les données et un tableau contenant les classes :

Enfin, on affichera l’arbre calculé avec la fonction plot_tree. noms_attributs est un tableau contenant le nom des attributs et noms_classes est un tableau contenant le nom des classes, ce qui permet d’avoir un affichage un peu plus lisible :

Utilisez les instructions ci-dessus pour entraîner et afficher l’arbre de décision. On veillera à adapter les variables donnees, classes, noms_attributs et noms_classes au jeu de données considéré ici.

Correction

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree

iris = load_iris()

# On crée un classifieur basé sur les DecisionTrees.
clf = DecisionTreeClassifier()

# On entraîne notre classifieur
clf.fit(iris.data, iris.target)

# On affiche l'arbre
plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names, filled=True, rounded=True)
plt.show()

qui donne

Comment sera classée une fleur où la longueur des sépale est 10, la largeur 4, la longueur des pétales 5 et leur largeur 1 par votre modèle ?

Correction

Comme un virginica (chemin : droite, gauche, droite, gauche dans l’arbre).

On peut utiliser clf.predict(t) pour trouver la classe de plusieurs point d’entrée (t est un tableau de vecteurs d’attributs, par exemple [[10,4,5,0.1], [12,1,5,1]].

Vérifiez que votre réponse précédente correspond au résultat de clf.predict().

Correction

On ajoute au code précédent :

print(clf.predict([[10,4,5,1]]))

qui donne [2], c’est-à-dire que cette fleur est classé comme une virginica.

Évaluation du modèle

Le problème avec l’approche précédente est que l’on a utilisé toutes les données à notre disposition pour entraîner notre modèle. On n’a donc aucun moyen de vérifier la qualité de notre modèle. L’approche la plus simple pour résoudre cela est d’utiliser une partie des données pour apprendre et une autre partie des données pour vérifier la qualité du modèle. Pour que cela ait du sens, il faut choisir la partition des données de façon aléatoire, sinon on risque de biaiser notre modèle.

Scikit Learn nous permet facilement de créer ce genre de partition. On utilisera pour cela la fonction train_test_split :

Cela permet de créer une partition des données et de leur classe en une partie apprentissage et une partie entrainement. Dans l’exemple ci-dessus, on prélève 20% des données pour faire nos tests.

Entraînez de nouveau un arbre de décision sur 80% des données et affichez-le.

Correction

On peut faire :

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split

iris = load_iris()

# On crée un classifieur basé sur les DecisionTrees.
clf = DecisionTreeClassifier()

# On sépare nos données
donnees_train, donnees_test, classes_train, classes_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=52)
# On entraîne notre classifieur
clf.fit(donnees_train, classes_train)

# On affiche l'arbre
plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names, filled=True, rounded=True)
plt.show()

Avec le random_state=52 (qui initialise le générateur aléatoire, et permet donc de reproduire des résultats), on obtient l’arbre suivant :

Arbre de décision entraîné sur 80% du data set.

En utilisant la fonction clf.predict, calculez les réponses de votre arbre de décision sur l’ensemble de test. Affichez ces réponses ainsi que la vrai classe, donnée par le jeu d’entraînement. Votre modèle vous semble-t-il bon ?

Correction

On ajoute ce code à la fin, qui compte les erreurs faites par le modèle.

# On exécute l'arbre sur toutes les données du jeu
prediction = clf.predict(iris.data)

# Les erreurs sont les cases du tableau où prediction[i] est différent de iris.target[i]
# On les comptes :
error = 0
for i in range(len(prediction)):
    if prediction[i] != iris.target[i]:
        error += 1
print(f"Notre modèle fait {error} erreur sur un total de {len(prediction)}, soit une erreur ici de {(error/len(prediction))*100}%.")

On fait une erreur sur 150. Ce classifieur semble ici plutôt bon.

Utilisez la fonction précédente pour calculer la précision de votre modèle.

Correction

On ajoute

accuracy = metrics.accuracy_score(iris.target, prediction)
print(accuracy)

On trouve une précision de 99.3%, ce qui correspond à l’erreur calculée précédemment.

On peut s’amuser à changer la taille des données utilisées pour l’entraînement, par exemple, en remplaçant la ligne donnees_train, donnees_test, classes_train, classes_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=52) par donnees_train, donnees_test, classes_train, classes_test = train_test_split(iris.data, iris.target, test_size=0.5, random_state=52) pour n’utiliser que 50% du jeu de données pour l’entraînement. On voit que la précision du modèle descend rapidement si on utilise moins de données.

Aller plus loin

On a vu ici, d’un bout à l’autre, comment apprendre un arbre de décision et évaluer sa précision. Une autre approche pour évaluer sa précision serait de faire de l’évaluation croisée, pour comprendre si le modèle qu’on a choisi est un bon modèle : on entraîne le modèle sur toutes les données, mais on le valide comme suit : on partitionne les données S en k ensembles S₁, …, S_k de même taille. On entraîne k modèles T₁, …, T_k : T_i est entraîné sur les données S \ S_i et on calcule sa précision e_i en testant sur S_i. On retourne ∑_ie_i/k comme estimation de l’erreur du modèle.

Introduction

Arbres de décision

Classifier des iris !

La librairie Scikit Learn

Apprendre un arbre de décision

Évaluation du modèle

Aller plus loin