Traitements

Algorithmes

Une des forces de maplearn est sa bibliothèque d'algorithmes, dont la richesse doit tout à la librairie scikit-learn (merci à eux).

Vous pouvez choisir un ou plusieurs algorithmes dans la liste. Si aucun algorithme est sélectionné, ils seront tous appliqués (déconseillé, car long).

Validation croisée (k-fold)

Pour estimer la précision d'une précision, il faut désigner parmi les échantillons des individus utilisés pour l'entraînement et d'autres pour la validation.

La validation croisée s'en charge pour vous, en sélectionnant 1/k des échantillons pour la validation, le reste servant à l'entraînement. De plus, l'opération est répétée k fois (avec à chaque fois des lots indépendants), permettant d'évaluer la robustesse de vos prédictions.

"Optimisation"

L'optimisation, ou plutôt la recherche des hyperparamètres optimaux consiste à essayer différentes valeurs d'hyperparamètres et de ne retenir que les valeurs donnant la meilleure précision. NB : le processus peut être long...

Prédiction

Cela peut surprendre, mais maplearn se contente d'évaluer les modèles retenus, sans réaliser de prédiction sur votre jeu de données. La raison est qu'il est préférable de cerner le/les meilleurs modèles d'un point de vue statistique, avant de réaliser des prédictions sur des jeux de données potentiellement très volumineux...

Distance (avancée)

Les modèles en machine learning se composent généralement d'un algorithme appliqué sur une matrice de distances. Par défaut, maplearn utilise la distance euclidienne, qui est de loin la plus classique.