détection de données bruitées
Fonction sin(πx)+x²
Cet exemple académique permet de montrer le piège de l’overfitting même pour un processus non-linéaire à une seule variable. Grâce à une évaluation intensive de la robustesse, xtractis découvre un modèle proche du comportement du processus inconnu étudié et attire l’attention du modélisateur sur la présence d’une quantité importante de bruit dans la base de données de référence.
upd 1609 - Résultats par xtractis® Generate 9.1.16419
TYPE DE MODÉLISATION
Régression floue
DONNÉES D'APPRENTISSAGE
Dimension des données : 40 points de référence générées à partir de l’équation y=sin(πx)+x², 1 prédicteur x ∈ [0;2]. Données avec bruit gaussien sur la sortie σ=20% x l([0;4]). Variable à prédire : y.
SOLUTION XTRACTIS
xtractis explore 2000 stratégies différentes d’apprentissage inductif et sélectionne le modèle le plus robuste sur la base de validation. Cet Expert Virtuel Individuel (EVI) prédira automatiquement la valeur y à partir d’une collection de 3 règles utilisant la variable prédictive x.
CRITÈRES DE PERFORMANCE
La robustesse, ou capacité prédictive du modèle, est estimée par validation croisée Monte Carlo (MC) : 10 000 partitionnements sont générés de manière aléatoire, 75% training / 25% validation. Les points de training sont utilisés pour créer le modèle et évaluer sa précision ou capacité descriptive. Les points de validation sont utilisés pour évaluer la robustesse ou capacité prédictive du modèle.
Les métriques de performance sont :
• la Corrélation valeur réelle / valeur prédite
• la MAE (Mean Absolute Error) : la moyenne des valeurs absolues d’erreur
• la RMSE (Root Mean Square Error) : l’erreur quadratique moyenne
résultats
Les performances du top-modèle ayant la meilleure robustesse sont les suivantes :
COMPRENDRE LES RÉSULTATS
La robustesse du top-modèle est assez bonne, elle est proche des performances en précision.
La courbe de décision du top-modèle (courbe verte) montre que le modèle évite le sur-apprentissage : il réussit à découvrir le phénomène sous-jacent (courbe bleue) sans se caler aux mesures expérimentales fortement bruitées (points rouges).
Il est à noter que la corrélation entre les valeurs prédites par le top-modèle et les valeurs réelles de la loi cachée (0.944) est bien supérieure à la corrélation entre les valeurs des points d’apprentissage et les valeurs réelles de la loi cachée (0.753). De même, l’erreur RMSE entre les valeurs prédites par le top-modèle et les valeurs réelles de la loi cachée (6.53%) est 3 fois plus faible que l’erreur RMSE entre les valeurs des points d’apprentissage et les valeurs réelles de la loi cachée (18.39%).
Cette performance est à comparer avec les résultats ci-dessous du modèle xtractis ayant la meilleure précision : constitué d’une collection de 50 règles, il est certes parfait en précision (corrélation de 0.995) mais sa robustesse s’avère très faible (corrélation de 0.643). L’écart important entre la précision et la robustesse nous permet de déduire que ce modèle modélise en réalité le bruit dans les données et non pas le phénomène réel étudié.
Sur le graphique suivant, on voit bien que ce modèle qui semblerait a priori parfait, tombe en réalité dans le piège de l’overfitting : il essaie de passer par tous les points de la base de données de référence y compris les points bruités et n’a donc pas de capacité prédictive.