détection de données bruitées

Fonction sin(πx)+x²

Cet exemple académique permet de montrer le piège de l’overfitting même pour un processus non-linéaire à une seule variable. Grâce à une évaluation intensive de la robustesse, xtractis découvre un modèle proche du comportement du processus inconnu étudié et attire l’attention du modélisateur sur la présence d’une quantité importante de bruit dans la base de données de référence.

upd 1609 - Résultats par xtractis® Generate 9.1.16419

TYPE DE MODÉLISATION

Régression floue

DONNÉES D'APPRENTISSAGE

Dimension des données : 40 points de référence générées à partir de l’équation y=sin(πx)+x², 1 prédicteur x ∈ [0;2]. Données avec bruit gaussien sur la sortie σ=20% x l([0;4]). Variable à prédire : y.

SOLUTION XTRACTIS

xtractis explore 2000 stratégies différentes d’apprentissage inductif et sélectionne le modèle le plus robuste sur la base de validation. Cet Expert Virtuel Individuel (EVI) prédira automatiquement la valeur y à partir d’une collection de 3 règles utilisant la variable prédictive x.

Modèle de régression à 3 classes floues

CRITÈRES DE PERFORMANCE

La robustesse, ou capacité prédictive du modèle, est estimée par validation croisée Monte Carlo (MC) : 10 000 partitionnements sont générés de manière aléatoire, 75% training / 25% validation. Les points de training sont utilisés pour créer le modèle et évaluer sa précision ou capacité descriptive. Les points de validation sont utilisés pour évaluer la robustesse ou capacité prédictive du modèle.

Les métriques de performance sont :
• la Corrélation valeur réelle / valeur prédite
• la MAE (Mean Absolute Error) : la moyenne des valeurs absolues d’erreur
• la RMSE (Root Mean Square Error) : l’erreur quadratique moyenne

résultats

Les performances du top-modèle ayant la meilleure robustesse sont les suivantes :

Regression Errors

COMPRENDRE LES RÉSULTATS

La robustesse du top-modèle est assez bonne, elle est proche des performances en précision.

La courbe de décision du top-modèle (courbe verte) montre que le modèle évite le sur-apprentissage : il réussit à découvrir le phénomène sous-jacent (courbe bleue) sans se caler aux mesures expérimentales fortement bruitées (points rouges).

Il est à noter que la corrélation entre les valeurs prédites par le top-modèle et les valeurs réelles de la loi cachée (0.944) est bien supérieure à la corrélation entre les valeurs des points d’apprentissage et les valeurs réelles de la loi cachée (0.753). De même, l’erreur RMSE entre les valeurs prédites par le top-modèle et les valeurs réelles de la loi cachée (6.53%) est 3 fois plus faible que l’erreur RMSE entre les valeurs des points d’apprentissage et les valeurs réelles de la loi cachée (18.39%).

courbe-sinusx

Cette performance est à comparer avec les résultats ci-dessous du modèle xtractis ayant la meilleure précision : constitué d’une collection de 50 règles, il est certes parfait en précision (corrélation de 0.995) mais sa robustesse s’avère très faible (corrélation de 0.643). L’écart important entre la précision et la robustesse nous permet de déduire que ce modèle modélise en réalité le bruit dans les données et non pas le phénomène réel étudié.

Sur le graphique suivant, on voit bien que ce modèle qui semblerait a priori parfait, tombe en réalité dans le piège de l’overfitting : il essaie de passer par tous les points de la base de données de référence y compris les points bruités et n’a donc pas de capacité prédictive.

ex-overfitting-courbe3