détection de fraude

Identification d’un vin par analyse chimique

Cette étude, choisie ici pour sa simplicité, montre comment xtractis améliore l’identification du profil de vins. Grâce à une analyse chimique, on peut définir l’origine d’un vin et ainsi détecter les fausses appellations et traquer les fraudes (par exemple, une étiquette d’un vin qui ne serait pas celui présent dans la bouteille).

upd 1808 - Résultats par xtractis® Generate 9.2.24581

TYPE DE MODÉLISATION

Modèle de Multiclassification parmi 3 cépages différents : cépage 1 / cépage 2 / cépage 3.

DONNÉES D'APPRENTISSAGE

Les données sont issues de l’analyse chimique de vins originaires d’une même région d’Italie, mais issus de trois viticulteurs différents.

Dimension des données : 178 vins de référence, 13 descripteurs chimiques caractérisant le vin (Alcohol / Malic acid / Ash / Alcalinity of ash / Magnesium / Total phenols / Flavanoids / Nonflavanoid phenols / Proanthocyanins / Color intensity / Hue / OD280/OD315 of diluted wines / Proline).

Sortie qualifiée avec les 3 classes : 33% en cépage_1, 40% en cépage_2 et 27% en cépage_3.

Données : Forina, M. – Institute of Pharmaceutical and Food Analysis and Technologies – UCI Machine Learning Repository – http://archive.ics.uci.edu/ml

SOLUTION XTRACTIS

Grâce à leur intelligence collective et évolutive, les robots xtractis explorent 2 000 stratégies différentes d’apprentissage inductif et sélectionnent le modèle le plus robuste sur la base de validation. Cet Expert Virtuel Individuel (EVI) identifiera automatiquement de quel cépage est issue une nouvelle bouteille de vin.

Cet EVI est défini par une collection de 4 règles floues “SI…ALORS” faisant appel aux 13 variables prédictives, chaque règle n’utilisant pas nécessairement toutes les variables :

  • la règle n°1 utilise 12 variables et conclut à {cépage_3|0.36} signifiant qu’elle n’est pas sûre de sa conclusion,
  • la règle n°2 utilise 9 variables et conclut à {cépage_1},
  • la règle n°3 utilise 11 variables et conclut à {cépage_2|0.76}
  • et la règle n°4 utilise 8 variables et conclut à {cépage_3}.

xtractis qualifie chaque variable prédictive par des classes floues : par exemple, le prédicteur “Flavanoids” est qualifié par 4 classes floues.

Voici par exemple la règle n°2 qui conclut à {cépage_1} :

CRITÈRES DE PERFORMANCE

La performance du modèle est mesurée grâce à la validation croisée selon le  partitionnement suivant : 40% training / 40% validation / 20% testing. Les points de training sont utilisés pour créer le modèle, les points de validation sont utilisés pour évaluer la robustesse ou capacité prédictive du modèle et les points de testing ne sont utilisés que pour constater la performance réelle du modèle (prédiction sur des cas inconnus du modèle).

Les métriques de performance sont :

  • la Sensitivité (le taux de vrais positifs)
  • le PPV (Positive Predictive Value) : la chance qu’une prédiction de la classe de cépage faite par l’EVI corresponde à un vrai positif
  • une erreur globale de classification

résultats

Les performances du modèle évaluées sur ces critères sont reportées dans les différentes matrices de confusion :
Classification Error
Real Performance / External Testing Confusion Matrix - Occurences
Real Performance / External Testing Confusion Matrix - Sensitivity Rates
Real Performance / External Testing Confusion Matrix - PPV Rates

COMPRENDRE LES RÉSULTATS

xtractis fournit un résultat parfait pour la reconnaissance de chacun des cépages (Sensitivité cépage_1=100%, Sensitivité cépage_2=100%, Sensitivité cépage_3=100%). Les données proposées pour cette étude de cas sont donc suffisantes (en termes de descripteurs et de cas d’apprentissage) et de bonne qualité pour permettre de résoudre parfaitement le problème. Mobilisant 4 règles et l’intégralité des 13 prédicteurs potentiels, ce modèle reste complexe (relation floue d’ordre 14).

Les indicateurs de robustesse sont fiables puisque l’erreur réelle globale de classification (0%) est identique à celle estimée lors de la validation (0%).

En situations opérationnelles, la confiance dans ce système décisionnel prédictif est totale étant donné les PPV de 100% quel que soit le cépage. Ainsi un vin affecté au cépage_1 par le modèle est nécessairement issu de ce cépage. Une étiquette différente sur la bouteille indiquerait à coup sûr une fraude.

Prédiction de l'EVI xtractis en situations inconnues

Lorsqu’une nouvelle bouteille de vin est analysée, le système prédictif ainsi trouvé permet de l’attribuer de manière nuancée à l’un des 3 cépages.

Exemple 1.

Un nouveau vin “V” est caractérisé par les valeurs suivantes : Alcohol=12.9 / Malic acid=5.51 / Ash=2.64 / Alcalinity of ash=25.0 / Magnesium=96.0 / Total phenols=1.6 / Flavanoids=0.6 / Nonflavanoid phenols=0.63 / Proanthocyanins=1.1 / Color intensity=8 / Hue=0.64 / OD280/OD315 of diluted wines=1.69 / Proline=515

Le moteur d’inférence xtractis ne va déclencher que la règle n°4 du modèle et attribue ce vin au cépage_3.

Exemple 2.

Un nouveau vin “Z” est caractérisé par les valeurs suivantes : Alcohol=14.1 / Malic acid=4.00 / Ash=2.80 / Alcalinity of ash=26.0 / Magnesium=121.8 / Total phenols=2.5 / Flavanoids=2.2 / Nonflavanoid phenols=0.21 / Proanthocyanins=0.94 / Color intensity=9 / Hue=0.76 / OD280/OD315 of diluted wines=1.90 / Proline=1137

Le moteur d’inférence xtractis va déclencher simultanément la règle n°1 avec un degré de 0.47 et la règle n°2 avec un degré de 0.53, conclut à {cépage_1|0.57, cépage_3|0.17} et finit par attribuer ce vin au cépage_1.