Les données sont issues de photos en noir et blanc de visages humains pour la très grande majorité. Un traitement par réseaux de neurones génère des descripteurs d’image à partir de ces données.
Dimension des données originelles : 35 875 cas de référence avec un partitionnement unique imposé par les organisateurs du challenge (80% pour le training, 10% pour la validation et 10% pour le test externe ETD), 256 niveaux de gris, résolution 48×48 pixels, 512 descripteurs d’image.
Après analyse par xtractis, la base de données de référence s’avère très bruitée : images carré noir ne contenant aucun visage, images de personnages de cartoons, images ne contenant que du texte, images aux labels erronés, images redondantes avec le même label ou aux labels contradictoires … Un filtrage de la base est donc effectué en vue d’avoir des résultats non biaisés : élimination des doublons pour éviter l’overfitting, suppression des images intruses, correction des labels erronés.
Dimension des données d’apprentissage : 32 668 cas de référence avec le même partitionnement, 256 niveaux de gris, résolution 48×48 pixels, 512 descripteurs d’image.
Sortie qualifiée avec les 7 classes : 13.36% Angry, 1.39% Disgust, 12.04% Fear, 26.77% Happy, 17.48% Sad, 9.28% Surprise, 19.69% Neutral.