L’évaluation de la production écrite : avec et sans grilles

SUMÉ

La validité et la fiabilité de l’évaluation de la production écrite, qui se place dans la lignée des évaluations de performance, ont souvent été remises en cause notamment en raison de l’évaluateur lui-même (Black, 1998 ; Moskal, 2000). Ce qui est attendu de ce dernier, c’est qu’il réalise une évaluation objective exempte des jugements personnels, une évaluation maintenant un cadre de références commun/identique du début à la fin. Or, à cause de différents facteurs, il arrive qu’une variabilité intra et inter-évaluateur(s) affecte ces attentes et entraîne ainsi à des inconsistances concernant la fidélité intra et inter-évaluateur(s), concernant les accords intra/inter-juge(s).

Cette étude a eu pour objectif de comparer les évaluations faites par cinq enseignants de FLE d’abord à leurs façons puis au moyen de grilles d’évaluation critériée décrites dans de nombreuses recherches comme efficaces pour évaluer les performances et suggérées pour diminuer les inconsistances intra et inter-évaluateur(s) (Scallon, 2004 ; East, 2009 ; Berthiaume et al., 2011 ; Brookhart & Chen, 2015). En évaluant avec trois mois d’intervalles 10 mêmes textes argumentatifs produits par des apprenants de FLE (B1), il a été donc visé à montrer les évaluations faites par le même et différents enseignant(s) pour les mêmes copies. Cependant, notre travail a aussi consisté à mettre au jour les critères pris en compte et la démarche utilisée par ces évaluateurs lors de l’évaluation sans grille.

Les questions de notre recherche ont été :
1.Une variation intra-évaluateur se présente-t-elle entre une évaluation sans grille et avec grille ?
2.Une variation inter-évaluateur se présente-t-elle entre une évaluation sans grille et avec grille ?
3.Quelles sont les critères et la démarche d’évaluation utilisées par ces enseignants lors d’une évaluation sans grille ?

Afin de répondre à ces questions, le devis adopté a été la méthode mixte séquentielle explicative où le chercheur commence par une cueillette de données quantitatives puis qualitatives pour expliquer les résultats (Creswell & Plano Clark, 2011).
Les scores des 10 textes argumentatifs évalués (sans grille puis avec grille) par les cinq participants ont constitué les données quantitatives. Celles qualitatives ont été recueillies par des entretiens semi-directifs réalisés avec les mêmes participants après l’évaluation sans grille.

L’analyse des données quantitatives a révélé l’existence d’une fiabilité intra-évaluateur faible entre les scores donnés avec et sans grilles par un même évaluateur. De même, la fiabilité inter-évaluateur a également montré un faible niveau lors de la comparaison des scores assignés sans grille. Par contre, une fiabilité inter-évaluateur plus consistante s’est révélée lors de la comparaison des scores assignés avec grille.
L’analyse des données qualitatives a montré que les critères et démarches d’évaluation se diversifiaient beaucoup d’un enseignant à un autre, qu’ils avaient seulement trois critères en commun mais qu’en même temps ce rapprochement se diversifiait lors du pointage de ces trois critères. Nous en avons conclu que ces disparités expliquaient la faible fidélité inter-évaluateurs et que les grilles permettaient une évaluation plus fidèle, valide et consistante entrainant à une meilleure fidélité intra et inter évaluateurs.