Tests d’intelligence

Tandis que l’étude psychométrique de la personnalité est relativement récente, l’intelligence a fait l’objet des premières applications de la méthode des tests et, aujourd’hui, non sans que confusions et contradictions aient toujours été évitées, de très nombreuses épreuves sont proposées qui prétendent la mesurer dans sa « quantité » ou dans sa « qualité ».

1. Les échelles de développement

Ces échelles dont le but est la mesure de développement mental, utilisent d’ordinaire la notion d’âge mental, introduite par Binet. Celui-ci, chargé de dépister les débiles mentaux dans les écoles, avait en quelque sorte décidé de donner clarté et objectivité à cette intuition des choses humaines, qui nous fait spontanément parler d’avance ou de retard lorsque nous estimons l’intelligence d’un enfant. Avec Simon, il détermina en effet, par tâtonnements successifs, une série de onze « niveaux », de très ans à l’âge adulte, comprenant chacun cinq questions pouvant faire intervenir des capacités diverses, mais auxquelles la majorité des enfants de cet âge répond.

Dire qu’un enfant à 5 ans de l’âge mental, c’est donc dire que, placé devant les difficultés qui résolvent les enfants de 5 ans, il a pu les affronter avec succès. Mais, en réalité, comme des succès partiels sont possibles à d’autres niveaux que celui où l’enfant a tout réussi, dit « niveau de base », un certain système de compensation est établi, tel qu’en fait l’âge mental est donné par la somme de toutes les réussites aux divers niveaux, tandis qu’était imposée définitivement par Stern la notion de Quotient intellectuel

Q.I. = Âge mental/âge légal

Ce qui permettait de préciser le diagnostic et, une certaine constance de ce Q.I. étant reconnu, de risquer un diagnostic.

Cette échelle de Binet et Simon a fait l’objet de révisions, en particulier dans un souci d’améliorer sa standardisation et son étalonnage. La meilleure est celle de Terman qui a présenté en 1917 la « Stanford revision », modifiée avec Merrill en 1937 et devenue un instrument largement utilisé dans l’étude psychologique de l’enfant même en France, du moins en attendant la constitution sur la base du B.S,. de l’Échelle nationale annoncée par Zazzo (1950).

Un des avantages de cette batterie de Terman-Merrill est l’extension de l’échelle vers les niveaux inférieurs, dans l’intérêt de saisir les arriérations à un stade très précoce, ce qui avait déjà conduit Simon à proposer avec Izard une échelle complémentaire du B.S. D’autres tests de développement pour jeunes enfants existent d’ailleurs, constituant un groupe assez bien individualisé.

Malheureusement, même les meilleurs, remarque Bergeron, comme l’inventaire du développement de Gesell (1925), souvent modifié, et les tests de Bulher-Hetzer (1932) qui ont fait l’objet d’intéressantes adaptations françaises de Lézine (1950), sont d’une application délicate et leur valeur prédictive reste encore discutée, quand les normes ne sont pas mises en question.

Cette notion d’« âge mental » en tant que définie par la somme des réussites a fait l’objet de toute une critique. Elle ne saurait donc, proteste Inhelder, exprimer un niveau de développement, puisque l’intégration des acquisitions antérieures semble être le premier critère de l’existence d’une évolution véritable, Aussi l’auteur demande de chercher les signes du fonctionnement même des opérations mentales, par une méthode très clinique, pour fixer l’étape atteinte dans la succession des stades de la raison décrits par Piaget (1947).

Mais il existe des méthodes du niveau mental qui n’utilisent pas des épreuves diverses aux différents niveaux, comme l’ont fait Bient et Terman.

1. Méthode du niveau particulier. – Elle utilise une ou plusieurs épreuves mettant en évidence le degré d’évolution d’une seule fonction dont le rapport avec le développement intellectuel global a été constaté. Outre la motricité qu’analyse la batterie d’Ozeretrsky (1929) et le langage qu’examinent les tests de Descoeudres (1930), intéressants mais d’une valeur souvent contestable, est étudié le dessin, indiscutable témoin par contre du développement mental, soit en faisant dessiner un « Bonhomme » (Goodenough, 1925) ou une femme sous la pluie (Fay, 1926), soit même en demandant de reproduire, par copie, certains dessins (Prudhomme, 1940).

2. Méthode du niveau global. – Elle utilise diverses épreuves de signification variable, en général, des tests de performance, comme dans l’échelle de Grace Arthur, qui, dans sa version la plus récente (1947), comprend :

  • Les cubes de Kohs ;
  • La planche à l’encastrement de Séguin ;
  • Le « Stencil design », jugé préférable aux cubes de Kohs ;
  • Les labyrinthes de Porteus ;
  • Le test de complétement de Healy.

Le Q.I. est alors fonction du niveau de réussite exprimé souvent par le temps de la performance. Bien entendu, les factorialistes ont fait une acerbe critique de l’empirisme de Binet et de ses successeurs, et ils réclament l’usage de tests à validation structurale, comme par exemple les « Scules 1-2-3 » de Catell (1948) qui écartent « l’habitude routinière » d’utiliser l’âge mental. « Mais ces objections se heurtent  au fait de la réussite pratique d’une méthode valable, affirme Rey, dans la mesure on l’on se contente de dépister ainsi les cas d’insuffisances intellectuelles, pour les soumettre ensuite à des examens plus complets et plus approfondis.» D’autre part, affirme Terman, tous les utilisateurs ont accumulé graduellement des informations considérables sur les significations des différentes valeurs d Q.I., en termes d’éducation et de comportement, tandis qu’il faudra probablement 20 ans pour atteindre le même niveau dans l’interprétation des écarts-types. C’est pourquoi, dans l’Échelle d’intelligence pour enfants de Weschler, cette notion n’est pas écartée.

Ce W.I.S.C., qui est la meilleure méthode d’examen de l’intelligence des enfants, comporte 10 tests (plus 2 facultatifs) :

  • Épreuves verbales :
  1. Test d’information ;
  2. Test de compréhension ;
  3. Test d’arithmétique ;
  4. Test de similitude ;
  5. Test de vocabulaire.
  • Épreuves non verbales :
  1. Test de complétement d’images ;
  2. Test de classement d’images ;
  3. Test de cubes ;
  4. Test d’assemblage d’objets ;
  5. Test de codes.

D’après le degré de réussite, le sujet reçoit, pour chaque test, une note qui, par rapport à un barème pour âge chronologique, de 3 mois en 3 mois, don un « rang » de 20 à 1. Des tables permettent de de fixer non seulement un Q.I. global, mais aussi un Q.I. verbal et un Q.I. de performance, tandis qu’il est possible d’établir un « profil », fixant le rendement relatif dans les 12 épreuves.

II. La mesure de l’intelligence

L’extension à l’adulte des échelles de développement reposait alors sur des extrapolations hasardeuses et, en particulier, sur une confusion grave du jeune enfant, du débile et du dément, qui rendait possible l’illusion, depuis violemment dénoncée par Zazzo, de « mesurer l’intelligence avec des ans, comme on mesure la taille en centimètres ».

Mais l’opposition classique à la méthode de Binet s’est développé dans deux directions qui correspondent aux deux grandes définitions de l’intelligence.

1. Ou bien il s’agit d’atteindre « l’intelligence intégrale » distinguée par Claparède de l’« intelligence générale », et qui sera d’ordinaire ramenée, avec la tradition, à la fonction logique. Diverses batteries furent créées à cette fin, dont, par exemple, le test I.L. de Lahy, qui reprend le test de Barcelone de Mira, lui-même démarqué d’épreuves américaines.

2. Ou bien le plus souvent l’intelligence est conçue de manière « anarchique » ce qui avait du moins le mérite de reconnaître la diversité qualitative des intelligences :

a) Distinguées dans leurs divers aspects, ainsi dans le profil de Meili, qui fait ressortir les côtés « abstrait », « concret », « analytique », « inventif », grâce à une ingénieuse présentation graphique des 6 épreuves ((1930) ;

b) Décomposées dans leurs fonctions, ainsi dans l’analyse de Rossolimo, dès 1911, que devait reprendre Vermeylen en distinguant, par une suite de réductions arbitraires, les fonctions d’« acquisitions », les fonctions d’ « élaboration », les fonctions d’ « exécution » (1929).

Il faut se résoudre à éliminer de la pratique la plupart de ces tests qui reposent sur une psychologie indigente ou sur un impossible atomisme, au profit d’épreuves à validation structurale.

Dans tous les cas, la mesure de l’efficience mentale suppose aujourd’hui le principe d’une détérioration mentale normale, contrairement à l’hypothèse d’une stabilisation du rendement autour de 17 ans. De ce fait, se trouve injustifié le procédé de Terman calculant le Q.I. dans la période de maturité, grâce à un dénominateur commun, et du même coup se sont condamnées les multiples échelles du type « Arm tests betha et alpha » qui ont, en 1917, rendu cependant d’excellents services.

Deux méthodes peuvent être alors utilisées :

a) La méthode du test unique appliquée surtout en Grande-Bretagne où l’on peut distinguer :

  • Des tests verbaux, avec les épreuves de vocabulaire, dont le Mill Hill Vocabulary de Raven et Walshaw (1944), qui a fait l’objet d’une adaptation française de Binoit et Pichot (1948) ;
  • Des tests non verbaux, où l’analyse factorielle a montré que la plus forte saturation en G était obtenue par les tests à matériel perceptif contenant des relations d’éducation tels les Progressives Matrices de Penrose et Raven, trop saturé en facteur spatial, ou le Dominoes Test de Anstey, dont une 3e version a été publiée en France sous le nom de Test D 48.

b) La méthode de la batterie d’inspiration américaine, dont un exemple connu est celui des Primary mental abilities tests de Thurstone qui entend mesurer les facteurs :

V (verbal);

N (mnésique);

R (raisonnement);

W (fluidité verbale);

S (spatial) ;

M (mémoire).

En fait, les données de l’analyse factorielle sont encore tâtonnantes ou contradictoires, ce qui justifie l’usage en psychiatrie de l’Échelle de Weschler-Bellevue qui comprend à peu près les mêmes épreuves que le W.I.S.C. dont l’élaboration ultérieure à d’ailleurs permis d’intéressants perfectionnements mais qui, telle qu’elle est, par sa facilité d’administration, sa standardisation par âge chronologique, est un outil précieux dont Rappaport a montré l’intérêt, notamment dans l’essai de « Scatter » analytique des grands groupes de maladies mentales.

III. Les problèmes psychiatriques

Il serait en effet désirable de constituer pour chaque groupe nosologique un « patron psychométrique » tel que nous puissions aider au diagnostic individuel en décidant à quel type se rattache le mieux le profil obtenu par le sujet examiné. Mais ce problème est pratiquement impossible à résoudre puisque, calcule Pichot, « dans le cas de l’échelle de Weschler-Bellevue il y a un nombre astronomique de patrons possibles représentés par 35 suivis de 13 zéros ». Il faudra se contenter de la méthode des « signes », - définie ainsi par Weschler : « un signe est une note élevée ou basse qui s’est montrée être caractéristique d’un type particulier de maladie» (ou de syndrome mental) ou lui être associé – qui tend à remplacer, pour certains, la « méthode des fonctions discriminantes » dont l’établissement mathématique de la formule est complexe, si son application pratique est aisée et claire.

Une application importante de « Scatter » est dans le problème de la mesure de détérioration pathologique. Cette mesure suppose en effet une comparaison inter-tests, basée généralement sur le postulat de Babcock, selon lequel les troubles mentaux se comportent vis-à-vis de l’efficience générale de la même manière que le vieillissement normal, c’est-à-dire qu’ils respectent relativement les résultats aux tests de vocabulaire et atteignent au maximum les tests d’intelligence non verbaux. Par conséquent, un test de vocabulaire, par exemple, servira à mesurer le niveau intellectuel prépsychotique, d’autres épreuves précisant le niveau actuel.

Ainsi Pichot, à l’exemple de Raven, utilise le D 48 et l’adaptation française du « Mill Hill Vocabulary » (1953), tandis que Weschler établit avec les épreuves de son échelle un « Scatter » entre les « tests qui tiennent » avec l’âge, et les « tests qui ne tiennent pas ». Dans les deux méthodes évidemment le pourcentage de détérioration normale, calculé pour chaque âge, sera soustrait du résultat obtenu.

Malgré les promesses de fécondité de l’analyse factorielle, le sentiment des insuffisances de ces méthodes du point de vue clinique, l’influence des travaux de Golstein, analysant l’attitude abstraite, et de Vigotski, qui, comme Piaget, étudie l’évolution génétique de la pensée conceptuelle, devaient entraîner la constitution de nouvelles techniques dont le succès est aujourd’hui considérable, du moins, aux U. S. A., mais qui restent purement qualitatives malgré certains efforts de standardisation.

Les plus importantes de ces épreuves sont les tests de classement où deux sous-groupes peuvent être distingués suivant la nature du matériel utilisé :

1. Épreuve à matériel concret. -  Le G.G.W. (1941), du nom des 4 auteurs qui l’ont décrit (Gelb.Goldstein, Weigl, Scheerer), dont on peut rapprocher un test de Halstead, consiste à ranger, soit librement, soit selon les indications du testeur, divers objets qui diffèrent par leur matière, leur couleur et leur forme.

2. Épreuves utilisant un matériel symbolique : le modèle en est donné par un test de Vigot-Sky, repris par Hanfmann et Kasanin, et qui connaît un développement extraordinaire depuis Rappaport. Il utilise 22 pièces de bois, de couleur, de forme, d’épaisseur et de surfaces différentes, qu’il faut classer en 4 groupes, dans le but d’étudier par quelles étapes le sujet arrive à concevoir les critères utilisables. Les auteurs pour la cotation distinguent 3 niveaux : « conceptuel », « intermédiaire », « primitif », pour chacun de 3 aspects de l’épreuve « : l’interprétation de la tache, les essais de réponse, la découverte et la compréhension de la solution.

Cependant la difficulté de son administration amène à préférer :

- Soit des épreuves plus faciles, mais qui correspondent à des niveaux très bas, tel le test de classification de couleur de Gelb-Goldstein, qui utilise le matériel des laines d’Holgren, ou le test de classement forme-couleurs de Trist-Hargreaves, assez semblable à celui de Hanfmann-Kasanin;

  • Soit le test de classification des cartes à jouer de Brody (1948) dont la durée d’application est de quelques minutes, mais qui a le mérite de permettre une étude de la pensée conceptuelle des adultes supérieurs.

Précisons que dans toutes ces épreuves l’administration du test est suivie d’un deuxième temps où le sujet doit exprimer ses raisons et c’est sans doute cet interrogatoire clinique qui fait toute la valeur des épreuve que les factorialistes espèrent un jour soumettre à la rigueur du point de vue structural.

Conclusion. – Il faut donc garder le sentiment de l’infinie complexité de la réalité. « Celui qui utilise les tests, conclut Wallon, doit être incité par l’usage même qu’il en fait à ne pas confondre le sujet avec les quelques mesures qu’il a prises sur lui. Elles ne peuvent circonscrire toute son intelligence et l’intelligence, la personnalité, la société, le milieu sont des réalités qui s’embottent les unes dans les autres et qui se débordent entre elles.

H. Luccioni.

test intelligence

Le test d'intelligence ressemble à une promenade sur la corde raide : Si on tombe ou si on réussit, cela dépend de la tension. Image : © Megan Jorgensen

En savoir plus :

Partager|