Impact de la verbalisation lors d’un test utilisateur

Nicolas Esposito (Gobelins Paris)
Joseph Barroin
Benjamin Lesur

Rapport de recherche court du Laboratoire ErgoDesign Lutin-Gobelins (Gobelins Paris), juillet 2022

1. Introduction

Le travail de recherche qui sera présentée dans cet article, menée au sein du laboratoire ErgoDesign Lutin-Gobelins, a porté sur l’étude des tests utilisateurs pour l’évaluation de l’expérience utilisateur, en se focalisant sur les protocoles de pensée à voix haute qui permettent d’obtenir des verbalisations pendant que le participant réalise la tâche (Ericsson & Simon, 1993). Plus spécifiquement, nous avons souhaité étudier, d’une part, les pratiques de tests utilisateurs chez les professionnels de l’UX et de l’ergonomie, et d’autre part, l’effet de pratiques de tests sur les données recueillies, en formulant l’hypothèse qu’il existerait des pratiques plus efficaces que d’autres pour mener à bien des tests utilisateurs, mais également mieux tolérées par les participants des tests. Cette recherche a été menée de telle sorte qu’elle puisse s’adresser prioritairement aux professionnels de l’UX et de l’ergonomie réalisant des tests utilisateurs dans leur pratique courante, en veillant notamment à ce que la méthodologie s’appuie sur les pratiques habituelles de ces professionnels. Une attention particulière a également été portée sur le fait de proposer une analyse plus fine des données recueillies que celles trouvées dans la littérature existante, se limitant pour la majorité d’entre elles aux effets de la verbalisation sur la performance, et déployant des méthodologies trop souvent éloignées des pratiques réelles et auxquelles les professionnels peuvent moins s’identifier.

2. Méthodologie 

Deux axes de recherche complémentaires composent ce travail visant à étudier les pratiques de tests utilisateur. Tout d’abord, nous nous sommes posés la question suivante :  

  • Quel est l’état actuel des pratiques de tests utilisateurs menées par les professionnels de l’UX et de l’ergonomie, en particulier concernant la verbalisation ? 

Afin de répondre à notre question, nous avons mis en œuvre deux méthodes de recherche dont les résultats seront développés ci-après : une analyse concurrentielle des agences et freelances UX, ainsi qu’une conduite d’entretiens auprès de professionnels dont le recrutement s’est effectué à l’aide d’un questionnaire. 

Le deuxième axe de recherche que nous avons souhaité développer est le suivant : 

  • Le recours à une pratique de test représentative des pratiques réelles des professionnels, incluant un protocole de pensée à voix haute, est-il préférable, pour le professionnel en charge du test, mais également pour le participant, à celui d’une pratique de test n’incluant pas de protocole de pensée à voix haute et privilégiant d’autres méthodes de recueil de données ? 

Afin de répondre à notre question, nous avons procédé à la mise en place d’une expérimentation, dont le protocole a été construit à partir des données obtenues à l’aide des précédentes méthodes employées (analyse concurrentielle, questionnaire, entretien). Cette expérimentation a consisté en un test utilisateur sur le site web d’une mairie, réalisé à distance. Les participants, au nombre de 20, ont été répartis au hasard dans l’une des deux conditions : 

  • C1 : pas de mise en situation avant le scénario de test ; mise en place d’un protocole de pensée à voix haute, recueil des verbalisations concurrentes à la tâche ; recueil des enseignements pendant le scénario uniquement sur la base des verbalisations concurrentes ; questionnaire standardisé Attrakdiff abrégé (Lallemand et al., 2015) ; court questionnaire spécifique ; court entretien. 
  • C2 : mise en situation avant le scénario de test ; pas de mise en place d’un protocole de pensée à voix haute, pas d’indication sur les verbalisations ; recueil des enseignements pendant le scénario sur la base de l’observation des problèmes et des verbalisations spontanées éventuelles ; questionnaire spécifique complet ; entretien approfondi. 

Dans les deux conditions, un questionnaire a également été proposé à la fin du test utilisateur, afin d’obtenir un retour du participant concernant ses verbalisations, son appréciation de l’expérience et la présence du modérateur de test à ses côtés. 

Les hypothèses que nous avons formulées sont les suivantes : 

  • C2 permettrait de recueillir davantage d’enseignements différents à propos du système que C1 (dimension étudiée par Riihiaho, 2015).
  • C2 permettrait de recueillir des enseignements d’une manière plus précise que C1, avec un croisement des méthodologies plus important.
  • C2 entraînerait un ressenti associé à la passation de l’expérience plus positif que C1.
  • C2 entraînerait une présence du modérateur de test mieux vécue par le participant que C1.
  • Les participants en C2 seraient plus à l’aise pour verbaliser que ceux en C1.
  • Il y aurait plus de participants en C1 mal à l’aise dans le fait de verbaliser que de participants à l’aise.
  • C2 offre davantage aux participants la possibilité de formuler des verbalisations d’opinion.
  • Les verbalisations en C1 ne sont pas en majorité des verbalisations d’opinion.

3. Résultats 

L’analyse concurrentielle qui a été réalisée nous a permis de constater qu’une large majorité des agences et indépendants UX avait à ce jour recours aux protocoles de pensée à voix haute pour leurs tests, le plus souvent simultanés à la tâche et présentant la méthode, le plus souvent, comme un impératif. Cette approche de tests utilisateurs s’éloigne donc de celle mise en œuvre par le laboratoire ErgoDesign, qui privilégie les méthodes d’observation, de questionnaire et d’entretiens pour recueillir des données. Ces méthodes, en particulier l’observation, sont à l’inverse présentées à dans une bien moindre mesure sur les sites analysés. 

Les résultats au questionnaire de recrutement pour les entretiens ont fait état du fait qu’une majorité de professionnels ayant répondu à ce questionnaire avait recours à la verbalisation provoquée de manière quasi systématique pour leurs tests, sans remettre en question la méthode, et ce, indépendamment de leur expérience dans la conduite de test. Les entretiens qui ont été réalisés par la suite ont permis de confirmer cette tendance. Les principales raisons motivant les professionnels à avoir recours à cette méthode sont l’obtention des processus cognitifs sous-jacents à la tâche, des perceptions et des émotions, ainsi que des frustrations de l’utilisateur et des problèmes du système testé. Les biais liés à la méthode (développement de l’approche réflexive, amplification de l’effet d’Hawthorne…) sont connus de la plupart des professionnels, qui continuent malgré tout à avoir recours à celle-ci.  

Les résultats ayant été obtenus par l’expérimentation sont les suivants : 

  • C2 a permis de recueillir davantage d’enseignements différents à propos du système que C1 ; la première hypothèse est donc confirmée. 
  • C2 a permis de recueillir davantage d’occurrences d’enseignements formulées grâce aux questionnaires, de manière significative ; mais, C1 a permis de recueillir davantage d’occurrences d’enseignements formulées grâce aux verbalisations, de manière significative ; le deuxième hypothèse est donc partiellement confirmée. 
  • C2 n’a pas entraîné un ressenti associé à la passation de l’expérience plus positif que C1 ; la troisième hypothèse ne peut donc pas être confirmée. 
  • C1 a entraîné une présence du modérateur de test vécue comme significativement plus dérangeante par les participants ; la quatrième hypothèse est donc partiellement confirmée. 
  • Les participants en C2 ont été plus à l’aise pour verbaliser que ceux en C1 ; la cinquième hypothèse est donc confirmée. 
  • Il y a eu plus de participants en C1 mal à l’aise dans le fait de verbaliser que de participants à l’aise ; la sixième hypothèse est donc confirmée. 
  • C2 n’a pas davantage offert aux participants la possibilité de formuler des verbalisations d’opinion ; la septième hypothèse ne peut donc être confirmée. 
  • Les verbalisations en C1 ne sont pas en majorité des verbalisations d’opinion ; la huitième hypothèse est donc confirmée. 

Il a également été relevé une forte corrélation négative entre la fréquence de verbalisation en C1 et la réussite à la tâche : plus les participants échouaient à la tâche et plus ils verbalisaient.

4. Discussion et conclusion 

Cette étude a permis de mettre en lumière le fait que le recours à la verbalisation provoquée et aux protocoles de pensée à voix haute est très fréquent chez les professionnels de l’UX et de l’ergonomie, et que cette méthode apparaît pour beaucoup comme un incontournable du test utilisateur. Toutefois, les résultats de l’expérimentation menée ont montré que cette approche du test utilisateur présentait un certain nombre de limites et d’inconvénients par rapport à une approche privilégiant la verbalisation spontanée et l’utilisation de méthodes complémentaires, telles que le questionnaire spécifique offrant une discussion avec le modérateur de test, l’entretien approfondi et spécifique au comportement du participant, ou encore l’observation pendant la réalisation des tâches. Le fait d’imposer une verbalisation est apparu comme pouvant gêner le participant, notamment par le biais de l’interaction modérateur/participant, augmenter sa charge cognitive (voir par ex., Davies, 1995) et modifier le cours naturel de ses actions sur le système. Des différences inter-individuelles notables ont été observées, dans l’aisance et dans l’appréciation de la verbalisation. La verbalisation provoquée par le biais d’un protocole de pensée à voix haute contraint également les participants à formuler en majorité des verbalisations peu utiles pouvant être suppléées par de l’observation, et ne fait pas émerger davantage d’enseignements importants à propos du système, en comparaison à la verbalisation spontanée. La pratique de test associant verbalisation spontanée et autres méthodes spécifiques au système apparaît alors comme étant une alternative beaucoup plus intéressante, aussi bien pour les données recueillies que pour le bien-être des participants, puisqu’elle leur laisse le choix de verbaliser ou non pendant les tâches, et permet de recueillir les enseignements nécessaires a posteriori de celles-ci. Les verbalisations spontanées recueillies concernent directement les problèmes rencontrés par les participants, qui sont également moins dérangés par la présence du modérateur de test.

Références  

  • Davies, S. P. (1995). Effects of Concurrent Verbalization on Design Problem Solving. Design Studies, 16(1), 102–116.
  • Ericsson, K. A. & Simon, H. A. (1993). Protocol Analysis: Verbal Reports as Data (Revised Edition). MIT Press.
  • Lallemand, C. & Gronier, G. (2015). Méthodes de design UX — 30 méthodes fondamentales pour concevoir et évaluer les systèmes interactifs. Éditions Eyrolles.
  • Riihiaho, S. (2015). Experiences With Usability Testing : Effects of Thinking Aloud and Moderator Presence. Thèse de doctorat.