Chapitre B2: Le projet " multimédia métamorphique "

- la modalité, la composition, l'effort, l'interactivité, la métamorphose -

Le besoin de multimodalité

J’ai souvent rencontré dans la pratique de l’explication des situations qui réclamaient une variation de la modalité d'expression. J’ai utilisé la forme graphique pour illustrer des sujets à caractère visuel. Elle s’est avérée très efficace dans la représentation de modèles (métaphores). Quand je voulais expliquer l’unité d’un système en montrant la simultanéité et la relation de ses parties, une modalité figurative (diagramme, schéma) était nettement avantageuse par rapport à un texte pur. Parfois il était préférable que je prépare le schéma avant la leçon pour que je la présente d’un seul coup, parfois il était mieux que je le construise progressivement au tableau noir. Le discours verbal est essentiel. Je m’en servais, par exemple, pour expliquer un schéma en tenant compte de la réaction de l’auditoire. J’ai été impressionné par la façon dont le discours sériel illumine pas à pas la signification d’une structure complexe, guidant l’évolution de sa perception à partir de l’impression initiale de chaos jusqu’à l’image finale significative. Le texte, moins propice à l’explication directe, à cause de sa pauvreté tonale et de sa génération assez lente, est irremplaçable si on veut permettre l’exploration libre du message. Sa conception préalable est libérée de la tension de la présentation directe. Pendant la lecture d’un texte, on peut utiliser l’exploration cursive (récupérant la continuité et le rythme implicite du discours) et la navigation désynchronisée (profitant de la liberté de sauter, de revenir, ou d’accélérer ou de ralentir). L’hypertexte enrichit la formule avec la combinaison entre la discursivité sérielle et l’exposition parallèle caractéristique au texte. L’hypermedia continue la tradition de la symbiose entre le texte et l’image, utilisée avec succès dans les livres illustrés, les diapositives commentés ou les films sous-titrés. J’ai souvent ressenti le besoin de représentations dynamiques (animations, films) pour expliquer des processus et des transitions. Je regrettais cependant la difficulté de composition.

Ces remarques préliminaires expliquent mon intérêt pour la multimodalité et pour l’utilisation de l’ordinateur dans la manipulation des messages multimédia destinés à soutenir une présentation directe ou une lecture ultérieure. Est-ce que l’ordinateur est un bon outil pour le contrôle d’une présentation multimédia synchrone (dialogue direct entre les deux partenaires)? Est-il également un bon support pour une communication asynchrone? Comment prépare-t-on un objet multimédia explicatif pour les deux modes de présentation et un objet qui permet le mixage entre l’explication synchrone et asynchrone?

Pour explorer la problématique de l’explication asynchrone, j’ai développé le projet "Le multimédia métamorphique ". J’aurais pu utiliser un environnement comme Macromind, Director ou Authorware mais la combinaison HyperCard-HyperTalk (disponible sur les ordinateurs MacIntosh) m’a permis de mieux comprendre le rapport utilisation-" authoring "-programmation.

Le projet et le coût de développement

Le didacticiel devait expliquer la composition multimédia. Je suis entré dans cette situation récursive pour les motifs exposés dans le chapitre précédent. En construisant un didacticiel multimédia sur la construction des didacticiels multimédia, je me plaçais dans un cercle qui m’obligeait à réviser le contenu du discours en fonction des problèmes rencontrés dans sa rédaction!

Cependant, l’ambition initiale de couvrir dans mon didacticiel la thématique de la composition multimédia s’est heurtée au temps réclamé par l’opération "d’authoring". J’avais choisi une explication complexe, à situations variées, irréductible au bricolage de quelques blocs reproductibles. J’ai compris pourquoi tant de démonstrations sur des outils et des méthodes "d’authoring" ne sont pas réalisées avec ces outils mêmes, mais avec des moyens plus classiques telles les diapositives commentées, les films, les bases de petites références, les messages contextuels, le guidage par "wizard "… Ces expédients révélaient un malaise que la littérature sur le multimédia traitait avec assez de parcimonie: le coût élevé de la production (des dépenses matérielles et surtout du temps), l'absence de critères clairs pour le calculer et de moyens efficaces de le réduire.

J’ai posé mes questions sur les coûts lors de toutes les présentations de grands projets auxquelles j’assistais et les réponses oscillaient entre la discrétion et la sincérité décourageante. Il m'apparaissait de plus en plus clairement que les sommes servant à obtenir des CDROM instructifs d’une certaine qualité n’étaient pas à la portée de n’importe qui… Les petits budgets conduisaient à des réalisations médiocres, basées sur des modules et des situations répétées ou à des efforts considérables fondés sur un bénévolat enthousiaste, dévalorisé par les fréquents changements technologiques.

Ma première conclusion fut d’affirmer que pour arriver à une ingénierie de ces projets, on devrait disposer d’une méthodologie d’estimation et d’optimisation des coûts. Sur le plan des principes de composition, j’ai compris que  le compromis entre la reproductibilité et la qualité est un facteur déterminant.

La reproduction des explications multimédia est problématique parce que l’explication émane de son sujet et s'imprime avec ses particularités. Une certaine reproduction est possible seulement pour une gamme de sujets à structures similaires. Si cette gamme est large ou stable, si le public intéressé est nombreux, le développement des instruments explicatifs coûteux pourra se justifier. Dans les cas restants, les solutions faciles, bâties rapidement avec les moyens du bord, ont préférence à juste titre. Ils existent des situations qui justifient les complications. L’observation d’un tableau ou l’audition d’une mélodie peuvent être essentielles si on veut les expliquer. Mais il n’est pas toujours nécessaire de photographier une vache ou de provoquer son mugissement pour parler d’elle… L’homme investit trop dans le langage pour ne pas profiter de la concision qu’il offre. Ainsi, le choix de la modalité et de la complexité des moyens d’explication dépend du spécifique et du contexte du sujet abordé.

Pour réduire le temps nécessaire, j’ai dû me résumer à une seule leçon qui m’a permis d’étudier plusieurs aspects de la structure et du fonctionnement du multimédia. J’ai choisi comme sujet la numérisation d’un film, extrait d’un VCR et enregistré comme fichier dans un ordinateur. Cet exemple combinait divers types de difficultés et demandait la variation de la modalité d’assistance. Ce qui m’a intéressé le plus a été l’équilibre entre le caractère parallèle (la décomposition modulaire) et sériel (le processus discursif) de la leçon. J’ai vu les problèmes de modalité sous cet angle (sérialité du texte versus parallélisme des figures).

La composition multimodale

Le film et la photographie étaient opportuns lorsqu’il fallait montrer la manipulation des appareils. La simulation des actions convenait quand on démontrait des opérations avec les applications de l’ordinateur. La mise en évidence de la chaîne d’opérations supposait une représentation graphique de l’algorithme. La compréhension des mécanismes mis en jeux et de l’évolution du processus de numérisation était facilitée par un schéma métaphorique animée. Les opérations étaient commentées à l’aide des explications textuelles. La piste sonore profitait du parallélisme de la perception audio-vidéo et permettait au commentaire d’accompagner une évolution visible.

J’ai utilisé des boutons avec des icônes expressives et des cartes pour guider la navigation. J’ai recouru aux messages sonores qui pouvaient être lancés et arrêtés à la demande pour obtenir des renseignements. J’ai mis en évidence la correspondance entre des éléments qui se trouvaient sur des pistes différentes en les faisant clignoter simultanément. J’ai enrichi les photos d’appareils avec des "senseurs " dont la sélection déclenchait un film illustrant l’effet réel de l’action correspondante. J’ai fait appel aux couleurs pour suggérer l’avancement des opérations et j’ai utilisé une technique graphique de dévoilement progressif de la complexité.

Pour présenter simultanément les informations complémentaires, j’ai utilisé une présentation sur plusieurs pistes:  "algorithme ", " modèle ", " réalité ", " explications textuelles ", " commentaires sonores ", " panneau de négociation ". La synchronisation des pistes parallèles a été difficile parce que toute action devait, non seulement produire des réactions spécifiques sur la piste manipulée, mais aussi déclencher les opérations correspondantes sur les autres pistes, pour assurer le passage synchronisé de l’ensemble vers la prochaine étape. C’était le début de mon intérêt pour la stéréo-explication.

Au-delà des réserves concernant les coûts, sur le plan qualitatif, l’hypothèse de la pertinence explicative des diverses modalités et l’intuition du potentiel de l’ordinateur comme gestionnaire de multimodalité se sont confirmées. Ma démonstration a été déclarée intéressante et utile par ceux qui l’ont observée. Je n’ai pas fait une évaluation quantitative des performances explicatives obtenues car ma recherche avait une autre orientation qui consistait à observer le lien entre la physiologie de la composition et celle de l’utilisation.

L'exploration entre la liberté et la cohérence

J’ai décomposé l’opération de numérisation en trente-six étapes successives, présentées dans un ordre unique. L’utilisateur pouvait continuer au moment voulu en appuyant sur un bouton " avance " ou activant un senseur approprié sur une des pistes présentées en parallèle. Il pouvait aussi se déplacer dans un point quelconque de la chaîne démonstrative à l’aide du "graphe des tâches ". Malgré mon intérêt pour des concepts provocants comme  " interactivité ",  "exploration libre ", "environnements de découverte ", "enseignement personnalisé ", je suis parvenu finalement à un espace assez restreint de liberté pour des raisons qui méritent d’être analysées.

Si j’avais laissé à l’utilisateur la liberté d’établir le parcours dans mon discours, je n’aurais pas réussi à lui garantir sa cohérence. Pour parvenir à une flexibilité de lecture, j’ai essayé d'accroître l’autonomie des étapes en utilisant dans chaque "module" le moins d’informations extérieures (références croisées) possible. J’ai constaté alors l’appauvrissement de mon explication (quand je n’utilisais plus les informations des autres modules) ou la surcharge redondante (quand je reprenais les informations dans chaque module). Le gain que je réalisais en prévoyant plusieurs trajectoires était minime face aux complications engendrées par la composition. Seulement dans l’hypothèse que l’utilisateur avait parcouru une ligne de lecture préétablie et qu’il avait perçu et compris les messages déjà présentés, je pouvais proposer la continuation la plus pertinente.

J’ai essayé de prévoir des alternatives de navigation, de construire des dispositifs pour suivre sa trajectoire et d’en déduire des indications pour organiser la suite de l’explication. Je me suis heurté à une explosion combinatoire! M’acheminant vers le " système tutoriel intelligent ", guidé par les modèles de l’intelligence artificielle, j’ai cherché un automatisme pour l’adaptation dynamique des messages, mais je n’ai pas trouvé la " généricité ".

Cela confirmait mon expérience de générateur et de récepteur de discours explicatifs, plutôt que de valider les modèles théoriques des "systèmes experts" proposés pour la formation. Une explication parcourue dans l’ordre proposée par l’auteur permet l’utilisation complète de la rhétorique qu’il a investie dans son discours. Dans un discours unitaire, c’est-à-dire cohérent, chaque nouvel élément s’appuie sur (ou exploite) la vague des considérations précédentes. La "modularisation" du message est opportune seulement lorsqu’elle correspond à une collection de sujets ou reflète la décomposition naturelle d’une structure parallèle qui doit être décrite. Si on veut décomposer une explication unifiée pour permettre une flexibilité de lecture, il faut tenir compte que la portée de la fusion discursive sera réduite à l’intérieur de chaque module. On peut récupérer partiellement le potentiel explicatif sériel si on suggère (ou on impose) un ordre déterminé à la lecture des modules, mais on ne pourra plus atteindre la "discursivité" d’une conception globale progressive si on a conçu ces modules pour être autonomes. Autrement dit, il faut avoir une bonne justification pour accepter la diminution de l’énergie explicative au nom de la liberté de lecture ou de sa " réutilisation ". Les informaticiens ne peuvent pas calquer la technique "object-oriented" pour industrialiser les explications, car les "explicateurs" humains ne cherchent pas la reproduction, mais la meilleure qualité pour chaque explication qu'ils génèrent. Ils y parviennent en adaptant leur message au sujet et au public, de manière continuelle, ouverte et artisanale.

J’ai observé en conséquence que la dialectique liberté- cohérence, différemment traitée en théorie et en pratique, est essentielle pour les applications multimédia. J’ai mieux compris l’importance de ce problème en analysant quelques "environnements de découverte" qui avaient opté pour la liberté de navigation au nom de l’interactivité et du principe constructiviste, à savoir que l’utilisateur doit choisir seul sa voie d’explication. La stimulation à la participation et à la découverte donnaient à ces outils une utilité indiscutable, surtout quand ils s’agissait de présenter des collections de faits, de stimuler l’action, d’aider la formation d’une heuristique et d’entraîner la capacité de synthétiser un sens global à partir d’éléments disparates.

Mais, pour les sujets complexes et organiquement unitaires, la "décomposition" dans de tels environnements était problématique, car la fusion du sens global était difficile en absence d’un bon guidage pour récupérer la cohérence. On pouvait analyser, se promener, jouer ou s’égarer dans les collections structurées de molécules explicatives, mais si la synthèse n’était pas assistée explicitement, l’ensemble ne devenait plus une explication multicellulaire. J'extrait à cet égard un fragment d’un rapport que j’ai rédigé en 1994, pour évoquer aussi l’apparition de mon intérêt pour le mixage entre les explications préparées et le guidage humain:

" Le sujet est "atomisé" dans des petits fragments, ce qui facilite l'analyse. Par contre, l'opération de synthèse est complètement laissée à la charge de l'élève […] Il faut lui donner la possibilité de percevoir le cheminement comme une décomposition du sujet, de saisir la signification et le rôle de chaque élément. Ainsi la synthèse s'opérera en même temps que l'analyse et en collaboration avec elle. Pour satisfaire cette exigence élémentaire (retrouvée dans toute approche d'un bon professeur) on pourrait mettre à la disposition de l'élève des outils qui lui permettent de suivre parallèlement un détail et sa position dans l'ensemble. […] Ainsi, il serait peut être plus opportun de l'aider à construire une vision, en parcourant les éléments dans un ordre approprié. […] Le professeur pourrait recommander des excursions au début de son cours, pour stimuler l'intérêt pour le sujet et ouvrir un large éventail de questions, que les enfants seront poussés à se poser. Pendant le cours, il peut utiliser le potentiel des formes de présentation offertes par l'environnement pour faire des démonstrations. Il pourrait être le guide dont la base d'explorations a besoin pour une utilisation cohérente et efficace. Après les leçons en classe, l'élève pourrait utiliser la base pour élargir ses connaissances, satisfaire ses curiosités, voir les mêmes choses de plusieurs angles de vue, revenir (à son propre rythme et goût) sur certains aspects qu'il trouve intéressants ou qui lui opposent plus de résistance, s'entraîner à la mémorisation, s’évaluer et organiser ses propres observations. Après la fin du cours, l'élève pourrait utiliser l'instrument comme matériel de référence."

À l’opposé d’une lecture indéterminée, un parcours trop rigide soulèverait la question naturelle: pourquoi me suis-je compliquer la vie avec une leçon sur ordinateur au lieu de recourir à un livre ou à une cassette vidéo? Il y a de bonnes raisons à cela. En ce qui me concerne, l’ordinateur m’a permis d’intégrer plusieurs modalités et de faire des manœuvres complexes de composition et d’utilisation. J’ai pu utiliser des images et des textes dans le même espace explicatif que les sons et les animations, en combinant le potentiel de toutes ces modalités. Ce n’est que la dimension réduite du moniteur et l’ergonomie encore imparfaite des outils de composition qui m’ont poussé parfois à regretter le papier ou le grand écran. Un autre avantage apporté par le format digital était lié aux facilités de reproduction, de modification et de transport de l’explication composée. Mais l’avantage le plus spécifique était l’indice élevé "d’interactivité", que les acteurs humains pouvaient exploiter pendant la lecture et la composition pour obtenir une meilleure synchronisation.

L’interactivité et la métamorphose

L’utilisateur de l’explication multimédia a des possibilités variées de régler la réception du flux discursif pour l’accorder à ses particularités de compréhension. Comme lecteur de textes et observateur d’images, il a les libertés d’explorations spécifiques à ces modalités. Les films et les sons lui donnent la possibilité de se laisser conduire dans le rythme recommandé par l’auteur. En plus, l’ordinateur peut déclencher certaines actions en réponse aux gestes de l’utilisateur, lorsque l’auteur l’a préparé à saisir et à interpréter ces gestes. Même si le spectre d'intervention est encore très limité (clavier et souris), il constitue un "alphabet gestuel" qui peut soutenir une communication basée sur des actes.

Quand les réactions sont pertinentes et ont lieu dans un contexte bien préparé par l’auteur, elles gagnent en significations, elles représentent des réponses ou des questions et permettent une forme primaire de dialogue asynchrone. Ce mécanisme de coopération en deux temps n’est pas l’apanage exclusif de l’ordinateur puisqu’un livre peut poser une question et diriger le lecteur en fonction de sa réponse, peut suggérer un renvoi vers un paragraphe ou une image et peut utiliser un index. Ce qui est caractéristique à l’ordinateur c’est qu’il peut faire le geste de réorientation seul, en fonction de la réaction de l’utilisateur. Cette commodité a une valeur ergonomique et même explicative, si on considère l’explication comme facilitation de la compréhension.

Quand on explique des actions, il est avantageux que l’utilisateur puisse les effectuer ("learning by doing"). Cette possibilité d’action est plus facile à exploiter quand le sujet expliqué est une opération réalisée avec l’ordinateur. Cependant, le fait de pouvoir il ne faut exagérer l’importance de l’action même de cliquer ou de déplacer la souris, quand ce n’est pas le geste concret qui compte, mais la décision de le faire à un certain moment et de le diriger vers un certain élément de l’interface graphique. Expliquer les raisons de l’action peut être plus important que d’offrir la possibilité du geste effectif. Il peut être suffisant d’indiquer le geste de façon textuelle ou graphique, comme le font bien des démonstrations en informatique. La possibilité de l’action devient plus importante quand les gestes sont complexes ou demandent des décisions et des réactions rapides ou continues. L’action devient le but de l’apprentissage. Les jeux et les simulateurs contiennent de telles situations.

Dans ma leçon, les éléments interactifs de la piste "réalité" étaient des "senseurs" transparents ou visibles, placés sur les photographies des appareils et sur les images du moniteur, dans les points où il fallait intervenir pour déclencher le film de l’étape suivante. Celui-ci commençait avec la photo de l’état de départ et avançait jusqu’à l’image qui représentait le nouvel état. Ici, il s’arrêtait pour laisser place à une nouvelle photographie pouvant être explorée. Le tout donnait l’impression d’un film interactif. Intéressante aussi était l’action sur un élément du schéma évolutif des opérations, car elle opérait dans un monde métaphorique qui représentait de manière abstraite et animée le processus de numérisation. Je dois signaler aussi la fonction de navigation par action sur les boutons du menu-algorithme. Cependant, la manifestation d’interactivité la plus complexe était le changement du type de réaction de l’environement (la "métamorphose "), provoqué avec le bouton "hypostase ", réaction que j’expliquerai plus loin.

Le problème central que l’interactivité a soulevé pour moi a été la distribution de l’initiative entre l’auteur et l’élève, par l’intermédiaire de l’ordinateur. J’ai conçu l’utilisation du didacticiel comme un processus conduit par l’utilisateur, opérant dans une structure préparée pendant la composition. Quel était la contribution de l’auteur et de l’utilisateur dans la génération de la vague explicative? Qui déclenche le passage à une nouvelle étape? Qui explique, qui propose et qui décide ce qu’il faut faire? Qui accomplit l’action? Qui observe et commente les effets? Quand les deux partenaires sont ensemble, ils arrivent naturellement à un rituel et à un certain protocole de coopération. Quand ils sont séparés par l’espace et surtout par le temps, la négociation devient plus difficile et l’ordinateur peut devenir très utile.

En tant qu’auteur, je devais préparer les leviers d’action accessibles à l’utilisateur et mandater l’ordinateur de réagir aux actions potentielles de son partenaire. J’ai choisi pour chaque étape de la numérisation et pour chaque piste qui pouvait la piloter les éléments actionnables (boutons, senseurs, fenêtres de saisie de texte). Puis, j’ai défini une série de protocoles d’accès à ces éléments. Ils correspondaient à une gamme d'hypostases, classifiées en fonction du niveau de l’initiative de l’élève.

- Sur le mode de fonctionnement (l’hypostase d'utilisation) que j'ai appelé "présentation", l’utilisateur ne devait que déclencher le " film " de la série d’opérations, qui roulait ensuite sans son intervention. Ce mode " cinématographique " offrait une information commode mais superficielle.

- Si quelqu’un voulait utiliser la démonstration pour piloter une opération effective de numérisation menée en parallèle, il avait besoin d’analyser chaque étape et de naviguer librement dans l’arbre de l’opération. Ce deuxième mode, appelé " navigation ", était accompagné par un niveau maximal d’assistance. Les explications textuelles étaient complètes, les figures mettaient en évidence les endroits où il fallait actionner, etc.

- Pour l’hypostase de celui qui lisait la leçon pour apprendre la numérisation en l’accomplissant, j’ai prévu le mode " action ". Le bouton "avance " disparaissait et l’utilisateur devait agir sur les senseurs opportuns, aidé par les indications visuelles et textuelles.

- Pour l’hypostase de celui qui ne voulait pas qu’on lui indique quoi et comment faire, j’ai prévu le mode " exercice ".

- Dans le mode " exploration ", l’action sur n’importe quel élément, qu'il soit actif ou inactif, provoquait un message qui expliquait son rôle.

- Enfin, le mode " évaluation " permettait à chaque élément de donner des points (positifs ou négatifs) à celui qui essayait de l’actionner à un certain moment. Ceci menait à une évaluation progressive de la pertinence des gestes et apportait une alternative intéressante aux "tests " classiques.

Le but final de ces efforts a été d’étudier la possibilité d'une " métamorphose " qui permette à l’utilisateur de changer à tout moment, au long de la démonstration, le niveau de la participation de l’ordinateur. Je cherchais ainsi un compromis entre la flexibilité et l’économie de la négociation. L’utilisateur intervenait de temps en temps pour régler le mode, après quoi le protocole de coopération était " propagé " au reste de la démonstration. Tant qu’il ne changeait pas de mode (d’hypostase), il bénéficiait d’un niveau uniforme de réactivité de la part de l’environnement, à partir d’un partenaire passif attendant ses décisions, passant par un guide lui faisant des recommandations, jusqu’à un présentateur qui ne lui sollicitait plus d’intervenir.

Pour permettre l’adaptation des réactions des éléments actifs en fonction du mode de navigation en cours et le changement de ce mode à tout moment, j’ai fait des efforts de programmation importants, car je n’avais pas les moyens " d’authoring " adéquats. Ces lacunes de l’environnement s’ajoutaient à la faiblesse des instruments pour la distribution du discours sur plusieurs pistes synchronisées. En voulant enrichir l’environnement " HyperCard " avec de nouveaux instruments de composition, je suis passé de la position d’auteur à celle de programmeur-fabricant.