Avec leur livre numérique “Opinion mining et Sentiment analysis – Méthodes et outils” (openedition press – mars 2012), Dominique Boullier et Audrey Lohard font le point (à fin 2011) sur les offres technologiques et commerciales concernant « la fouille de l’opinion »(1) et « l’analyse des tonalités »(2) des verbatims recueillis sur le web. Dans la logique du web 2.0 qui est au cœur de leur investigation, le médialab de Sciences Po et openedition press inaugurent aussi une nouvelle méthode de production de livres augmentés : en effet, chercheurs, marketeurs, informaticiens, professionnels des études, etc. peuvent contribuer à nourrir leur réflexion en contribuant à ce livre numérique.
Sur le fond, il soulève beaucoup de questions liées aussi bien au recueil qu’à l’analyse et à l’interprétation des verbatims recueillis sur le web. La liste serait trop longue tant l’ouvrage est dense et soutenu par de nombreuses références. Partant de l’historique et de l’état du marché – très convoité – de « la fouille de l’opinion » sur le web, les auteurs soulignent notamment la difficulté d’évaluer la pertinence des solutions avancées par les prestataires de services, les éditeurs d’outils logiciels ou les solutions en ligne pour l’analyse automatique. L’ouvrage fait aussi le point sur les controverses autour de l’analyse des tonalités des propos exprimés sur le web. Autrement dit, il résume les débats liés au traitement automatique des langues (TAL) face à la complexité du langage humain pour une machine. En outre, les auteurs expliquent clairement – et longuement – l’importance du choix et de la constitution de bouquets de sources, ainsi que la mesure de leur « influence » respective, pour constituer et traiter un « corpus » de travail. Concernant la « fouille de l’opinion » et l’analyse des tonalités (opinions positives, négatives, neutres), les auteurs assènent qu’on ne peut faire trop confiance à la machine pas plus qu’on ne peut trop se fier à l’humain, tant l’une et l’autre sont susceptibles de se tromper : « La controverse selon laquelle les ordinateurs ne pourront jamais aussi bien comprendre le langage que les humains, et ne fourniront donc jamais d’aussi bons résultats en matière de classification des sentiments que les analystes humains, sous-entend une évidence supposée partagée. Celle que tout humain confronté à l’expression d’un sentiment l’interprétera de la même manière qu’un autre humain. Pourtant, plusieurs études semblent remettre en cause cette évidence supposée. » (…) « Des annotateurs humains n’attribuent pas toujours la même polarité. Leur précision n’est pas de 100 %. Ils remarquent aussi que plus la polarité des mots est forte, plus les annotateurs seront d’accord entre eux et leur attribueront la même polarité« . Et de conclure : « C’est pourquoi les demandeurs de solutions d’analyse de sentiment doivent clairement choisir entre deux priorités : soit obtenir un résultat grossier très rapidement, pour un usage quasi immédiat en vue de social media monitoring, soit rechercher une plus grande fiabilité de la réponse en analyse de la tonalité qui sera nécessairement plus longue« . A méditer.
Informatique, linguistique, sciences politiques, sociologie, etc. la « fouille de l’opinion » et l' »analyse des tonalités » est à la croisée de nombreuses disciplines. Sans oublier le marketing, la communication, la veille, l’influence… Un sujet d’avenir à l’aube du web sémantique.
(1) Opinion mining – (2) Sentiment analysis