Vendredi 25 Avril 2014
De la causalité dans le Prix Turing
Par Jean-Marie Chauvet
Publié le 21 Mars 2012

Le prix Turing vient d'être décerné, pour l'année 2011, au professeur Judea Pearl, l'un des plus brillants représentants de ces chercheurs qui, défrichant hardiment les frontières traditionnellement établies entre disciplines scientifiques, mathématicien, philosophe et informaticien, firent les grandes heures des disciplines fondatrices de l'Intelligence artificielle. Il est d'usage de rappeler qu'il avait été tristement tiré de la discrétion rigoureuse et savante de ses travaux fondamentaux du Cognitive Systems Laboratory à UCLA par le tragique assassinat de son fils, Daniel Pearl, journaliste au Wall Street Journal, par des terroristes en 2002. Sa stature publique, comme président de la Fondation Daniel Pearl, est devenue une inspiration et un modèle d'humanisme pour la compréhension mutuelle entre cultures.



Au plan scientifique, Judea Pearl s'est attaqué à des questions d'ampleur monumentale : raisonnement, heuristique, inférence, causalité, qu'il examine à la fois en philosophe, en logicien parfaitement au fait des travaux de re-fondation des mathématiques du XXe siècle — de Whitehead et Russell à Rosser, Curry et Church, de Quine et Kleene à Suppes, de Tarski et Lukasiewicz à Kolmogorov et Markov tant ses travaux touchent aux fondements théoriques de la représentation de la pensée — et en programmeur et architecte informatique, concepteur d'algorithmes dont, au fil du temps, l'importance est devenue cruciale aux yeux de tous les géants du Web, collecteurs et analystes du Big Data. Le fil conducteur de ses travaux de recherche a élevé le raisonnement probabiliste au rang d'outil, à la fois fondamental et pratique, de modélisation de la relation de cause à effet. Quoi de plus naturel, en effet, pour un jeune chercheur du tout début des années 1980 que d'explorer la possibilité de dégager les relations causales de la moraine de faits charriés par les données brutes — une question proprement philosophique jusqu'alors et que l'on peut faire remonter au moins jusqu'à David Hume et son Treaty on Human Nature — avec les moyens neufs et les méthodes appliquées de la programmation alors naissante ?
 

Pearl est généralement reconnu comme inventeur du terme « réseau Bayesien » pour désigner ces constructions mathématiques qui jettent des passerelles entre théorie des graphes et relations de dépendance probabilistes. En particulier, il a conduit de succès en succès l'approche consistant à chercher dans le puzzle des données des motifs partiels d'indépendance conditionnelle, révélateurs d'une structure causale sous-jacente, et à en assembler les pièces en un modèle causal cohérent — une méthodologie bottom-up poursuivie en parallèle à UCLA et à CMU — en contraste avec les « Bayesiens puritains » de Stanford qui, posant d'emblée un modèle causal Bayesien (top-down), exploitent les données pour calibrer les probabilités a posteriori associées aux diverses structures causales candidates à la modélisation des faits. Les deux variantes de l'automatisation de la découverte des relations de cause à effet reviennent aujourd'hui au coeur même de la farouche concurrence des grands acteurs du Web.
 

Une incise : l'actualité récente dans le domaine des moteurs de recherche l'illustre parfaitement. Alors que Siri (#), l'assistant personnel de l'iPhone d'Apple, est annonciateur d'une évolution notable de l'usage des moteurs de recherches et, partant, du modèle économique prévalent actuellement, qui est phagocyté par Google pour le classement et la publicité en ligne, et que Watson d'IBM (#) est utilisé aux mêmes fins d'amélioration du service rendu à l'utilisateur chez Citi Group (#), les modèles causaux et leurs applications « sémantiques » attirent soudain les feux des projecteurs. Google est là empêtré dans la lutte contre les effets de bords de son algorithme de classement, se trouvant aujourd'hui contraint de « surtaxer » les pages jugées trop riches d'optimisation (#) — une idée savoureuse à l'heure préélectorale bien sombre où les candidats, unanimes et pitoyables de jalousie peccamineuse devant les réussites économiques, rivalisent bruyamment dans l'escalade fiscale confiscatoire à faire rendre gorge à l'Hydre du succès financier, décidément immoral et inacceptable ici, songent derechef à aboyer contre l'impérialisme numérique cosmopolite par le nouvel octroi d'une « Taxe Google » (#). La révélation, la semaine dernière (#), que les prochaines moutures du moteur de recherche ne se contenteront plus de fournir des liens aux requêtes des utilisateurs, mais s'inspirant de ses devanciers Siri, Wolfram Alpha (#) et Bing de Microsoft — chez qui l'équipe arrivée avec l'acquisition en 2007 de Medstory (#) a profondément transformé et enrichi l'algorithme de recherche — calculeront directement les réponses aux questions des internautes.
 

Afin d'aboutir à un modèle causal, Pearl part des premiers principes et de constatations élémentaires : d'une part, l'analyse purement statistique des données ne met en évidence que des covariations de variables sans impliquer logiquement de relation de cause à effet entre elles ; d'autre part, la plupart des formalisations de cette relation, en accord avec l'intuition naïve, invoquent une précédence temporelle entre la cause et l'effet. Hans Reichenbach, l'un des premiers membres du Cercle de Vienne, avait concrétisé ce point dans la notion de « cause commune » (#) dans son livre The Direction of Time publié en 1956 : des événements simultanés corrélés doivent avoir des causes communes antécédentes. Le besoin de formaliser cette idée, somme toute conforme au bon sens, s'était fait sentir au début du XXe siècle dans les cercles des physiciens pressés à l'étude du bouleversement simultané de la théorie de la Relativité d'Albert Einstein et de la Mécanique quantique, dans lesquelles la causalité perdait la netteté des contours que les définitions de la physique classique lui attribuaient jusqu'alors. La nécessité d'une formalisation de la causalité s'exportait alors au domaine de la logique mathématique, dont cette physique du début du XXe siècle avait remis l'importance au premier plan. Patrick Suppes (#), dans A Probabilistic Theory of Causality (1970) donne ainsi une version formelle en logique mathématique de la causalité. Mais l'information de succession temporelle seule ne permet pas non plus de distinguer entre des causes authentiques et des attributions fallacieuses de relation de cause à effet dues à des facteurs inconnus. (Le baromètre baisse avant l'averse mais cette baisse ne cause évidemment pas la pluie.)
 

Cette critique se trouvait déjà développée avec force dans une oeuvre tout à fait inattendue et bien méconnue, celles des Cahiers de Paul Valery. Plus connu comme poète que comme essayiste, Paul Valery s'attablait cependant, au petit matin, tous les jours de 1894 jusqu'à sa disparition en 1945, pour rédiger ce qui constitue 262 cahiers de notes serrées qui font de lui un systémicien pionnier avant la lettre. S'interrogeant lui-même sur les mécanismes les plus profonds de la pensée et du raisonnement — sujets qui, à le lire, bien loin des méthodes de la psychanalyse freudienne à vocation généraliste, le passionnent personnellement — il jette dans cette extraordinaire somme critique les bases que l'on retrouvera chez les premiers théoriciens des systèmes et de la cybernétique, de Ludwig von Bertalanffy à Heinz von Foerster, passeur vers le constructivisme radical de Ernst von Glasersfeld disparu fin 2010. Il illustre une veine psychologique dans la compréhension des possibilités de mécanisation de la pensée. Sous sa plume prémonitoire on lit, par exemple :
 

« Ce qui embrouille l'affaire du libre-arbitre, c'est la manie de regarder la série des événements comme linéaire selon l'antique type des causes et effets. Mais le moindre phénomène physique montre déjà une pluralité inextricable de constituants. »
 

C'est cet écheveau inextricable que les travaux de Pearl vont démêler.




Un mot encore sur le contexte des recherches de Pearl. La tâche de modélisation causale y est vue comme un jeu, au sens de la théorie probabiliste des jeux, que le scientifique joue contre la Nature. (Bien que, fameusement selon Einstein, elle ne joue pas aux dés.) Dans A Statistical Semantics for Causation (#), on pose que la Nature se caractérise par un mécanisme stable de causalité qui est descriptible par des relations fonctionnelles déterministes entre variables, dont certaines ne sont pas observables. La logique mathématique capture ces postulats sous la forme d'un graphe sans cycles que le scientifique s'efforce de reconstituer à partir des observations. Ce graphe orienté acyclique (DAG dans l'acronymne anglais directed acyclic graph) est nommé structure causale. Elle sert de spécification, de substrat au modèle causal qui, quant à lui, décrit précisément comment chacune des variables dépend effectivement des variables antécédentes dans la graphe de la structure causale. Une fois que le modèle causal est formé, il définit de facto une distribution de probabilités sur toutes les variables du système. Celle ci reflète évidemment les caractéristiques de la structure sous-jacente : chaque variable est, par exemple, indépendante de ses non-descendants dans le graphe, conditionnellement à ses antécédents immédiats (ce qui rend le modèle markovien en général). La Nature permet au scientifique d'observer un sous-ensemble incomplet des variables et d'étudier leur distribution de probabilités restreinte à ce sous-ensemble. La question que Pearl a résolu par l'affirmative est celle de la possibilité de reconstituer l'ensemble de la structure causale et du modèle à partir de ces observations fragmentaires de relations probabilistes locales entre quelques variables (#).
 

Comme un nombre illimité de modèles causaux peuvent engendrer la même distribution, variant chacun dans leurs ensembles de variables cachées et dans la forme des relations entre variables observées, il s'agit de les classer pour ne considérer que les extrêmes (premier ou dernier suivant ce classement), les modèles dits minimaux. Et là, comme l'avait observé à nouveau le précurseur Valery :
 

« Cependant l'idée de cause ne peut être totalement rejetée car il est bien difficile de s'en passer durant un raisonnement. Il faut alors lui reconnaître son caractère relatif et surtout subjectif et anthropomorphique. »
 

Pearl doit reparler de l'observateur humain qu'il avait escamoté dans ses axiomes. L'heuristique de classement mise en avant dans la théorie de la causalité de Pearl est celle du « Rasoir d'Occam » dont le moins que l'on puisse dire est que son statut dans la philosophie occidentale est complexe. Les modèles causaux minimaux sont ainsi les plus parcimonieux, les plus « simples ». Paul Valery, à nouveau :



« Et en somme quand la question de cause se pose, c'est en réalité quand on cherche une cause non connue, non donnée, qui satisfasse ma question, bien plus qu'au phénomène. »
 

(Voilà donc avec près d'un siècle d'avance, le marketing des communiqués de presse de Google sous la plume introspective d'un poète !)




« La preuve en est que la recherche des causes et la cause reconnue sont limitées tandis que les vraies conditions du phénomène s'étendent où l'on voudra. La cause est donc une réponse; elle n'est pas ce qui fait le phénomène. Déterminer la cause d'un phénomène, c'est choisir entre tous les phénomènes que suppose celui-ci, l'un d'eux. Ce qui détermine ce choix est distinct du phénomène à expliquer et est distinct du choix lui-même. »
 

La subjectivité refait surface immédiatement et la notion de cause, même formalisée, ne peut ainsi faire l'économie de l'observateur humain. Mais pour tenir éloignée la perspective d'une subjectivité de l'observateur englobant au final toute la théorie, Pearl introduit la notion de modèle causal stable, i.e. dont les relations d'indépendances conditionnelles ne sont pas détruites par des variations des paramètres de la distribution de probabilité.




Au passage, notons qu'une alternative à la stabilité de Pearl pour injecter une dose d'objectivité — ou réduire l'indéterminisme — pourrait être de faire appel à une forme de crowdsourcing, à la façon de Clay Shirky (#), dans le choix des modèles causaux comme dans le récent projet expérimental OpenProof (#).
 

D'ailleurs, contrairement à ce que laisserait penser l'aridité technique de la présentation de Pearl, les notions naïves ne tardent pas non plus à se réintroduire subrepticement dans la théorie. Comme mentionné plus haut, le discours humain naturel sur les explications causales doit, pour être recevable, satisfaire à deux sortes d'attentes : statistiques et temporelles. Devant la pérennité de ces exigences du discours explicatif durant des siècles d'observation scientifique, Pearl enrichit son modèle causal de la notion de temps statistique : tout ordonnancement des variables conforme à l'un au moins des modèles causaux minimaux. Enfin on réconcilie la physique et le modèle théorique en conjecturant un biais temporel, à savoir que dans la plupart des phénomènes naturels, le temps physique coïncide avec au moins un des temps statistiques du modèle. Valery encore le formulait de façon lapidaire dans une merveilleuse concision :
 

« Le déterminisme est la seule manière de se représenter le monde. Et l'indéterminisme, la seule manière d'y exister. » (1915)
 

Les hypothèses de minimalité et de stabilité permirent à Pearl de mettre au point un algorithme de récupération du modèle et de la structure causaux à partir des observations — IC pour Inductive Causation — devenu la pierre angulaire d'innombrables déclinaisons en analyse des données, en business intelligence et data mining, dans le traitement du langage naturel, dans les analyses sémantiques, dans la représentation des connaissances, et, plus récemment dans le vif renouveau de la théorie des graphes à la suite d'Albert-László Barabási (#), de Duncan Watts et Steven Strogatz (#), de Béla Bollobás (#) — sur lesquels plane l'ombre tutélaire de Paul (Pál) Erd?s — dans le contexte des applications Web et du Big Data.



Après Leslie Valiant l'année dernière, le Prix Turing ne serait-il pas en train de signer l'avènement d'un nouvel âge de l'Intelligence artificielle ?