đ EasyTech #11 - Les fondamentaux de l'Intelligence Artificielle
L'IA démystifiée (partie 1/2)
Salut salut,
JâespĂšre que tu vas bien.
Câest le dĂ©but dâune sĂ©rie en deux parties pour dĂ©mystifier lâIA !
Aujourdâhui, premiĂšre partie, on va se focaliser sur les briques Ă©lĂ©mentaires pour bien la comprendre.
Histoire de lâIA
LâIA dans la culture populaire
Ăa fait de longues annĂ©es quâon fantasme et quâon se pose des questions sur des machines qui deviendraient aussi intelligentes que lâhomme, voire plus.
Ce qui est intĂ©ressant câest quâon voit souvent ce problĂšme de maniĂšre trĂšs binaire. Soit câest tout blanc ! Soit câest tout noir !
LâIA meilleure amie de lâhomme
Premier exemple, lâIA touchante et attendrissante.
Dans le film IA de Spielberg sorti en 2001, les robots sont au service des hommes. Ils effectuent toutes sortes de tĂąches pour nous. Ils sont notamment largement utilisĂ©s pour assouvir nos dĂ©sirs sexuels. Jude Law joue Ă lâĂ©poque le rĂŽle dâun gigolo chargĂ© de donner du plaisir aux femmes humaines.
Lâintrigue tourne autour dâun petit garçon robot, adoptĂ© par des parents humains. Ses parents lâabandonnent au final car il nâest pas un âvrai petit garçonâ. Tout le film suit sa quĂȘte pour devenir un vrai garçon.
Dans ce film, le rĂŽle de lâIA nous force plutĂŽt Ă nous regarder dans le miroir en tant quâhumain, et Ă nous questionner sur notre âmoraleâ. Ă quel point sommes-nous respectueux des robots ? Est-ce juste / Ă©thique dâasservir des robots pour assouvir nos dĂ©sirs ?
Ăa dĂ©passe la rĂ©flexion homme / machine : en voyant les comportements des hommes face aux IAs dans le film, on se pose la question âest-ce quâon ne fait pas parfois la mĂȘme chose entre humain ?â.
DeuxiĂšme exemple, lâIA amante.
Câest lâintrigue du film Her, sorti en 2013, dont le personnage principal est Joaquin Phoenix. Il y joue le rĂŽle dâun employĂ© dans une entreprise qui Ă©crit des cartes de voeux sur mesure pour dâautres personnes. Il est trĂšs dĂ©primĂ© et installe sur son portable une sorte de Siri avec lequel il va se lier. La voix de Siri dans le film est doublĂ©e par Scarlett Johansson dâailleurs.
Le rĂŽle de lâIA est ici trĂšs bienveillant. Elle aide un homme seul, Ă se sentir moins seul, Ă lâaccompagner sur un petit bout de parcours. Plusieurs passages sont mĂȘme touchants. Car on voit Ă quel point le personnage sâattache Ă cette IA.
Pour autant, on sent quâil faut un peu se mĂ©fier. LâIA et le personnage principal finissent par tomber amoureux. Dâabord, ça gĂ©nĂšre beaucoup de souffrance pour des raisons logistiques Ă©videntes. Ensuite, ça montre bien lâidĂ©e que dĂ©lĂ©guer des choses comme de lâaffect ou des relations humaines Ă ce point ne fonctionne que jusquâĂ un certain point.
LâIA menace pour lâhumanitĂ©
Premier exemple, une IA qui privilĂ©gie ses intĂ©rĂȘts Ă ceux des hommes.
Câest ce quâil se passe dans un film un peu plus ancien : 2001 lâodyssĂ©e de lâespace (qui date de 1968). Le film nous montre diffĂ©rents moments de lâhistoire et diffĂ©rents plans de lâespace. Il nous projette dans une sociĂ©tĂ© futuriste oĂč les hommes font des voyages spatiaux. Il est trĂšs connu pour une de ses premiĂšres scĂšnes oĂč des singes dansent autour dâun gros monolithe de pierre.
LâIA dedans sâappelle HAL. Dans le film, HAL est un assistant pour piloter une navette spatiale. Une sorte de ChatGPT pour astronaute. Au dĂ©but tout se passe bien. Mais les astronautes finissent par se mĂ©fier car lâIA se comporte Ă©trangement. Ils se rendent compte que HAL a dĂ©veloppĂ© un trĂšs fort niveau de conscience. Et quâil est prĂȘte Ă mettre leur envie en danger pour le bien de la mission.
Morale de lâhistoire, oui lâIA Ă©tait programmĂ©e pour aider lâhumain dans sa mission. Mais quand elle devient autonome, elle peut favoriser un objectif sans discernement mĂȘme si ça va Ă lâencontre de la protection de ce mĂȘme humain.
DeuxiĂšme exemple, lâIA asservit le monde
Câest exactement lâintrigue du Terminator. Si vous ne lâavez pas vu, Terminator se passe Ă notre Ă©poque. Un robot appelĂ© Terminator arrive du futur. Dans le futur, les hommes sont asservis par les robots. Pour rĂ©sister contre les robots, les hommes ont montĂ© une ârĂ©sistanceâ. Lâobjectif de Terminator est de tuer la cheffe de la rĂ©sistance du futur Sarah Connor, âen avanceâ, en retournant dans le passĂ© avant quâelle ne prenne ce rĂŽle.
Lâintrigue du film est intĂ©ressante. On comprend que lâhomme a crĂ©Ă© des IAs. Puis que ces IAs sont devenues suffisamment intelligentes et fortes pour Ă©changer ensemble. Et rĂ©duire les humains en esclavage.
Morale de lâhistoire, avec des machines / IA trop fortes, elles risquent de sâallier pour nous tuer ou nous rĂ©duire en esclavage. Ăa va mĂȘme plus loin dans le film puisquâelles vont mĂȘme jusquâĂ revenir dans le passĂ© pour le faire.
Bon, aprĂšs ce passage par la culture populaire, on va regarder comment ça sâest passĂ© au niveau scientifique / technique depuis 1950.
Et on va voir que ce quâon appelle aujourdâhui lâIA ressort de 3 disciplines : les statistiques, le machine learning et le deep learning.
LâIA depuis la fin de la Seconde Guerre mondiale
PremiĂšre discipline : les statistiques
Les statistiques visent Ă identifier des comportements sur une population donnĂ©e Ă partir de lâanalyse dâune sous-population. Câest ce quâon appelle lâinfĂ©rence.
Par exemple, je dispose dâune base de donnĂ©es qui recense une population de 10.000 fumeurs en Europe et aux Ătats-Unis.
La question que se pose les stats = quels sont les facteurs qui caractĂ©risent un âfumeur typeâ ? Sous quelle condition ce qui est vrai pour un individu dans les 10.000 fumeurs se gĂ©nĂ©ralise au reste de la population ?
â ïž Câest un objectif initial qui peut sembler un peu plus basique : je veux Ă©tablir des liens entre des donnĂ©es. On peut avoir lâintuition que du coup ça ne sâappellera pas de lâIA. En effet, on va dĂ©finir lâIA par la suite. Et on verra que lâIA sâaccompagne dâune idĂ©e de pouvoir copier / rĂ©pliquer le comportement humain. Ici on nây est pas encore.
DeuxiĂšme discipline de lâIA : le machine learning
Câest en cela que les statistiques se diffĂ©rencient du machine learning (apprentissage automatique) qui existe Ă©galement depuis de longues annĂ©es. Lâobjectif du machine learning câest dâanalyser les donnĂ©es du passĂ©, pour les comprendre, et pour pouvoir ensuite prĂ©dire le futur, Ă partir de nouvelles donnĂ©es.
La question que se pose le machine learning dans notre exemple : Ă partir de ce que jâai observĂ© sur les 10.000 fumeurs de ma base de donnĂ©es, quelle est la probabilitĂ© quâun fumeur classique (qui nâappartient pas Ă la base) dĂ©veloppe un cancer du poumon ?
Statistiques â Machine Learning historiquement. Pour autant, les frontiĂšres se sont un peu brouillĂ©es rĂ©cemment. Aujourdâhui les trĂšs bons data scientists ont souvent des compĂ©tences trĂšs fortes en statistique, notamment parce quâils ont suivi une formation de statistique Ă un moment. Ils savent mĂ©langer les deux approches pour obtenir des rĂ©sultats et des prĂ©dictions les plus pertinentes possibles.
TroisiĂšme discipline de lâIA : le deep learning
En parallĂšle du dĂ©veloppement des statistiques et du machine learning, Ă partir de la fin de la Seconde Guerre Mondiale, une troisiĂšme discipline quâon va appeler le deep learning va connaĂźtre un essor important.
Elle se distingue des deux précédentes parce que son inspiration est bien plus radicale. Pour la faire simple, les statistiques sont une discipline ancienne issue des mathématiques. à cette époque, le Machine Learning va un peu plus loin mais il reste trÚs proche du monde de la statistique, avec des langages de programmation similaires.
Lâinspiration du deep learning est extrĂȘmement ambitieuse : sâinspirer du fonctionnement du cerveau pour le reproduire dâun point de vue technique / algorithmique.
Les neurones seraient modĂ©lisĂ©s par des modĂšles statistiques simples, appelĂ©s âperceptronâ. (On voit donc que les stats sont derriĂšre tout ça). En mettant plein de neurones en parallĂšle et en les faisant communiquer, on commence Ă avoir un truc qui ressemble au cerveau humain. Câest pour ça que les chercheurs bossant sur ces sujets ont direct appelĂ© ces modĂšles des âRĂ©seaux de neuronesâ.
Lâobjectif de ces rĂ©seaux neuronaux Ă©tait Ă©galement ambitieux : reproduire des fonctions rĂ©alisĂ©es par lâhomme. Câest le rĂȘve de lâIntelligence Artificielle au sens propre ! Une machine qui devient intelligente.
Ces rĂ©seaux neuronaux ont mis du temps Ă sâimposer par rapport aux autres modĂšles issus des statistiques ou du machine learning.
PremiÚre période de développement 1955-1975
Ă cette Ă©poque, un premier engouement naĂźt. Des premiers travaux de recherche sont formalisĂ©s. Câest Ă cette Ă©poque quâon invente le terme de âdeep learningâ et la notion dâarchitecture de neurones avec des modĂšles statistiques simples associĂ©s.
Pour autant, le soufflé retombe car les résultats ne sont pas à la hauteur.
Seconde période de développement 1985-1995
Au milieu des annĂ©es 1980, ça repart. Une nouvelle gĂ©nĂ©ration de chercheurs avance plus et diffĂ©rentes Ă©coles se font concurrence dans le monde (Ătats-Unis, France, Suisse ou Japon). Une confĂ©rence internationale sur le sujet est mĂȘme crĂ©Ă©e en 1987 (la NIPS - Neural Information Processing Systems).
Mais globalement, sur la plupart des tĂąches âhumainesâ les algorithmes de machine learning (la 2Ăšme discipline) restent plus puissants.
TroisiĂšme pĂ©riode : lâexplosion depuis 2012
En 2012, câest LE moment fondateur oĂč le deep learning va exploser et montrer quâil peut ĂȘtre bien meilleur que des algorithmes de machine learning pour certains cas dâusage.
Chaque annĂ©e depuis 2010, un concours appelĂ© ImageNet est organisĂ© pour identifier lâalgorithme le plus performant et prĂ©cis pour reconnaĂźtre des images.
Par exemple, on va envoyer des photos dâanimaux et on va regarder lâalgorithme qui arrive Ă reconnaĂźtre un chat, un chien, une loutre, un cheval⊠le plus prĂ©cisĂ©ment.
Depuis plusieurs annĂ©es et pour les premiĂšres annĂ©es du concours, ce sont des algorithmes de machine learning âclassiquesâ qui gagnent. Ils ont en gĂ©nĂ©ral un taux dâerreur de 25%. Câest Ă dire quâils arrivent Ă reconnaĂźtre correctement 3 images sur 4.
En 2012, un rĂ©seau de neurones Ă©crase toute la concurrence en arrivant Ă un taux de performance de prĂšs de 15% đ± PrĂšs de 10% de plus que les autres algorithmes.
Ăa peut avoir lâair de rien, mais dans le monde de lâalgorithmie, on progresse 1/10Ăšme de % par 1/10Ăšme de %. Alors 10% dâun coup câest absolument rĂ©volutionnaire.
Voici donc comment ces trois disciplines ont Ă©voluĂ© au cours du XXĂšme siĂšcle pour donner naissance Ă lâIA telle quâon la connaĂźt aujourdâhui.
Avant de rentrer dans la dĂ©finition plus prĂ©cise de ce quâon appelle lâIA, un mini tableau rĂ©cap pour comparer ces 3 disciplines :
Les prĂ©requis de lâIA
Avoir de la donnée, de la data
La data câest quoi ? Ce sont des âoctetsâ au niveau informatique, des Ă©lĂ©ments qui sont stockĂ©s dans les ordinateurs. Cette âmatiĂšre Ă©lĂ©mentaireâ permet de stocker plein de choses diffĂ©rentes : photo, vidĂ©o, musique, pdf, imageâŠ
Dans le contexte de lâIA, quand on parle de âdataâ ou de donnĂ©e, on renvoie aussi à ça. Disposer dâune quantitĂ© de data est trĂšs puissant. Parce que ça permet dâavoir plus dâinformations, plus dâĂ©lĂ©ments pour comprendre un problĂšme donnĂ©.
Il est également important que la data soit de bonne qualité.
Dans notre exemple des fumeurs, une base de donnĂ©e de mauvaise qualitĂ©, serait une base de donnĂ©es oĂč lâĂąge des fumeurs serait :
â Soit pas toujours rempli, par exemple il nous manque lâĂąge des Français de la base de donnĂ©es qui habitent en Normandie !
â Soit mal rempli, par exemple lâĂąge de tous les AmĂ©ricains de la base de donnĂ©es qui habitent au Texas a Ă©tĂ© mis (arbitrairement) Ă 40 ans !
Le problĂšme derriĂšre, câest quâon va biaiser / fausser nos analyses. Si je nâai pas vu que, par erreur, tous les Texans ont 40 ans, alors je vais lâintĂ©grer dans mes analyses. Typiquement je vais sĂ»rement avoir lâimpression que les Texans ont des cancers plus tĂŽt que le reste de la population parce que tous les Texans ayant dĂ©veloppĂ© un tel cancer⊠auront 40 ans.
PrĂ©-mĂącher le travail de lâIA
LâIA câest incroyable mais il y a beaucoup de travail en amont. Avant de pouvoir utiliser ces algorithmes de statistiques, machine learning ou de deep learning.
PremiÚrement le stockage de la donnée.
Comme vu au-dessus, la quantitĂ© de donnĂ©e nĂ©cessaire est importante. Dâailleurs, câest un des facteurs qui diffĂ©rencie les statistiques du machine learning ou du deep learning comme on lâa vu dans le tableau rĂ©cap.
En gros :
â pour faire des stats pour mes fumeurs, si jâai 500 personnes ça va aller ;
â pour faire du machine learning, il va me falloir minimum 1000-2000 personnes ;
â pour faire du deep learning, il va me falloir minimum des dizaines de milliers de personnes.
Et quand on a beaucoup dâĂ©lĂ©ments, les stocker devient un problĂšme.
Câest ce quâil se passe si tu as un fichier Excel qui commence Ă avoir plus de 5000 lignes. Il va bugger et ĂȘtre beaucoup plus lent.
Quand tu as vraiment vraiment beaucoup de donnĂ©e, câest encore plus complexe. Si tu veux faire du deep learning sur des millions dâimage, le disque dur dâun ordi âclassiqueâ ne suffira pas ! Grosso modo, un MacBook pro rĂ©cent dispose dâĂ peu prĂšs 200-300 Giga Octets de mĂ©moire ; une photo ça fait Ă peu prĂšs 2-3 MĂ©ga Octets. Ăa veut dire que tu ne peux pas rentrer plus de 100.000 photos sur un tel ordi.
Donc il y a des stratégies pour faire ça. Pour ne pas rentrer dans les détails, on va dire que :
Soit on prend des disques dur encore plus puissants, qui peuvent contenir plein plein plein dâimages
Soit on répartir les images entre beaucoup beaucoup beaucoup de disque durs
Chaque solution a ses avantages et ses inconvénients.
DeuxiÚmement le transport de la donnée.
Pareil que pour le stockage : Ă partir du moment oĂč on a de gros volumes, le transport de la donnĂ©e ça pose problĂšme.
Câest comme quand on part en vacances en voiture. Si tu as trĂšs peu de bagages, pas de problĂšmes câest facile. En revanche quand tu as beaucoup de choses Ă transporter, câest plus compliquĂ© : (i) est-ce que la voiture est assez grande ? ; (ii) est-ce que ça ne va pas abĂźmer les pneus ? ; (iii) est-ce que ça reste âconfortableâ pour les passagers ?
Bref, pas facile ! Pour faire tout ça, on a besoin de compétences en Data Engineering. Et on utilise des technologies dites ETL (extract / transport / load).
TroisiÚmement la préparation de la donnée.
En gĂ©nĂ©ral la donnĂ©e nâest pas directement utilisable tel quel.
Soit parce que la qualitĂ© nâest pas suffisante, donc on a besoin dâeffectuer des retraitements pour la rendre plus qualitative.
Par exemple, plutĂŽt que dâavoir tous mes texans qui ont 40 ans, je vais tous les supprimer de la base de donnĂ©es, oui jâaurai moins de donnĂ©es⊠mais au moins les donnĂ©es restantes seront plus fiables.
Soit parce quâon va modifier et combiner certaines variables pour amĂ©liorer lâanalyse.
Par exemple pour identifier les risques de cancer des poumons, câest sĂ»r que la taille et le poids peuvent avoir un impact. Mais au final, peut-ĂȘtre quâune variable les combinant comme lâindice IMC (poids / taille^2) serait plus pertinente.
Ă ce stade, jâespĂšre que tu as une meilleure comprĂ©hension de lâhistoire de lâIA et de ses prĂ©-requis. On va pouvoir rentrer dans le coeur de ce mini-cours : la dĂ©finition de ce quâest lâIA.
Au final, quâappelle-t-on âIAâ ?
Les 6 niveaux de lâanalyse de donnĂ©es
Maintenant quâon voit comment mettre en place les prĂ©-requis Ă la donnĂ©e⊠on va pouvoir dĂ©finir lâIA. On a juste besoin dâun dernier concept : les 6 niveaux dâanalyse de donnĂ©es.
On va voir tout ça, en reprenant lâexemple des fumeurs ! Partons de lâhypothĂšse quâon dispose de cette base de donnĂ©es. On va voir comment activer les diffĂ©rents niveaux dâanalyse sur elle.
Niveau 1 - Descriptif
Ă ce niveau lĂ , on reste sur des traitements trĂšs âbasiquesâ sur la base de donnĂ©es.
Par exemple, jâobserve que tous les fumeurs ont entre 20 et 40 ans. Ou jâobserve que 20% des Français sont fumeurs et seulement 15% des AmĂ©ricains.
Ăa correspond Ă des opĂ©rations que je pourrais faire moi-mĂȘme sur Excel, comme des courbes, des moyennes, des graphiques camembert.
đĄAttention, en termes de traitement, câest limitĂ© ; mais câest trĂšs utile et on peut apprendre plein de choses en faisant ça.
Niveau 2 - Exploratoire
On va chercher des relations plus poussĂ©es entre les variables. Ce quâon appelle des âcorrĂ©lationsâ.
La variable A et la variable B sont corrĂ©lĂ©es si quand A â, alors B â (ou â).
Par exemple, je repĂšre que plus les fumeurs font du sport, moins ils sont fumeurs en gĂ©nĂ©ral. Jâai une corrĂ©lation entre ma variable A = le nombre dâheures de sport par semaine et ma variable B = le nombre de cigarettes par jour. Si A â (sport ++), alors B â (cigarette - -).
đĄAttention, la corrĂ©lation nâimplique pas la causalitĂ©.
En moyenne, si sport ++, alors cigarette - -
Mais ça ne veut pas dire que tous les sportifs ne fument pas ; ou que si je fais plus de sport alors je fumerai moins. On observe statistiquement quâil y a un lien. Ăa ne veut pas dire pour autant quâil y a un lien de cause Ă effet.
Niveau 3 - Inférentiel
On a vu tout Ă lâheure ce que câĂ©tait que âlâinfĂ©renceâ pour les statistiques.
Ă partir dâun truc que jâobserve dans une sous-population. Jâarrive Ă le gĂ©nĂ©raliser Ă la population entiĂšre avec un certain niveau de confiance.
Par exemple, 20% des Français de la base de donnĂ©es sont fumeurs. Ăa me permet de gĂ©nĂ©raliser (dâinfĂ©rer) quâon peut considĂ©rer que 20% (ou autres) de Français sont fumeurs sous certaines conditions / hypothĂšses.
Niveau 4 - Prédictif
On a déjà vu que cet aspect différenciait les statistiques et le machine learning / deep learning. On regarde les données pour analyser le passé et identifier des motifs récurrents qui vont nous aider à prédire le futur.
Par exemple, jâobserve que 100% des hommes
â (i) qui fument plus de 20 cigarettes par jour ;
â (ii) qui ont plus de 60 ans ;
â (iii) qui ont un indice IMC > 30 ;
â (iv) qui font moins de 1h de sport par semaine dĂ©veloppent un cancer des poumons.
Si je rencontre quelquâun qui remplit ces conditions, mĂȘme sâil nâappartient pas Ă ma base de donnĂ©es, je vais pouvoir lui prĂ©dire avec un bon niveau de confiance, quâil risque dâavoir un cancer des poumons.
Niveau 5 - Causal
On veut aller plus loin que les analyses de corrélation vues plus haut. On veut établir un lien de cause à effet.
Câest trĂšs fort ce genre de lien : si A se passe, quoiquâil arrive, alors ça entraĂźnera B.
Imaginons quâon arrive Ă Ă©tablir cette causalitĂ© : si tu fais plus de 5 heures de sport par semaine et que tu ne fumes pas, alors tu ne dĂ©veloppes pas de cancer du poumon.
CausalitĂ© : 5 heures de sport par semaine sans fumer => pas de cancer du poumon. Incroyable : on a un moyen quasi âinfaillibleâ de guĂ©rir le cancer du poumon.
đĄĂtablir un lien de causalitĂ© est trĂšs complexe. On a besoin de passer par des âexpĂ©riences contrĂŽlĂ©esâ avec deux populations. Une population âtĂ©moinâ qui va fumer et faire moins de 5 heures de sport par semaine. Une population âtestâ qui ne va pas fumer et faire + de 5 heures de sport par semaine.
On regarde ces deux populations puis 10 ans plus tard on regarde ce quâil s'est passĂ© :
â Est-ce quâen effet les personnes dans la population rĂ©fĂ©rence nâont pas dĂ©veloppĂ© de cancers des poumons ?
â Est-ce que les gens dans la population tĂ©moin ont dĂ©veloppĂ© des cancers des poumons ?
Ă quoi sert le groupe tĂ©moin ? Il est nĂ©cessaire car dâautres variables que lâabsence de sport et de cigarettes pourraient aussi influencer sur lâabsence de cancer. Le groupe tĂ©moin va donc nous servir Ă contrĂŽler que les seules variables quâon Ă©tudie sont lâabsence de sport et de cigarettes.
Par exemple, imaginons quâun nombre + Ă©levĂ© dâheures de sommeil par nuit rĂ©duise le risque de cancer du poumon.
Si on prend juste notre population test, et que par hasard cette population dort mieux que la moyenne. Ăa va rĂ©duire sa chance dâavoir un cancer sans que ça ait rien Ă voir avec le sport ou le nombre de cigarettes par jour.
Donc en prenant une population tĂ©moin qui ait grosso modo le mĂȘme nombre heures de sommeil, on rĂ©duit le risque de fausser lâanalyse. Si la population test dĂ©veloppe moins de cancers du poumon, ça sera bien uniquement du fait du sport / absence de cigarettes.
Niveau 6 - MĂ©canistique
On arrive sur le niveau le plus Ă©levĂ© de la pyramide. Câest le niveau 5, mais âĂ lâĂ©chelleâ. On arrive Ă identifier des liens de causalitĂ© entre plusieurs variables au sein dâun systĂšme complexe. Cela nous permet dâagir sur ces variables pour obtenir un objectif voulu.
Si on reprend mon exemple fil rouge des fumeurs :
â 1 je sais identifier des relations de causalitĂ© entre des variables et le risque de cancer des poumons
â 2 si mon objectif est de rĂ©duire le cancer des poumons, jâarrive Ă identifier des variables qui rĂ©duisent ce risque
â 3 donc je peux crĂ©er des protocoles, des mĂ©thodes, des choses Ă faire pour rĂ©duire le risque de cancer des poumons.
đ€ En pratique ce niveau est trĂšs dur Ă atteindre et je ne connais pas beaucoup dâexemples oĂč on a rĂ©ussi Ă implĂ©menter ce genre de systĂšmes.
DĂ©solĂ© câĂ©tait un peu long tous ces concepts. Mais ça va nous aider Ă bien comprendre oĂč va se localiser lâIA.
La dĂ©finition âscientifiqueâ de lâIA
Une définition basique
Dans un contexte scientifique, dans le monde de la data, lâIA correspond au fait de prĂ©dire ce quâil va se passer dans le futur, Ă partir de lâanalyse du passĂ©. Ou de prĂ©dire Ă partir de lâanalyse dâanciennes donnĂ©es, ce quâil va se passer sur de nouvelles donnĂ©es.
Dâun point de vue technique, les algorithmes qui permettent de rĂ©aliser cela sont des algorithmes dits de machine learning. Dans ces algorithmes de machine learning, on inclut Ă©galement les algorithmes de deep learning.
đĄ PrĂ©cision : un modĂšle peut ĂȘtre utilisĂ©s pour faire des statistiques, du machine learning et du deep learning.
â Le deep learning a Ă©tĂ© crĂ©Ă© de maniĂšre dĂ©connectĂ©e du machine learning. Pour autant, aujourdâhui on considĂšre que le deep learning est un sous-champ du machine learning.
â Comme on lâa vu, les stats et le machine learning diffĂšrent plus sur les objectifs et les modalitĂ©s dâusage, pas tant au niveau des modĂšles utilisĂ©s.
â Si jâutilise un modĂšle pour faire de lâinfĂ©rence, câest des stats. Si je lâutilise pour prĂ©dire le futur Ă partir du passĂ© sur un gros volume de donnĂ©es, câest du machine learning = de lâIA.
Par rapport aux niveaux dâanalyse de la data, cela correspond aux niveau 4, 5 et 6. Câest exactement lâobjet du niveau 4. Les niveau 5 et 6 vont plus loin que de la prĂ©diction parce quâils te permettent en plus de cette prĂ©diction dâinfluencer le cours des Ă©vĂ©nements. Câest encore plus puissant.
LâIA supervisĂ©e ou non supervisĂ©e ou hybride
On distingue trois grands types dâIA / machine learning.
PremiĂšrement lâIA non supervisĂ©e
Je ne sais pas ce que je veux prĂ©dire. Je vais donc fournir de la donnĂ©e au modĂšle. Puis je le laisse se dĂ©brouiller. Un modĂšle de machine learning non supervisĂ© connu est le âclusteringâ (ou regroupement).
Par exemple, je vais laisser lâalgorithme identifier si des groupes ressortent ânaturellementâ de mes fumeurs. Il va effectuer des regroupements plus ou moins comprĂ©hensibles pour nous, et qui font du sens par rapport Ă notre problĂ©matique.
Typiquement, les texans, qui ont plus de 50 ans, qui font moins de 2h de sport par semaine, ont la mĂȘme consommation de cigarettes que les Normands de moins de 30 ans, qui font plus de 3h de sport par semaine. Ils sont dans le mĂȘme âregroupementâ / cluster.
Ce qui est fort : je nâai pas donnĂ© âdâindicesâ au modĂšle. Je ne lui ai pas demandĂ© un groupe qui a plus de chance dâavoir un cancer des poumons. Câest lui qui a dĂ©couvert ça tout seul.
DeuxiĂšmement, lâIA supervisĂ©e
Pour ce genre de modĂšles, je vais dire dĂšs le dĂ©marrage Ă lâIA ce quâil doit prĂ©dire et ce sur quoi il va ĂȘtre Ă©valuĂ©.
Dans notre cas fil rouge, la variable importante serait le risque dâavoir ou non un cancer des poumons. Aussi, on va travailler pour que notre modĂšle prĂ©dise efficacement sur notre base de donnĂ©es, la probabilitĂ© dâavoir un cancer ou non.
Puis ensuite, on va lui donner de nouvelles données, et on va regarder si les prédictions sont précises / pertinentes.
â Lâavantage ? On focalise directement le travail de lâIA sur ce qui nous intĂ©resse.
â LâinconvĂ©nient ? Il faut savoir prĂ©cisĂ©ment ce quâon cherche, et pouvoir lâexpliquer par des variables dans la donnĂ©e.
đĄ Si ça nâest pas encore parfaitement clair, ne tâinquiĂšte pas, jâen parlerai plus en dĂ©tail dans la deuxiĂšme partie que je publierai la semaine prochaine.
TroisiĂšmement lâIA renforcĂ©e
Câest la solution hybride ! Entre la supervisĂ©e et la non-supervisĂ©e. En gros lâIA commence Ă prĂ©dire toute seule. Puis on lui donne des feedbacks.
â âLĂ tu tâes bien dĂ©brouillĂ©eâ
â âLĂ tu tâes moins bien dĂ©brouillĂ©eâ
Ăa permet au modĂšle dâĂȘtre plus pertinent et de se ârenforcerâ au fur et Ă mesure.
Par exemple, câest comme ça que ChatGPT est perfectionnĂ© :
â (1) On lui pose plein plein plein de questions ;
â (2) On lui fait gĂ©nĂ©rer plein plein plein de rĂ©ponses ;
â (3) On fait regarder ça Ă un humain qui dit Ă ChatGPT si les rĂ©ponses sont pertinentes ou non.
La dĂ©finition gĂ©nĂ©rale de lâIA
Quand on parle dâIntelligence Artificielle, en gĂ©nĂ©ral, on ne fait pas toujours rĂ©fĂ©rence Ă la data, aux statistiques ou au machine learning / deep learning. Quand 2001 lâOdyssĂ©e de lâEspace sort en 1968, le scĂ©nariste se faisait une idĂ©e de lâIA sans se douter de la forme que ça prendrait de nos jours.
Ainsi une dĂ©finition plus gĂ©nĂ©rale de lâIA serait un systĂšme informatique capable de reproduire des tĂąches âhumainesâ comme l'apprentissage (acquĂ©rir / appliquer des connaissances), le raisonnement (rĂ©soudre des problĂšmes), la perception (comprendre et interprĂ©ter), le langage (parler)âŠ
âAlors de lâintelligence artificielle sans machine learning câest possible ? đ€â
En thĂ©orie oui tout Ă fait ! On peut prendre lâexemple de ce quâon appelle les systĂšmes experts : on va dĂ©finir des rĂšgles mĂ©tier, avec des humains. On va intĂ©grer ces rĂšgles dans un systĂšme. Puis, le âsystĂšmeâ va pouvoir rĂ©agir tout seul. Il a de âlâintelligenceâ au sens oĂč il rĂ©agit comme un humain face Ă des situations prĂ©dĂ©finies.
Par exemple, je peux définir différentes rÚgles qui permettent de prédire le risque de cancer du poumon à partir de ma base de données. Typiquement : moins de 1h de sport / semaine ; + de 25 cigarettes / jour ; un indice IMC > 40.
Si jâenvoie un patient qui rĂ©pond Ă ces conditions, une machine pourra dire au patient quâil prĂ©sente un risque de xx% de dĂ©velopper un cancer des poumons dans les 3 ans. Presque comme un expert.
Mais en pratique, ça marche mieux quand on mélange
Le mieux câest de ne pas trop cloisonner les approches. Câest comme tout Ă lâheure, sur les aspects scientifiques : deep learning, machine learning et statistiques, bien que concurrents se sont mutuellement beaucoup nourris et faits progresser.
MĂȘme chose pour lâIA âdataâ / scientifique et lâIA âsystĂšme expertâ.
Les Ă©checs nous donnent un bon exemple de ça. Pendant longtemps, on utilisait des algorithmes type âsystĂšmes expertâ. On intĂ©grait des stratĂ©gies prĂ©-existantes comme des parties de grand maĂźtre. Et on poussait lâordinateur Ă tenter plein de coups diffĂ©rents pour trouver le coup le plus pertinent.
CâĂ©tait efficace mais ça mettait beaucoup de temps Ă calculer. Maintenant avec le deep learning, on va beaucoup plus loin que ce que permettaient ces premiers systĂšmes. Aujourdâhui, on considĂšre quâun humain ne peut plus battre aux Ă©checs un ordinateur correctement entraĂźnĂ©.
VoilĂ voilĂ , on arrive au bout de ce cours ! JâespĂšre que ça nâĂ©tait pas trop long. Si tu as trouvĂ© que câĂ©tait dense, câest normal. Beaucoup de choses thĂ©oriques. Alors nâhĂ©site pas Ă stocker quelque part le lien de ce cours pour y revenir de temps en temps.
Conclusion
Ă lundi prochain (oui jâai la chance de ne pas bosser pour la PentecĂŽte đ„ł) !
Si tu es trop impatient pour attendre, tu peux :
M'envoyer des actus, contenus ou rires qui ont animĂ© ta semaine đȘ
Me contacter pour Ă©changer sur lâIA par mail ou par message LinkedIn đȘ
M'envoyer des feedbacks sur ce numĂ©ro, positifs... ou nĂ©gatifs bien sĂ»r ! C'est comme ça qu'on progresse đȘ
Partager la newsletter Ă des personnes susceptibles d'ĂȘtre intĂ©ressĂ©es đȘ
Bon courage pour la semaine đ !