Salut Ă toi,
JâespĂšre que tout va bien.
Aujourdâhui, aprĂšs lâĂ©pisode de EasyTech #11 de la semaine derniĂšre, deuxiĂšme partie de la sĂ©rie pour dĂ©mystifier lâIA.
On va se focaliser sur les applications de lâIA et leurs enjeux.
Mais avant ça, jâaimerais quâon parle de comment on fait pour construire ces systĂšmes.
Construire un systĂšme avec de lâIA
On va voir 6 étapes pour faire ça.
1Ăšre Ă©tape : trouver un problĂšme
Câest le plus important. Le danger avec lâIA et toute nouvelle techno, câest se focaliser sur un truc qui a lâair top sur le papier⊠mais qui ne serve Ă personne.
Oui câest super dâexploiter de nouvelles technologies. Mais ça nâa dâintĂ©rĂȘt que si ça sert au plus grand nombre au final.
Donc avant de dĂ©marrer, il faut trouver le problĂšme auquel on veut sâintĂ©resser. Bien le comprendre. Avant de voir si la solution quâon veut construire peut le rĂ©soudre.
En pratique, on va Ă©changer avec des experts et des utilisateurs. Ils vont nous aider Ă trouver les sujets les plus pertinents.
2Úme étape : récupérer et travailler la donnée
PremiÚrement il faut de la donnée en quantité
Câest important car la plupart des cas dâusage IA requiĂšrent une grosse quantitĂ© de donnĂ©es. On en a parlĂ© dans lâĂ©dition prĂ©cĂ©dente. Le deep learning ou machine learning sont trĂšs gourmands en data. đ
En pratique :
â soit on a dĂ©jĂ une grosse base de donnĂ©es ;
â soit on met en place des protocoles pour en gĂ©nĂ©rer ;
â soit on adopte une solution intermĂ©diaire, on mĂ©lange des bases de donnĂ©es pour obtenir Ă partir de petites bases, une grosse base au final.
DeuxiÚmement il faut de la donnée de qualité
Tout lâenjeu de lâIA câest de prĂ©dire ce quâil va se passer sur de nouvelles donnĂ©es, Ă partir de donnĂ©es anciennes. Si lâimage quâon a du passĂ©, Ă partir de ces donnĂ©es anciennes, est faussĂ©e par des Ă©lĂ©ments inexacts. Les traitements futurs vont ĂȘtre inexacts Ă©galement.
En pratique, on Ă©change encore avec les experts mĂ©tier pour repĂ©rer des trucs Ă©tranges dans les donnĂ©es avec quelques analyses descriptives (moyenne, visualisations simples). Il y a aussi certains problĂšmes de qualitĂ© quâon retrouve de maniĂšre rĂ©currente et classique.
đĄ Attention, dĂšs ce stade, si jamais la qualitĂ© de la donnĂ©e est trop dĂ©gradĂ©e, ça peut ĂȘtre une raison de ne pas aller plus loin ou en tout cas ne pas tenter tout de suite de faire de lâIA.
TroisiÚmement il faut préparer cette donnée
Câest ce quâon appelle le âfeature engineeringâ. Ăa va revenir Ă mettre en beautĂ© notre base de donnĂ©es pour ĂȘtre sĂ»r quâelle soit prĂȘte Ă ĂȘtre exploitĂ©e par lâalgo !
On va notamment combiner et mĂ©langer des variables. Typiquement la semaine derniĂšre, on parlait dâune base de donnĂ©es de fumeurs. On se disait que câĂ©tait pas mal dâavoir lâindice IMC plutĂŽt que le poids et la taille. Câest ça du feature engineering.
3Úme étape : reformuler le problÚme dans le monde de la donnée
On a trouvĂ© un problĂšme mĂ©tier et on a de la donnĂ©e de pas trop mauvaise qualitĂ© et en quantitĂ©. Ă ce stade, on va se focaliser sur ce quâon veut prĂ©dire.
Donc on se pose toujours la question du âproblĂšme Ă rĂ©soudreâ. Mais attention ici, on est dans le monde de la data, plus dans le monde mĂ©tier.
Premier cas de figure, je sais ce que je veux prédire = IA supervisée
On est capable de donner la bonne rĂ©ponse Ă lâIA. On va lui expliquer quel est le rĂ©sultat quâon veut atteindre au final.
Dans ce cas, on a ensuite deux sous-cas de figure.
Quand on veut prĂ©dire une valeur âdiscrĂšteâ, on parle de classification
Attention rien Ă voir au fait dâĂȘtre âdiscretâ = ne pas faire de bruit. Quand on parle de discret en mathĂ©matiques, ça veut dire quâon attend quâelle prĂ©dise un rĂ©sultat au sein dâun ensemble âfiniâ de nombres.
Par exemple, si je veux prĂ©dire le nombre de paquets de cigarette par jour fumĂ©s par quelquâun, ce nombre de cigarettes par jour appartient Ă un ensemble fini de nombres = 0,1,2,3,4,5⊠ça peut pas ĂȘtre infini le nombre de cigarettes quâon fume par jour !
Quand on veut prĂ©dire une valeur âcontinueâ, on parle de rĂ©gression
Dans ce cas de figure, on attend de lâIA quâelle prĂ©dise une infinitĂ© de valeurs.
Par exemple, la probabilitĂ© en pourcentage quâun homme dĂ©veloppe un cancer du poumon peut valoir une infinitĂ© de choses entre 0% et 1 = 100%. 94,7778% ou 71,235% etcâŠ
DeuxiÚme cas de figure, je ne sais pas ce que je veux prédire = IA non supervisée
Dans ce cas on donne juste des donnĂ©es Ă lâIA et on la laisse se dĂ©brouiller !
Par exemple, si je lui donne la base de donnĂ©es avec les fumeurs de la semaine derniĂšre ; au lieu de se focaliser sur la probabilitĂ© de dĂ©velopper un cancer du poumon, on va juste regarder si lâIA trouve des regroupements intĂ©ressants au sein de la base de donnĂ©es.
Je passe rapidement parce quâon en a dĂ©jĂ parlĂ© la semaine derniĂšre (tu peux retrouver ça ici).
4Ăšme Ă©tape : entraĂźner le modĂšle
â ïž Cette 4Ăšme Ă©tape est fondamentale pour bien comprendre le rĂŽle de lâIA.
En fait, on ne peut pas direct lancer lâIA dans la nature. On a besoin de la prĂ©parer.
Pour faire ça, on procÚde en 2 phases :
Dâabord la phase dâentraĂźnement, jâentraĂźne mon algorithme sur une partie de ma base de donnĂ©es.
Ăa me permet de lâobserver, dâaffiner ses performances et de le prĂ©parer Ă une utilisation âen vraiâ.
Par exemple, si je veux prĂ©dire la probabilitĂ© de cancer des poumons, jâessaye de construire le bon modĂšle pour prĂ©dire cette probabilitĂ© Ă partir de mes donnĂ©es, en montrant Ă lâIA la bonne rĂ©ponse attendue : tel individu avec telles caractĂ©ristiques a une probabilitĂ© de 97%, tel autre 18% etcâŠ
Ensuite la phase de test, je regarde ce que ça donne avec de nouvelles données sans donner la bonne réponse auparavant.
En pratique, je vais tester le modĂšle obtenu dans la phase dâentraĂźnement sur le reste de ma base de donnĂ©es.
Donc je vais donner une autre partie de ma base de donnĂ©es Ă lâIA, et regarder quelle est la probabilitĂ© quâil calcule sur cette partie de la base ! Cette fois je cache la bonne rĂ©ponse Ă lâIA⊠ça serait trop facile sinon : pour un individu avec certaines caractĂ©ristiques, dont la probabilitĂ© dâavoir un cancer du poumon Ă©tait de 82%, quelle probabilitĂ© donne lâalgorithme ?
En regardant les prĂ©dictions rĂ©alisĂ©es par lâIA sur la donnĂ©e de test, ça me permet de voir comment lâalgorithme va se comporter âdans la vraie vieâ et dâanticiper ses performances.
5Úme étape : itérer pour améliorer les performances
Une fois quâon a un modĂšle qui possĂšde de bonnes performances en entraĂźnement / test, ça nâest pas fini. On va commencer Ă lâutiliser sur des vraies donnĂ©es et on va itĂ©rer pour lâamĂ©liorer.
PremiĂšrement, itĂ©rations sur lâalgorithme
Lâalgorithme IA sort de la phase de test avec une performance quâon peut amĂ©liorer.
Donc on va poursuivre nos investigations pour le rendre encore plus efficace. Par exemple en regardant dans la littérature scientifique si des modÚles sont mis en avant pour notre problÚme spécifique.
DeuxiÚmement, itérations sur la data
On veut améliorer la quantité / qualité de data, donc :
â On va collecter plus de donnĂ©e pour faire grossir nos bases
â On va aussi amĂ©liorer en continu la qualitĂ© de nos bases pour que cette qualitĂ© soit la plus Ă©levĂ©e possible
TroisiÚmement, itérations métier
On veut prendre du feedback des utilisateurs !
Il y a de lâIA, mais ça reste un produit digital. On va pas se priver de faire du Product Management. Donc on va rĂ©guliĂšrement montrer notre produit aux utilisateurs pour lâamĂ©liorer de maniĂšre incrĂ©mentale.
Comme toujours, le produit est utile⊠sâil est utilisĂ© ! Donc on essaye dâamĂ©liorer lâexpĂ©rience utilisateur et de rĂ©soudre de la meilleure des maniĂšres le problĂšme identifiĂ©.
6Úme étape : déployer et continuer à surveiller
à un moment, on est satisfait des résultats atteints par le modÚle. On peut donc déployer plus largement notre logiciel.
Pour autant, ça nâest pas parce quâon le dĂ©ploie que c'est fini ! Parce que dĂ©ployer câest plus facile Ă dire quâĂ faire.
Quand on bosse dans lâinformatique, on le sait : la partie dĂ©ploiement nâest jamais Ă©vidente. Il y a toujours des problĂšmes qui nâarrivent que lorsquâon se lance. Il faut faire un saut dans le vide en quelque sorte.
Le DevOps permet de gérer ces problématiques dans le logiciel en général. Mais on a bien vu que pour des systÚmes IA, avec beaucoup de data, on ajoute un degré de complexité supplémentaire. Il y a donc tout un champ du DevOps dédié aux systÚmes IA / Machine learning, on appelle ça le ML Ops (Machine Learning Ops).
đĄ 5 points dâattention ML Ops
â DĂ©finir en amont des indicateurs de succĂšs
â Anticiper les besoins en puissance de calcul
â Faire attention aux biais Ă©ventuels
â Tracer les choix d'algos structurants
â Mettre dans la boucle les Ops dĂšs le dĂ©but
Enfin, une fois dĂ©ployĂ©, on continue Ă âsurveillerâ rĂ©guliĂšrement que tout se passe bien. On le fait avec des logiciels classiques, on le fait aussi avec ceux utilisant de lâIA.
Les cas dâusage majeurs de lâIA
On vient de voir comment construire un systĂšme avec de lâIA.
Maintenant on va sâintĂ©resser Ă plusieurs champs dâapplication de lâIA, en particulier ceux dont on parle le plus aujourdâhui.
1 - Le traitement du langage
Câest LE domaine Ă la mode. Il a Ă©tĂ© mis en lumiĂšre par ChatGPT rĂ©cemment.
Comme souvent avec lâIA, on va distinguer :
â Une partie analytique = jâanalyse un texte
â Une partie gĂ©nĂ©rative = je crĂ©e un texte
Pourquoi câest rĂ©volutionnaire ?
Deux raisons permettent dâexpliquer tout cet engouement.
Dâune part, on commence Ă toucher du doigt lâIntelligence Artificielle, câest Ă dire faire des trucs âcomme un humainâ !
Et le langage, câest une des caractĂ©ristiques les plus importantes des humains. Donc quand un ordinateur arrive trĂšs bien Ă imiter lâhomme sur ces aspects, câen est dâautant plus impressionnant.
Dâautre part, parce que lâefficacitĂ© des modĂšles rĂ©cents est sans prĂ©cĂ©dent.
Auparavant, on avait des chatbots dĂ©ployĂ©s sur des sites. Mais on voyait bien que ça nâĂ©tait pas hyper efficace, ou en tout cas, ça ne rivalisait pas du tout avec un humain.
Depuis quelques mois, un ChatGPT permet quasiment dâavoir une conversation ânormaleâ avec une autre personne. Câest LE chatbot ultime.
Cas dâapplications connus
Au-delĂ de ChatGPT dont tout le monde entend parler, voici deux cas dâapplications connus du traitement du langage.
â Analyser les commentaires des clients sur Amazon
Aujourdâhui on utilise beaucoup lâe-commerce pour faire nos achats. Mais en gĂ©nĂ©ral, on va toujours pas mal regarder les commentaires avant de faire un achat. Ăa nous sĂ©curise đ Câest aussi le cas pour les restaurants sur Google Maps. On va regarder les notes et les avis des prĂ©cĂ©dents consommateurs.
Or, pour plein dâentreprises, comme LâOrĂ©al par exemple, câest trĂšs utile tous ces commentaires. Câest un peu du feedback direct des consommateurs.
Si les commentaires sur un rouge Ă lĂšvre que tu vends mettent en avant âsa brillanceâ, âsa couleurâ, âsa tenueâ, alors câest positif.
Inversement, si les commentaires sur un parfum disent quâil sent mauvais, alors câest nĂ©gatif et important de le prendre en compte rapidement.
Mais il y a beaucoup de commentaires ! Des centaines pour un produit donnĂ©. Alors comment on fait pour analyser tous ces feedbacks⊠? LâIA pardi.
Plus prĂ©cisĂ©ment, lâIA va nous permettre deux choses :
Identifier des morceaux de phrases qui parlent dâun sujet donnĂ©
Identifier si le ton est positif ou négatif
Par exemple, sur le commentaire suivant : âjâai Ă©tĂ© globalement trĂšs déçu par ce rouge Ă lĂšvres. Je pensais que la brillance serait meilleure, par contre la tenue nâĂ©tait pas si mal.â
On veut que lâalgorithme fasse les analyses suivantes :
Identifier quâil y a 3 sujets diffĂ©rents abordĂ©s (1) déçu ; (2) brillance ; (3) tenue
Identifier que pour
(1) câest trĂšs nĂ©gatif : âdéçuâ + âtrĂšsâ ;
(2) câest nĂ©gatif : je pensais que ça serait mieux, mais sans dire que câest catastrophique ;
(3) câest un peu positif : avec une aide pour lâalgo = âpar contreâ, un indice pour quâil voie quâon passe du nĂ©gatif au positif, avec un piĂšge pour lâalgo = âpas si malâ, mĂȘme sâil y a une nĂ©gation, ça reste un terme Ă interprĂ©ter de maniĂšre positive.
Chez LâOrĂ©al câest dâailleurs un cas dâusage qui sâappelle âConsumer Loopâ sur lequel on a travaillĂ© : plus de dĂ©tails ici.
â Identifier les tendances
Sur le web il y a beaucoup de contenu.
Par contre tout le contenu nâest pas produit au mĂȘme moment. Ni Ă la mĂȘme frĂ©quence.
Il y a des âtendancesâ.
Par exemple, au cours de lâannĂ©e 2019 et 2020, on a vu apparaĂźtre de nouvelles tendances dans notre vocabulaire : des nouveaux mots comme âcovid 19â et des mots qui sont devenus trĂšs trĂšs Ă la mode comme âmasqueâ ou âvaccinâ.
Analyser ces informations est trĂšs puissant parce que ça te permet dâidentifier les tendances sociĂ©tales. Câest Ă dire ce qui arrive et ce qui se dĂ©veloppe dans la sociĂ©tĂ©.
LâIA va nous permettre de faire cela. En analysant les tendances du passĂ© et la maniĂšre dont celle-ci vont se dĂ©velopper, on peut dĂ©velopper des modĂšles pour prĂ©dire les tendances qui vont exploser dans les prochaines semaines / mois.
Chez LâOrĂ©al câest encore un cas dâusage qui sâappelle âTrendSpotterâ sur lequel on a beaucoup bossĂ© : plus de dĂ©tails ici.
Logiciels pour essayer Ă la maison
â DeepL, un logiciel pour faire des traductions super rapides. Tu lâinstalles sur ton ordinateur, ensuite tu as un raccourci clavier âcontrĂŽle câ deux fois pour traduire une phrase.
â ChatGPT, Ă©videmment, il y a pas mal de rĂšgles pour correctement lâutiliser, je trouve que ce post de Brice Trophardy contient les bons basiques pour lâutiliser. Mais le plus important câest que vous alliez vous faire votre idĂ©e tous seuls.
2 - Le traitement de lâimage
Câest LE domaine historique sur lequel lâIA sâest fait connaĂźtre. Lâanalyse dâimage avec les rĂ©seaux neuronaux a Ă©tĂ© un des aspects qui a le plus impressionnĂ© le grand public. Pareil que pour le langage, on a le cĂŽtĂ© analytique (jâanalyse une image) et gĂ©nĂ©ratif (je gĂ©nĂšre une image).
Pourquoi câest rĂ©volutionnaire ?
Câest proche du langage.
PremiĂšrement, Ă©videmment, parce que la vision, câest une caractĂ©ristique hyper âhumaineâ. Donc une IA qui est trĂšs efficace pour traiter de lâimage nous rapproche de plus en plus dâune vraie âintelligence artificielleâ.
DeuxiĂšmement, parce que derriĂšre lâanalyse ou la gĂ©nĂ©ration dâimages, on se rapproche de sujets trĂšs crĂ©atifs. Par exemple les IA qui gĂ©nĂšrent des images rĂ©alisent des choses quâon pensait rĂ©servĂ©es Ă lâhomme comme lâart.
Cas dâapplication connus :
â La Reconnaissance faciale sur nos tĂ©lĂ©phones
Sur ton iPhone, quand tu le dĂ©verrouilles en montrant ta tĂȘte, câest un systĂšme dâIA de traitement de lâimage qui tâaide Ă le dĂ©bloquer.
De maniĂšre simplifiĂ©e, lâalgorithme prend en entrĂ©e une âphotoâ de toi, quand tu regardes lâappareil. Puis il va comparer cette photo avec celles de toi quâil a dans sa base de donnĂ©es. Ensuite, il mesure lâĂ©cart entre la nouvelle photo et les anciennes photos dont il dispose. Si lâĂ©cart est suffisamment faible, câest bon !
Dans ce cas, lâIA a Ă©tĂ© âentraĂźnĂ©eâ deux fois :
Une premiĂšre fois en usine, avec plein plein plein de photos, pour lui expliquer comment reconnaĂźtre une photo dâune autre, on lâa entraĂźnĂ©e, on a itĂ©rĂ© pour lâamĂ©liorer etc⊠(les Ă©tapes de 1â5)
Une deuxiĂšme fois dans la vraie vie avec quelques photos de toi, pour comprendre les caractĂ©ristiques de ton visage etcâŠ
Câest Ă partir de la combinaison de ces deux ensembles de donnĂ©es dâentraĂźnement que le modĂšle arrive Ă ĂȘtre performant.
â AmĂ©lioration dâune photo de mauvaise qualitĂ©
On va pouvoir utiliser lâIA pour augmenter le nombre de pixels sur une photo
LâIA va passer sur chaque mini pixel de la photo initiale, et le subdiviser en dâautres pixels ! Lâavantage, ça permet de rajouter beaucoup de pixels et donc la photo est de meilleure qualitĂ© (elle nâest plus âpixellisĂ©eâ). Câest pas forcĂ©ment parfait, comme on le voit en-dessous :
Les paupiĂšres font un peu âfakeâ
On perd un peu en relief sur la peau en général
Les couleurs ont lâair un peu artificielles
Mais câest quand mĂȘme impressionnant, notamment parce que câest bien plus net Ă droite quâĂ gauche.
Logiciels pour essayer Ă la maison :
â Un outil gratuit et sympa pour faire un diagnostic de peau quâon a dĂ©veloppĂ© chez LâOrĂ©al.
â Lâoutil Remini (que jâai utilisĂ© pour amĂ©liorer la qualitĂ© de ma vieille photo
â Midjourney pour crĂ©er des images Ă partir de descriptions simples
3 - Le traitement de lâaudio
Câest un champ un peu moins Ă la mode que le traitement de lâimage et du langage. Pourtant, il est dĂ©jĂ performant sur plusieurs tĂąches depuis quelques annĂ©es.
Pourquoi câest rĂ©volutionnaire ?
Encore une fois, on fait face Ă des systĂšmes informatiques qui commencent Ă rĂ©aliser des fonctions cognitives âhumainesâ. Câest ce qui rend tout ça trĂšs impressionnant.
En plus, quand on combine ces diffĂ©rentes capacitĂ©s, on commence Ă avoir des systĂšmes trĂšs complets. Typiquement en combinant ce quâon vient de voir, tu peux avoir une discussion orale avec un produit IA.
Tu lui dis une phrase puis :
â 1 traitement de lâaudio, la phrase est re-transcrite
â 2 traitement du langage, la phrase est analysĂ©e
â 3 traitement du langage, une rĂ©ponse est gĂ©nĂ©rĂ©e
â 4 traitement de lâaudio, une voix âartificielleâ donne la rĂ©ponse orale
Cas dâapplication connus :
â Les commentaires automatiques
Câest trĂšs trĂšs pratique, et beaucoup plus rapide que le faire Ă la main !! Avant câest ce quâon faisait. Oui câĂ©tait long, pas agrĂ©able et pas facileâŠ
DâaprĂšs mes derniĂšres observations, sur YouTube par exemple, lâIA galĂ©rait sur trois types de mots Ă retranscrire :
Les noms propres,
Les sigles comme la DGFiP, lâARCEP ou les PMEs
Le franglais, câest Ă dire que quand le speaker fait 99% de sa prise de parole avec des mots français et quâil inclut de lâanglais, lâalgorithme est un peu perdu
Mais ça reste tout de mĂȘme un vrai âgame-changerâ.
â Un logiciel qui arrive Ă gĂ©nĂ©rer une voix Ă lâidentique
LâIA va prendre en entrĂ©e des morceaux audio de ta voix ou dâune voix. Et ça va ensuite lui permettre de produire nâimporte quel son comme si câĂ©tait cette voix qui lâavait vraiment dit.
Câest dingue parce que pour faire ce genre de trucs avant, il fallait rĂ©cupĂ©rer des petits morceaux de mots / voyelles, les isoler, puis les recombiner pour crĂ©er des phrases artificielles.
LĂ câest fou, tu nâas pas besoin dâavoir tous les sons possibles et imaginables. LâIA va le crĂ©er ça Ă partir dâun petit Ă©chantillon.
Mais attention, câest Ă©videmment dangereux.
Typiquement tu pourrais combiner le traitement de lâimage et du son pour gĂ©nĂ©rer une vidĂ©o de Trump qui dit quâil va lancer une bombe atomique sur la CorĂ©e du Nord⊠tu peux dĂ©clencher une 3Ăšme Guerre Mondiale avec moins que ça.
Logiciels pour essayer Ă la maison
â Faire composer de la musique par une IA sur SoundRaw : pas grave si tu nâas pas lâoreille absolue
â Siri sur ton smartphone, iPhone, Android etcâŠ
4 - lâIA gĂ©nĂ©rative dans tout ça ?
On a vu lâIA gĂ©nĂ©rative en filigrane. Comme dit au-dessus, pour chaque grand type de cas dâusage, il y a une partie analytique (je comprends), une partie gĂ©nĂ©rative (je crĂ©e).
Donc quand on parle dâIA gĂ©nĂ©rative câest le regroupement de la partie âgĂ©nĂ©rativeâ de ces diffĂ©rents cas dâusage, câest Ă dire des systĂšmes IA qui gĂ©nĂšrent du texte, des images / vidĂ©os ou des sons.
5 - Les use cases classiques
Dernier point important ! Ce sont des cas dâusage un peu moins âimpressionnantsâ que les trois premiers mais tout aussi efficaces. Ce que jâappelle âuse case classiqueâ, ça va revenir Ă faire du Machine Learning âclassiqueâ. On va disposer dâune base de donnĂ©es et on va essayer de prĂ©dire des choses Ă partir de ce quâil y a dans la data.
Pour les use cases 1,2 et 3, on a toujours une forme de âstatistiqueâ : par exemple, lâordinateur modĂ©lise le texte comme de la donnĂ©e et ensuite effectue des prĂ©dictions dessus. Mais dans ces cas dâusage lĂ , on va travailler sur de la donnĂ©e qui a une forme plus âclassiqueâ. Qui âressembleâ Ă un tableau Excel, et pas une banque dâimages ou des fichiers audio.
Pourquoi câest rĂ©volutionnaire ?
Comme tout systĂšme IA, sa puissance rĂ©side dans le fait de pouvoir extrapoler le comportement de nouvelles donnĂ©es Ă partir dâun entraĂźnement sur des donnĂ©es passĂ©es.
Prenons lâexemple des embouteillages sur la route. Mon objectif va ĂȘtre dâidentifier le moment le plus propice pour partir en vacances et Ă©viter les bouchons. Pour faire ça, câest Ă©videmment utile dâavoir des donnĂ©es du passĂ©. Câest Ă dire, lâaffluence sur les routes les annĂ©es prĂ©cĂ©dentes.
Pour autant juste le passé est insuffisant :
â On ne sait pas ce qui influence vraiment les bouchons
â On ne sait pas forcĂ©ment quelle dĂ©cision prendre ensuite
LâIA justement va permettre ça :
â Une analyse poussĂ©e des diffĂ©rentes variables dans les donnĂ©es du passĂ© pour sĂ©lectionner celles qui influencent le plus la durĂ©e de trajet
â Une vraie aide Ă la dĂ©cision qui permette Ă lâautomobiliste de voir ce qui est le plus optimisĂ© pour lui
Cas dâapplication connus :
â La prĂ©diction du trafic
On reprend cet exemple. On veut trouver le meilleur moment pour avoir un trajet optimal et rapide.
Mais câest pas si facile que ça dâanticiper du jour pour le lendemain, voire du matin pour lâaprĂšs-midi, les embouteillages quâil va y voir.
MĂȘme si on a accĂšs Ă plein de donnĂ©es âhistoriquesâ, ça dĂ©pend de plein de choses :
Les vacances des diffĂ©rentes zones (si ce nâest pas les vacances dâĂ©tĂ© / NoĂ«l)
Le moment oĂč les gens ont posĂ© leurs congĂ©s (juillettiste versus aoutien)
La destination de voyage choisis par les gens (Normandie, Bretagne, le Nord ou le Sud đ€)
LâIA va nous aider de deux maniĂšres :
PremiĂšrement identifier les jours avec fort risque dâembouteillages.
Si on a des donnĂ©es historiques, on va pouvoir identifier ce qui influence sur le nombre de voitures Ă un endroit donnĂ© Ă une heure donnĂ©e. On sera pas prĂ©cis Ă 100%. Mais probablement que le dernier week-end de juillet, vers 12h, il y a beaucoup de parisiens qui vont se retrouver vers Lyon. Ce qui permet dâanticiper quâil devrait y avoir quelques bouchons autour de lâagglomĂ©ration lyonnaise.
DeuxiÚmement, identifier comment un niveau de bouchons à un moment donné va se répercuter.
Câest ce qui est trĂšs puissant aujourdâhui avec les GPS quâon a dans nos voitures.
En voyant quâil y a XX voitures Ă un endroit Ă une heure de la journĂ©e, on peut anticiper oĂč elles seront plus tard (en fonction de leur vitesse et de la probabilitĂ© quâelles prennent une autre direction).
â La maintenance prĂ©dictive
Câest un cas dâusage âclassiqueâ mais trĂšs puissant pour utiliser lâIA dans le monde de lâindustrie.
LâidĂ©e sous-jacente, câest que les piĂšces dâun systĂšme industriel, une voiture, un train ou une usine, sâabĂźment au cours du temps.
Or il y a une asymétrie entre :
Le faible coût de remplacer une piÚce qui est presque cassée
Le coĂ»t trĂšs important de la remplacer une fois quâelle est cassĂ©e et que donc elle empĂȘche une voiture, un train ou une usine de bien fonctionner
Mais une fois quâon a dit ça, câest pas pour autant rĂ©glĂ© comme problĂšme parce quâon a toujours tendance Ă procrastiner, Ă attendre le dernier moment.
La maintenance prédictive va nous aider à trouver le bon moment, donc :
Pas trop en avance, quand la piĂšce pourrait continuer Ă fonctionner longtemps
Pas trop en retard, avec le risque que la piĂšce casse et empĂȘche le systĂšme de fonctionner correctement
Grosso modo, en fonction des piĂšces dont tu disposes et de la durĂ©e depuis laquelle elles sont installĂ©es, un algorithme saura tâaider Ă prĂ©voir le moment oĂč celles-ci ont une probabilitĂ© importante de casser. Donc le moment oĂč il faut les remplacer.
Logiciels pour essayer Ă la maison
â Les moteurs de recommandation comme celui de Netflix. Câest bien de lâIA derriĂšre ! En fonction des films que tu as regardĂ©s historiquement et des films regardĂ©s par tous les gens sur la plateforme⊠Netflix te suggĂšre des films qui pourraient te plaire.
â Les moteurs de recherche comme Google, lĂ aussi il y a derriĂšre un algorithme qui essaye dâidentifier les sites qui sont les plus pertinents pour rĂ©pondre Ă ce que tu as Ă©crit dans la barre de recherche.
Bon on vient de le voir, lâIA câest gĂ©nial, rĂ©volutionnaire et impressionnant. Pour autant, attention, tout nâest pas rose. Pour toute techno, il y a des dĂ©fis et des challenges auxquels faire attention. Donc en particulier sur ces sujets âdâintelligence artificielleâ.
Les dĂ©fis de lâIA
Les défis techniques
Comme toute technologie, lâIA est encore perfectible. Elle peut sâamĂ©liorer sur diffĂ©rents aspects.
De meilleures performance
Câest le premier point, le plus fondamental je pense. Ă partir du moment oĂč on gĂ©nĂ©ralise de plus en plus les cas dâusage, on va avoir besoin de modĂšles de plus en plus prĂ©cis et performants.
Par exemple, si on utilise des modĂšles pour aider des mĂ©decins Ă faire des diagnostics plus rapides, câest vital (au sens propre du terme) de disposer dâalgorithmes qui soient trĂšs performants et ne se trompent pas.
Une meilleure expérience utilisateur
Ce qui explique le grand grand succÚs de ChatGPT : son expérience utilisateur trÚs trÚs simple.
Mais mĂȘme un outil avec une UX aussi simple peut encore progresser !
Ne serait-ce que parce que ça nâest pas si facile que ça de comprendre la logique des âpromptsâ = les minis bouts de phrase quâon Ă©crit pour poser une question Ă ChatGPT.
Le multi-modal
Aujourdâhui les systĂšmes sont trĂšs performants sur UN cas dâusage donnĂ© : traitement de lâaudio, traitement du langage etcâŠ
Câest une premiĂšre Ă©tape de maturitĂ© trĂšs importante !
En revanche, on ne dispose pas encore dâoutil pour mĂ©langer les approches, il faut souvent âbrancher les trucs Ă la mainâ. Par exemple ChatGPT ne gĂ©nĂšre aujourdâhui que du texte, et pas encore dâimage.
Câest ce quâon appelle la âmulti-modalitĂ©â ou le âmulti-modalâ.
Dans le futur, des outils plus gĂ©nĂ©ralistes, combinant plusieurs cas dâusage vont certainement Ă©merger.
Les défis éthiques
Ici jâentends le mot Ă©thique comme : âdans ce que ça implique dans les relations humainesâ.
Lâhomme augmentĂ©, jusquâĂ oĂč ?
Ăa fait longtemps quâon rĂȘve dâun âhomme augmentĂ©â grĂące Ă la technologie. Homme augmentĂ© au sens : qui est plus performant grĂące Ă la technologie.
Et lâIA apparaĂźt comme une techno pertinente pour faire ça.
On a bien vu ça avec ChatGPT et les problĂšmes de triche Ă lâĂ©cole. Les Ă©lĂšves sont âaugmentĂ©sâ par ce genre dâoutils.
Ce qui pose deux questions :
â Comment empĂȘcher la triche ?
Le problĂšme dans lâutilisation de ces outils est que la concurrence nâest pas Ă©gale entre les diffĂ©rents concurrents. Ăvidemment chacun a des capacitĂ©s intellectuelles diffĂ©rentes, mais en termes dâoutils, lâĂ©cole essaye dâassurer Ă peu prĂšs que ça soit Ă©quitable et Ă©quilibrĂ©.
Or avec une technologie aussi prĂ©cise, les Ă©carts sont trop importants. Câest comme en cyclisme la diffĂ©rence entre avoir un vĂ©lo plus lĂ©ger (â triche) et se doper (= triche).
â Comment valoriser en parallĂšle la maĂźtrise de ces technologies ?
Câest important que lâĂ©cole ne rejette pas en bloc ce sujet. Pour la simple et bonne raison que les Ă©lĂšves seront amenĂ©s Ă les manipuler dâune maniĂšre ou dâune autre.
Autant essayer de leur donner des bonnes pratiques, encadrer leur usage et ĂȘtre proactif pour Ă©viter de les subir.
Ces bonnes pratiques sont aussi importantes parce quâon a vu que des technologies aussi perfectionnĂ©es que ChatGPT ou MidJourney se trompent parfois. Il faut donc donne Ă chacun des clĂ©s de lecture minimales pour Ă©viter de se faire avoir par ça.
Lâhomme remplacĂ©, jusquâĂ oĂč ?
Ce nâest pas un dĂ©bat qui nâa pas attendu lâIntelligence Artificielle et la deuxiĂšme moitiĂ© du XXĂšme siĂšcle. Depuis toujours, la technologie a Ă©tĂ© utilisĂ©e pour âremplacerâ en partie ou totalement lâhomme dans son travail.
Avec un double mouvement :
â Des boulots en moins
Par exemple quand les moissonneuse-batteuse sont inventĂ©s, câest devenu plus facile de faire les moissons. Avant pour moissonner un champ, il fallait une dizaine de personnes pendant plusieurs jours.
Maintenant, on a juste une personne qui conduit une moissonneuse batteuse quelques heures.
Bref, on passe dâune dizaine de personnes plusieurs jours Ă une personne quelques heures. Câest du boulot en moins.
â Des nouveaux boulots plus spĂ©cialisĂ©s
La technologie ne fait pas que dĂ©truire les emplois, elle en crĂ©e de nouveaux, souvent plus spĂ©cialisĂ©s. Piloter une moissonneuse-batteuse câest plus difficile que rĂ©colter du blĂ© âĂ lâancienneâ.
Le pilote en question doit ĂȘtre probablement davantage formĂ© et par exemple avoir des bases en mĂ©canique.
La technologie permet souvent de rĂ©duire les tĂąches pĂ©nibles. On imagine bien que câest moins traumatisant pour son corps de faire quelques heures dans une moissonneuse-batteuse par rapport Ă une semaine courbĂ©e dans un champ en plein soleil.
Mais des questions subsistent.
â Que fait-on des emplois supprimĂ©s ? Câest Ă dire des personnes qui aidaient Ă faire la moisson auparavant
â Est-ce vraiment positif de ne plus faire AUCUNE tĂąche pĂ©nible ? Oui câest agrĂ©able dâĂȘtre plus performant / efficace, mais on devient prisonnier de la technologie.
Par exemple les gens sâorientent beaucoup mieux avec des GPS, mais le jour oĂč tu nâas plus de batterie sur ton portable, tu ne sais plus comment te diriger.
Lâhomme utilisĂ©, jusquâĂ oĂč ?
Paradoxalement, mĂȘme si les systĂšmes IA rĂ©duisent des tĂąches pĂ©nibles, on a souvent besoin pour les faire fonctionner de faire effectuer Ă des gens des tĂąches pĂ©nibles.
â Premier exemple la labellisation des donnĂ©es
On a vu que les systĂšmes IA âsupervisĂ©sâ apprenaient âla bonne rĂ©ponseâ sur un premier ensemble de donnĂ©es. Pour ensuite pouvoir identifier elles-mĂȘmes cette bonne rĂ©ponse sur de nouveaux ensembles de donnĂ©es.
Mais qui dĂ©finit ce qui est une âbonne rĂ©ponseâ sur le premier ensemble ? On nâa pas encore dâalgorithme qui puisse le faire. Ce sont donc des humains qui vont sâen charger.
Typiquement si je veux apprendre Ă un algorithme de deep learning Ă reconnaĂźtre des photos de chat de maniĂšre supervisĂ©e. Je vais lui montrer des milliers de photos, parfois avec des chats, parfois sans chat. Pour ça, il faut bien quâun humain ait dit un jour ou lâautre âvoici une photo avec un chat / voici une photo sans chatâ.
Câest un travail assez abrutissant et pĂ©nible que de âlabeliserâ '(Ă©tiquetter) une quantitĂ© significative de donnĂ©es.
â DeuxiĂšme exemple lâapprentissage par renforcement
On en a entendu parler sur ChatGPT, notamment avec cet article du Times qui a eu pas mal de résonance.
Pour le rĂ©sumer rapidement, on a payĂ© des kenyans une misĂšre (~1$ par jour), Ă bosser des dizaines dâheures par jour, pour sâassurer que ChatGPT Ă©tait bien politiquement correct.
Ăa veut donc dire quâon a demandĂ© Ă des personnes de regarder des textes pornographique, choquant ou violent afin quâils puissent apprendre Ă ChatGPT Ă ne pas aller sur ce genre de terrains.
Je ne trouve pas ça tip top dâun point de vue Ă©thique.
Les défis environnementaux
Dernier champ de défis, probablement parmi les plus importants.
Les Ă©missions carbone
Les modĂšles IA sont trĂšs Ă©metteurs pour deux principales raisons.
â Le calcul
Des systÚmes comme ChatGPT embarquent des modÚles trÚs complexes, des modÚles de deep learning avec des millions de neurones imbriqués. Cela entraßne des besoins en calcul avec des ordinateurs trÚs trÚs importants.
MĂȘme si on ne le voit pas quand on utilise ces outils, il y a beaucoup de serveurs / dâordinateurs qui fonctionnent derriĂšre, et qui consomment de lâĂ©lectricitĂ©. Pour produire cette Ă©lectricitĂ©, on consomme du CO2 (dans une trĂšs large majoritĂ© de cas).
â Le stockage
Pour faire fonctionner les systÚmes IA, on a besoin de beaucoup de données.
Or stocker cette donnĂ©e reprĂ©sente Ă©galement une consommation importante en CO2. MĂȘme si on a lâimpression quâil nây a plus de stockage physique parce que tout est sur le Cloud !
Parce que derriĂšre le Cloud, il y a des vrai serveurs / ordinateurs de stockage qui tournent.
Et ces serveurs ont besoin dâĂ©lectricitĂ© pour stocker toutes les donnĂ©es nĂ©cessaires au bon entraĂźnement / fonctionnement de lâIA.
Les ressources naturelles
Enfin, des ressources naturelles sont également nécessaires en grande quantité pour assurer le bon fonctionnement des systÚmes IA.
De maniÚre schématique, il y a :
â Les ressources naturelles pour construire les composants des systĂšmes
On a besoin de ressources, de métaux rares, pour produire les cartes mÚres, les barrettes de mémoire de tous ces serveurs / ordinateurs dont on parle.
Or, ces ressources ne sont pas infinies ! On est loin de lâabondance dans les matĂ©riaux qui composent nos smartphones, ordinateurs portables et les composants de ces systĂšmes IA. Tout lâengouement rĂ©cent autour de ces technologies renforce la consommation de ces ressources et leur rarĂ©faction.
â Les ressources naturelles pour le fonctionnement courant
Au delĂ des ressources naturelles (pĂ©trole, gaz, charbon) pour produire de lâĂ©lectricitĂ© et qui Ă©mettent du CO2, un autre type de ressources naturelles est critique pour ces systĂšmes.
Lâeau.
On estime quâune conversation moyenne avec ChatGPT consommerait lâĂ©quivalent dâune bouteille dâeau.
Cette eau est utilisée pour refroidir les serveurs et les composants qui permettent de faire tourner ces systÚmes si performants. Forcément, ça calcule beaucoup, donc ça chauffe. Pour éviter les phénomÚnes de surchauffe, on refroidit.
De mĂȘme que beaucoup dâautres ressources, lâeau nâest pas une ressource quâon a de maniĂšre illimitĂ©e.
Attention donc Ă la consommation de celle-ci.
VoilĂ ! Câest fini pour ce mini-cours en 2 parties.
JâespĂšre que ça tâa plu !
Conclusion
Ă dimanche prochain
Si tu es trop impatient pour attendre, tu peux :
M'envoyer des actus, contenus ou rires qui ont animĂ© ta semaine đȘ
Me contacter pour Ă©changer sur lâIA par mail ou par message LinkedIn đȘ
M'envoyer des feedbacks sur ce numĂ©ro, positifs... ou nĂ©gatifs bien sĂ»r ! C'est comme ça qu'on progresse đȘ
Partager la newsletter Ă des personnes susceptibles d'ĂȘtre intĂ©ressĂ©es đȘ
Bon courage pour la semaine đ ! Câest la derniĂšre de la sĂ©rie des semaines de 4 jours. Dommage đ