Publié le :

IA et industries créatives : quelles applications pour la création ?

#Startup

 

L'intelligence artificielle (IA) est un outil formidable dans le monde des entreprises et des nouvelles technologies. Ses applications, comme la reconnaissance vocale dans les téléphones, la vision assistée des voitures autonomes ou les moteurs de recommandation sur les plateformes de divertissement, sont bien connues même si le fonctionnement de l’IA reste assez flou auprès du grand public. Les technologies de l’IA sont présentes sur toute la chaîne de valeur de la création, de la production et de la diffusion de contenus numériques créatifs. Pour comprendre les applications de l’IA dans les industries culturelles et créatives et se projeter dans ses usages futurs, il est nécessaire d’explorer pas à pas ce qu’est une IA et comment cette technologie fonctionne. 

IA, qui es-tu ?

 

“L’Intelligence artificielle” a l’air d’être un concept génial (ou terrifiant en fonction de vos convictions) mais l’analogie à une intelligence qui analyse et comprend le monde, s’arrête là. Les algorithmes d’apprentissage machine (machine learning) sont entraînés pour réaliser un type de tâche particulière mais n’ont pas de représentation cognitive. "Il est comparativement facile de faire en sorte que les ordinateurs affichent des performances de niveau adulte lors de tests d'intelligence ou en jouant aux dames, et difficile, voire impossible, de leur donner les aptitudes d'un enfant d'un an en matière de perception et de mobilité". Cette citation de Hans Moravec datant de 1988 fait référence à ce qu’on appelle le paradoxe de Moravec où le raisonnement logique nécessite peu de calcul alors que les compétences de perception et les capacités sensorimotrices nécessitent, elles, d'énormes ressources informatiques.

Dans les faits, les missions des IA sont très spécifiques et entraînées dans un contexte particulier. Une IA créée pour faire uniquement la distinction entre les images de chats et des images de chiens sera incapable de différencier des images de chevaux et d’ânes par exemple. C’est par ailleurs l’une des tâches principales des IA : classer des données spécifiques en catégorie.

Dans le cas du processus de classification d’une IA faible comme celle-ci, qui doit différencier des images de chiens et de chats, l’IA utilise tout d’abord des images de chien et de chats (le dataset) pour les catégoriser selon des propriétés. Sur la figure, les carrés bleus représentent chacun des images de chien et les triangles rouges représentent des images de chats. Le point vert est une nouvelle image que l’IA n’a encore jamais vue et qui doit être classifiée en chien ou en chat

.

Figure 1 : Classification de chiens et de chats. Source : https://towardsdatascience.com/do-you-know-k-nearest-neighbors-can-also-be-used-for-regression-tasks-117da22bcac3 

 

D’instinct, nous aurons tendance à étudier les plus proches voisins de ce point vert pour faire une prédiction… et c’est exactement ce que fait cette IA. En fonction de ce que connaît l’IA (soit toutes les images qu'elle a vues pendant l'entraînement), elle va être capable de faire une prédiction sur une chose inconnue, tout comme l’humain. C’est dans cette capacité que cet algorithme est dit "intelligent". Finalement, le point vert est-il un chien ou un chat ? Cela dépend de ce que l’IA va prendre en considération pour sa classification. Ici, si l’on choisit de prendre en compte les 3 voisins les plus proches, dans le cercle noir continu qui comprend 2 chats et un chien, l’IA considèrera que la nouvelle image est un chat. Or, si l’on choisit de compter les 5 voisins les plus proches, compris dans le cercle noir en pointillé, l’IA désignera le point vert comme étant un chien puisque 3 chiens et 2 chats ont été pris en compte dans le processus. Cet exemple pose les fondamentaux du fonctionnement d’un algorithme simple d’apprentissage machine. Si certaines terminologies associées à l’IA paraissent peu accessibles et font appel à une explication mathématique parfois complexe, leur finalité reste claire : utiliser des données pour imiter les capacités de résolution de l’esprit humain et automatiser des tâches rapidement.

L’intelligence artificielle est principalement un mot fourre-tout qui comprend l’ensemble des algorithmes, plus ou moins intelligents, utilisant des données pour faire des tâches spécifiques. Si le système “apprend” à s’améliorer au cours du temps, on parle alors d’apprentissage machine (machine learning, ML). La popularité de l’IA est grandement due aux algorithmes d’apprentissage profond (Deep Learning, DL), fonctionnant en couches qui traitent l'information successivement pour découvrir des motifs récurrents et “comprendre” l'information. C’est alors qu’on parle de réseaux de neurones. Enfin, l’apprentissage par renforcement (reinforced learning, RL) est une méthode qui utilise un système de récompense/punition pour pousser l’algorithme vers des prédictions souhaitées.

Ces algorithmes interviennent à différentes échelles dans les activités des entreprises et des acteurs des industries culturelles et créatives, du traitement de données à l’automatisation de la création de contenus. X&Immersion analyse des dialogues de jeux vidéo pour connaître l’émotion du joueur et ainsi déterminer comment un PNJ (personnage non joueur) doit réagir à une situation donnée pour pousser l’interaction et donc l’immersion dans l’univers du jeu. L’analyse de sentiment dans un texte est une problématique souvent rencontrée dans le domaine de l’IA. Suivant cet exemple, une approche utilisant du machine learning peut lire une fraction des dialogues et marquer manuellement les commentaires par un label positif (émotion heureuse) ou négatif (émotion triste). Il s’agit de la base de données d'entraînement. Une fois ce dataset labellisé, le modèle de ML va compter la fréquence d’apparition des mots dans chaque phrase (voir exemple ci-dessous). Si certains mots apparaissent par la suite dans un dialogue, l’IA pourra prédire si l’émotion de la phrase est positive ou négative. Si un mot comme “happy” est présent, la phrase sera catégorisée par une émotion positive.

 

Source : https://medium.com/swlh/sentiment-analysis-from-scratch-with-logistic-regression-ca6f119256ab

 

Cette approche a pourtant des limites car les mots clés détectés peuvent aussi fausser la prédiction. Par exemple : “I not happy to see you”, continent le mot happy qui associe la phrase à une émotion positive alors qu’elle aurait dû être prédite comme une phrase à émotion négative. Une approche un peu plus “intelligente” serait de miser ici sur des réseaux de neurones d’apprentissage profond qui vont, eux, moins se focaliser sur les mots mais sur la relation des mots entre eux pour trouver des motifs récurrents.

Si les tâches de classification sont à l'œuvre dans les industries culturelles et créatives pour optimiser et automatiser la création et la production, un autre aspect de l’IA est souvent mis sur le devant de la scène médiatique. Appliqué à l’exemple précédent, cet autre aspect permet, non plus de prédire le caractère positif ou négatif d’une phrase, mais de générer directement une nouvelle phrase de dialogue.

 

Les modèles génératifs dans les industries culturelles et créatives

 

Au-delà des tâches de classification, les IA se perfectionnent de plus en plus sur des tâches de génération. C’est cette capacité à générer, à créer, qui bénéficie régulièrement d’une couverture médiatique. Un intérêt plus grand public qui témoigne d’une démocratisation de ces technologies et de leurs applications dans les mondes de l’art et du divertissement.

 

 

Un modèle IA largement répandu qui peut générer du contenu est appelé un GAN (Generative Adaptive Network) qui est un modèle complexe de Deep Learning. Le principe est cependant assez similaire à celui de la classification. Dans un GAN, deux algorithmes s’affrontent à l’intérieur même du modèle dans un jeu de dupes : le générateur et le discriminateur. Le but du générateur est de créer une fausse image, alors que celui du discriminateur (semblable à un classifieur) est de déterminer si l’image qu’on lui présente provient du générateur (fausses images/ images générées) ou du dataset d'entraînement (vraies images). Tant que le générateur n’arrive pas à berner le discriminateur, le générateur continue de générer des images. Cette technique a permis de créer de nombreuses nouveaux contenus de synthèse ( images, textes, audios).

Plusieurs exemples notables de contenu génératif ont été créés au cours des dernières années, comme la toile intitulée Edmond de Belamy, vendue à 432.500 $ en octobre 2018, dans une salle d’enchères new-yorkaise. Il s’agissait alors de la première œuvre produite par une IA vendue aux enchères. La base de données d'entraînement comportait des portraits typiques du XVIIIe et du XIXe siècle qui ont permis à l’IA d’apprendre les formes et couleurs d’un tableau. Un mélange d’imitation d'éléments connus et de processus aléatoire de l’IA qui laisse une question en suspens : s’agit-il d’une création artistique ? Plus récemment, c’est le fameux modèle DALL-E, sorti pour la première fois en 2021, qui a illustré l’évolution et la démocratisation des modèles génératifs en proposant de générer des images originales à partir d’une seule description textuelle.

X&Immersion développe également un modèle génératif pour créer du dialogue à partir des connaissances d’un personnage fictif. Il s’agit d’un outil pour aider à la création de contenu, notamment pour les PNJ dans le jeu vidéo. Chaque personnage peut ainsi avoir des milliers de lignes de dialogues prenant en compte le contexte de conversation, l’humeur du PNJ, ce qu’il vient de se passer dans la quête principale, etc. Cette IA est supervisée par le narrative designer qui choisit les meilleurs dialogues.

 

Image : Extrait de phrases de dialogue de Tom le Tavernier du village selon différents contextes. Source : X&Immersion.

 

On pourrait imaginer que le travail de nombreux créateurs (dessinateurs, scénaristes, animateurs…) soit fondamentalement bouleversé au cours des prochaines années par ces IA génératives. Or, il est important de souligner que ces outils de création de contenu ne sont finalement que ça… des outils. L’intermédiaire d’un expert technique et artistique doit exister entre l'œuvre et le public. Le génératif ne permet pas de contrôle sur le rendu. Il est nécessaire de mieux connaître ce que fait le modèle pour le comprendre et avoir conscience de ses forces et de ses limites. Les IA génératives sont cependant encore au tout début de leur existence et leurs applications dans la création de contenu vont exploser dans la décennie à venir.

 

Article rédigé par Alexandre Folliot, fondateur et CEO de la startup X&Immersion.

 

 

A propos d'X&Immersion 


X&Immersion travaille sur des IA capables d’automatiser du contenu de création pour les industries culturelles et créatives. La startup travaille notamment sur la génération de contenus créatifs pour rendre les expériences de plus en plus immersives. Avec pour objectif d’automatiser des tâches rébarbatives de création, X&Immersion se spécialise dans la génération de texte, de voix et d’animation.

 

 

 

A propos d'Alexandre Folliot

 

Ingénieur en Intelligence artificielle, diplômé de la TUM et de la Sorbonne. Alexandre a travaillé sur des sujets de recherche en acoustique, son et imagerie dans différents laboratoires de recherche. Il travaille depuis 2 ans chez X&Imersion sur la partie R&D en synthèse vocale et génération de texte.

 

 

 

Partager sur :

Lire aussi #Startup

IA et création de contenus : Quand l’intelligence artificielle fait la Une des médias

propulsé par LINCC

 

Entretien croisé avec les médias Briefstory et RapMinerz

 

Il est impossible aujourd’hui d’ignorer et de fermer les yeux sur les applications de l’IA dans la création de contenus. Selon un rapport du laboratoire d'innovation d'Europol publié cette année, 90% du contenu en ligne pourrait être généré par des IA d’ici 2026. Cette nouvelle donne est portée sur le devant de la scène par l’industrie des médias en particulier qui, elle aussi, doit composer et évoluer avec les possibilités de l’IA. Entre gain de temps et créativité, il est nécessaire de dessiner les contours de cet outil pour mieux le comprendre, identifier ses limites et maîtriser pleinement ses enjeux. A travers cet entretien croisé, Jules Dubernard et Mathieu Bertolo, qui ont cofondé respectivement les médias RapMinerz et Briefstory, deux médias qui reposent sur l’IA, partagent leurs visions et leurs usages de cette technologie.