L'IA du futur : simuler le monde plutôt que prédire les mots

Yann LeCun, l'un des pères fondateurs du deep learning, défend une vision radicale : pour atteindre une véritable intelligence, les machines doivent cesser de prédire des tokens et apprendre à simuler la causalité du monde physique.

Nous vivons une période de profusion technologique où les grands modèles de langage comme ChatGPT, Claude ou Gemini enchaînent les performances spectaculaires. Pourtant, une question fondamentale se pose : ces systèmes comprennent-ils vraiment le monde, ou ne font-ils que manipuler des représentations de ce monde ?

C'est le cœur du débat soulevé par Yann LeCun, lauréat du prix Turing et pionnier du deep learning. Il pointe le paradoxe de Moravec : les tâches qui semblent intellectuellement complexes sont souvent plus faciles à reproduire pour une machine que celles qui paraissent intuitives et évidentes. Un enfant de 24 mois comprend la gravité en trois lancers de cuillère ; un LLM doit digérer l'intégralité d'internet pour en parler correctement.

« L'IA ne calcule pas la chute. Elle récite le script de la chute. »

Le problème de fond des LLM actuels, c'est qu'ils sont des modèles autorégressifs : ils prédisent le mot suivant de manière probabiliste, sans jamais toucher la structure du monde réel. Sans modèle interne de la réalité, ils sont condamnés à halluciner des faits.

Face à cette impasse, LeCun propose une philosophie radicalement différente : l'intelligence, c'est la maîtrise de la causalité, pas du langage. Son approche repose sur une architecture baptisée JEPA (Joint Embedding Predictive Architecture), qui abandonne la prédiction de pixels ou de mots au profit d'un espace latent — un « monde des concepts » — où le modèle apprend à simuler les dynamiques physiques plutôt qu'à les décrire.

En mars 2026, son équipe a publié une preuve de concept remarquable : un world model de seulement 15 millions de paramètres, entraînable sur un seul GPU en quelques heures — soit 200 fois plus léger et 48 fois plus rapide que les architectures génératives actuelles. Ce modèle apprend par observation de vidéos brutes, sans étiquettes ni données structurées, et finit par déduire des lois physiques : un objet ne traverse pas un mur, une balle rebondit, la gravité est une constante. On ne lui a pas appris la physique — il la découvre par l'observation.

Applications prometteuses

  • Robotique : un robot capable de comprendre la fragilité et l'équilibre sans reprogrammation pour chaque situation.
  • Voitures autonomes : anticiper qu'un ballon sur la route précède souvent un enfant, sans attendre de le voir.
  • Agents IA : simuler les conséquences à long terme d'une action avant de l'exécuter.

Ce passage d'une IA qui réagit à une IA qui anticipe représente un saut qualitatif majeur. Là où les LLM classiques sont bloqués dans un présent perpétuel — réagissant token par token —, un world model projette constamment des scénarios dans son simulateur interne avant d'agir.

La start-up parisienne de LeCun a levé plus d'un milliard de dollars en mars 2026 sur une valorisation de 3,5 milliards. Sa stratégie : publier le code en open source pour pousser l'industrie à abandonner les LLM, puis capitaliser sur des licences industrielles. Une ambition légitime, même si la question de savoir si les grandes puissances mondiales lui laisseront l'avantage reste entière.

En définitive, le tour de force de LeCun est de démontrer que l'intelligence n'est pas une question de gigantisme, mais de connexion avec le réel. Si cette vision l'emporte, l'avenir de l'IA ne s'écrira plus dans des interfaces textuelles, mais dans la façon dont les machines interagiront intelligemment avec notre monde physique.