Scale AI : l’entreprise invisible qui entraîne tous les grands modèles

Derrière ChatGPT, Claude ou Gemini se cache une infrastructure invisible que personne ne mentionne jamais dans les médias grand public : les données d’entraînement. Et derrière ces données, il y a souvent Scale AI. Cette entreprise californienne n’a pas de produit que vous pouvez télécharger, pas d’application sur votre téléphone. Pourtant, elle a touché à peu près tous les modèles d’IA majeurs qui existent aujourd’hui. Comprendre Scale AI, c’est comprendre comment les intelligences artificielles apprennent vraiment.

Le problème que Scale AI résout : les données, nerf de la guerre

Entraîner un grand modèle de langage ne se résume pas à brancher des serveurs et lancer un script. Avant même d’alimenter un GPU, il faut des données propres, annotées, structurées et vérifiées par des humains. C’est là que ça coince.

Imaginez qu’OpenAI veuille améliorer la capacité de ChatGPT à comprendre les nuances d’une demande médicale. Il faut alors des milliers d’exemples où un humain expert a évalué si la réponse du modèle était correcte, nuancée, sans danger. Multiplié par des dizaines de domaines, des dizaines de langues, des dizaines de cas d’usage — vous obtenez un volume de travail humain colossal que vous ne pouvez pas internaliser.

Sans infrastructure dédiée, les équipes IA passeraient la moitié de leur temps à recruter des annotateurs, gérer des pipelines de données et vérifier la qualité. C’est exactement ce problème que Scale AI a transformé en marché.

L’histoire de Scale AI : de 2016 au cœur du Pentagon

Alexandr Wang fonde Scale AI en 2016 à 19 ans, en abandonnant MIT après quelques semaines. Son insight est simple mais redoutable : les startups IA explosent, mais toutes butent sur le même mur — l’annotation de données à l’échelle. Il crée une plateforme qui combine des travailleurs humains (appelés « Taskers ») avec des outils d’automatisation pour annoter images, textes, vidéos et données de capteurs.

Les premiers clients ? Des startups de voitures autonomes. Uber, Lyft, Waymo ont toutes besoin de millions d’images annotées pour entraîner leurs systèmes de vision. Scale AI décroche ces contrats et pose les bases d’un modèle qui va s’étendre bien au-delà.

En 2021, Scale AI est valorisée à 7,3 milliards de dollars. En 2023, elle franchit les 14 milliards après avoir signé des contrats avec OpenAI, Anthropic, Meta et — surtout — le Département de la Défense américain. Ce dernier point est important : Scale AI n’est pas une entreprise « neutre ». Elle est explicitement positionnée dans la course à la souveraineté IA des États-Unis, ce qui lui confère une dimension géopolitique que peu d’acteurs de ce secteur assument aussi ouvertement.

Ce que Scale AI fait concrètement

Scale AI propose plusieurs couches de services, souvent imbriquées :

  • Annotation de données : labellisation d’images, de textes, de vidéos, de données LiDAR. C’est le cœur historique du business.
  • RLHF à grande échelle : le Reinforcement Learning from Human Feedback — cette technique qui a rendu ChatGPT conversationnel — nécessite des milliers d’évaluateurs humains qui notent les réponses du modèle. Scale fournit ces évaluateurs, formés et managés.
  • Scale Spellbook : une plateforme qui permet aux entreprises de tester et comparer des LLMs sur leurs propres données, sans avoir à tout construire en interne.
  • Evaluations et red teaming : identifier les failles, biais et comportements indésirables d’un modèle avant son déploiement.

En pratique, lorsque vous utilisez Claude (Anthropic) ou GPT-4 (OpenAI), une partie du comportement aligné de ces modèles — leur façon de refuser certaines demandes, de nuancer leurs réponses, de rester cohérents — a été façonnée par des milliers d’heures de feedback humain coordonnées par Scale AI ou des entreprises similaires.

Pour aller plus loin sur les acteurs qui construisent l’écosystème IA, consultez notre Lexique & Culture de l’IA — Guide Complet.

Le modèle économique et ses tensions

Scale AI facture ses services à la tâche ou au volume, avec des contrats enterprise pour les grands comptes. C’est un modèle de marketplace de travail humain augmenté par l’automatisation — plus le volume monte, plus les marges s’améliorent grâce à l’automatisation partielle des tâches répétitives.

Mais ce modèle n’est pas sans contradictions. Les « Taskers » — travailleurs indépendants souvent situés en Afrique, en Asie du Sud-Est ou en Amérique latine — ont régulièrement dénoncé des rémunérations très basses pour des tâches mentalement éprouvantes (modération de contenus violents, évaluation de textes sensibles). Le Time Magazine avait documenté en 2023 le cas de travailleurs kényans sous-traités via Sama pour modérer du contenu traumatisant pour OpenAI — une chaîne de sous-traitance dans laquelle Scale AI s’inscrit indirectement.

C’est la même tension qu’on retrouve chez Stability AI ou d’autres acteurs qui construisent des produits brillants sur des infrastructures humaines peu visibles et mal rémunérées.

Points forts / Points faibles de Scale AI

  • ✅ Position unique : fournisseur transversal pour tous les grands labs — OpenAI, Anthropic, Meta, Google, et l’armée américaine
  • ✅ Expertise RLHF : l’une des rares entreprises capables de gérer le feedback humain à l’échelle industrielle
  • ✅ Diversification réussie : du véhicule autonome à la défense nationale, Scale a su pivoter sans perdre son cœur de métier
  • ❌ Dépendance aux clients : si OpenAI ou Anthropic internalisent plus l’annotation, Scale perd des revenus majeurs
  • ❌ Questions éthiques persistantes : conditions de travail des Taskers, contrats militaires controversés
  • ❌ Opacité : entreprise non cotée, peu de transparence sur les revenus réels et les marges

Verdict : une pièce maîtresse de l’IA moderne

Scale AI occupe une position que peu d’entreprises peuvent revendiquer : être indispensable sans être visible. Aucun modèle majeur ne se construit aujourd’hui sans passer par une couche d’annotation et de feedback humain — et Scale AI a standardisé cette couche à l’échelle mondiale.

Si vous travaillez dans l’IA, comprendre Scale AI vous aide à saisir pourquoi la « magie » de ChatGPT ou Claude ne vient pas uniquement d’algorithmes — elle vient aussi de millions d’heures de travail humain structuré. C’est une réalité que les communications de OpenAI ou Anthropic n’affichent pas en couverture, mais que Scale AI rend impossible à ignorer pour qui creuse un peu.

Dans le même registre d’acteurs discrets mais structurants, Cohere illustre comment des LLMs peuvent alimenter des milliers d’entreprises sans jamais apparaître dans les titres de presse.


FAQ — Questions fréquentes sur Scale AI

Scale AI est-elle une entreprise publique ?

Non. Scale AI reste une entreprise privée, valorisée à plus de 14 milliards de dollars lors de son dernier tour de table. Elle n’est pas cotée en bourse à ce jour.

Quel est le lien entre Scale AI et OpenAI ?

OpenAI est l’un des principaux clients de Scale AI. Scale a fourni une part significative de l’infrastructure d’annotation et de RLHF qui a permis d’aligner GPT-3.5 et GPT-4. Les deux entreprises entretiennent une relation commerciale, pas de participation au capital.

Scale AI travaille-t-elle vraiment avec l’armée américaine ?

Oui. Scale AI a signé plusieurs contrats avec le Département de la Défense américain, notamment pour des applications de reconnaissance d’images et d’analyse de données de renseignement. Alexandr Wang a publiquement défendu ce positionnement comme une priorité stratégique pour la compétitivité des États-Unis face à la Chine.

Comment Scale AI se différencie-t-elle de ses concurrents ?

Ses principaux concurrents sont Appen, Lionbridge AI et des solutions internes des grands labs. Scale se différencie par sa capacité à gérer des pipelines complexes combinant humains et automatisation, et par sa position d’accès privilégié aux modèles de pointe via ses contrats exclusifs.