Go Skel
Posts
Le nouveau conflit ⚔️

Le nouveau conflit ⚔️

Les sources de données s'épuisent, et les géants du marché se font la guerre.

Nathanaël Goujon
19th avril 2024

Temps de lecture : 1 mn 30

Les grandes compagnies se battent sur un nouveau front.

Le nerf de la guerre ?

Les données pour entraîner leurs modèles.

De la data !

Chaque modèle d’IA a besoin de grandes quantités de données pour être entraîné.

Un Large Language Model va avoir besoin de centaines de milliers d’articles.

Une IA génératrice de vidéos va avoir besoin de millions d’heures de contenu.

Souvenez-vous, ChatGPT avait ingéré l’entièreté de Wikipédia, juste pour sa première version.

Et le flux doit être continu, parce que chaque version doit être meilleure que la précédente.

Le milieu est ultra compétitif, et une IA qui stagne n’a aucune chance de survie.

Mais d’ici deux ans, toutes les sources de données pourraient être épuisées.

En coulisse…

Les géants de l’IA signent des contrats à plusieurs millions de dollars avec des plateformes pour exploiter leurs données.

ChatGPT avec Reddit.

Sora avec Shutterstock.

Mais l’essentiel se déroule à l’abri des regards.

On en a eu l’exemple la semaine dernière.

Google a découvert qu’OpenAI exploitait ses données dans le secret pour entraîner ses modèles.

Des millions d’heures de vidéo YouTube dérobées.

Mais Google est dans une position délicate.

Ils utilisent aussi officieusement les données de toutes leurs applications pour entraîner leurs modèles.

La course à l’IA ne laisse pas le choix aux géants du secteur : ils sont obligés de tricher.

Votre choix

Si vous avez souscrit avec cette Newsletter, c’est parce que vous voulez faire partie de ceux qui maîtrisent l’IA, et pas de ceux qui se font exploiter ou remplacer.

Alors continuez à apprendre :

Et pour suivre les actus et avoir les meilleurs tips pour automatiser au jour le jour, ça se passe ici :