top of page
Rechercher
Photo du rédacteurRedha Moulla

DeepSeek-V3 : innover avec peu de moyens

Nous n'avons pas beaucoup de GPU mais nous avons beaucoup d'idées, pourraient dire les Chinois de DeepSeek. J'ai déjà évoqué ici cette start-up, il y a quelques semaines, à l'occasion de la sortie de leur modèle de raisonnement open source qui entendait rivaliser avec son équivalent, o1, d'OpenAI. Ils ont récidivé avec un modèle dont les performances rivalisent avec celles de ChatGPT-4o ou Claude, mais développé avec un budget estimé à près de 5 millions $, soit une dizaine à une vingtaine de fois moins que le budget nécessaire pour développer GPT-4. Il s'agit d'un très gros modèle, de 671 milliards de paramètres, mais c'est un MoE (Mixture of Experts) où seulement 37 milliards de paramètres sont activés en inférence. Cela leur permet de diviser les prix de leur API par dix par rapport à ceux de ChatGPT !


Pour réaliser une telle prouesse, ils ont tout simplement dû beaucoup travailler et, surtout, puiser dans leur matière grise (ne dit-on pas que la nécessité est la mère de l'invention ?). Ils ont introduit plusieurs innovations et optimisations pour améliorer le rapport performance/coût :


  • Un mécanisme de Multi-head Latent Attention pour réduire la mémoire nécessaire aux stockages des calculs intermédiaires (les fameux vecteurs Q, K, V dans les Transformers).


  • Prédiction multi-tokens plutôt que de prédire un seul token. L'idée était déjà là depuis un certain temps ; elle venait initialement de Meta, me semble-t-il, mais je crois que c'est la première fois qu'elle a été mise à l'échelle.


  • Distillation du nouveau modèle à partir du modèle avec raisonnement sorti il y a quelques semaines (j'avais déjà spéculé à l'époque qu'ils allaient utilisé les Chain of Thought du modèle avec raisonnement pour entraîner un autre modèle sans raisonnement et ainsi de suite - ils l'ont fait !).


  • Diverses optimisations liées à la quantification, à la parallélisation, aux informations positionnelles, etc. etc.


Et la place de l'Europe dans tout cela ?


Au-delà des aspects purement technologiques, se dessine devant nous un paysage où la course vers le graal de l'intelligence artificielle tourne de plus en plus au duel entre les USA et la Chine - et un positionnement très fort de la Chine sur l'open source avec Qwen (Alibaba) et DeepSeek (Hedge Fund). Quelle est la place de l'Europe dans ce paysage ? Pour le moment, le seul domaine où elle est à l'état de l'art, c'est bien la régulation, si bien que certains modèles où fonctionnalités sont disponibles partout sur cette planète, sauf en Europe. On a l'impression que la réponse de l'Europe à la cadence infernale du progrès en IA, imposée par les USA et la Chine, est un scepticisme radical. Cela pourrait constituer une attitude philosophique tout à fait légitime, puisée chez Montaigne ou même chez Pyrrhon d'Elis après tout ; mais cela cache surtout une incompréhension profonde de ce qui est en jeu dans cette course à l'IA ; le monde qui se profile devant nous, où le travail sera de plus en plus automatisé, est un monde où la valeur sera de plus en plus produite par les algorithmes de Google et d'OpenAI, au sein de leurs data centres - c'est un transfert de la valeur en bonne et due forme.


Mais, outre l'incompréhension des décideurs institutionnels ou autre des enjeux liés à l'IA, j'ai l'impression qu'il y a une ambiance de scepticisme générale en Europe, y compris chez certains professionnels du domaine. Il y a une prolifération des discours méfiants et blasés, à mesure que la technologie progresse, que l'on entend sous différentes formes : "Ce n'est que du marketing", "Les agents ? il n'y a rien de nouveau ; ça existe depuis toujours et ça ne marche pas", "Attention ! attention ! il ne faut pas dire que les LLMs sont intelligents, qu'ils raisonnent, qu'ils créent sinon...mais on peut dire qu'ils sont bêtes" (et pourquoi pas une législation aussi sur le vocabulaire ?). Ce discours se décline aussi en entreprise évidemment : "Les LLMs posent des problèmes de sécurité", "C'est difficile à deployer, à mettre à l'échelle", etc. etc. On a l'impression qu'il y a une forme de procrastination généralisée où l'on cherche tous les prétextes pour "ne pas y aller".


Il ne s'agit pas nécessairement d'emprunter le discours débordant d'enthousiasme que l'on entend outre-Atlantique sur l'IA qui résoudrait tous les problèmes du monde, qui assurerait l'immortalité et garantirait l'abondance à toutes les formes de vie. Il n'y a pas nécessairement besoin d'une telle ambition pour se lever le matin et fine-tuner un LLM. Personne ne nie non plus que l'IA pose des défis de toutes sortes - techniques, organisationnels, humains... - ; mais deepseek, qui n'a pas les moyens de beaucoup d'entreprises européennes, nous montre que c'est pourtant possible. Et si l'Europe veut vraiment imposer des normes, y compris éthiques, le seul moyen d'y parvenir est de faire partie de la course. Car en IA, sans doute plus que dans toute autre technologie, les aspects techniques et les aspects éthiques sont complètement intriqués.

476 vues0 commentaire

Posts récents

Voir tout

Habiter l'incertitude

Le passage au nouvel an, cette année, est empreint d'une ambiance particulière. Une forme de conscience que nous entrons dans une...

La déraisonnable efficacité des LLMs

John McCarthy est très connu pour avoir inventé le concept d'intelligence artificielle ; mais il a également inventé un autre concept -...

Le mythe des servantes d'or

On peut faire remonter les origines de l'intelligence artificielle moderne à 1956, à la conférence de Dartmouth, où celle-ci a émergé en...

Comments


bottom of page