DeepSeek avant la sortie de la V4 : caractéristiques, organisation et l'objectif unique de Liang Wenfeng

金色财经_ · 2026-04-02T11:49:09+00:00

DeepSeek est à un tournant de changement. Depuis le second semestre 2025, les membres de DeepSeek qui ont clairement quitté ou trouvé une nouvelle voie sont :- Wang Bingxuan, recruté à la fin de l'année dernière par Tencent via Yao Shunyu. Il est le principal auteur de DeepSeek LLM (le premier modèle de langage de DeepSeek) et a participé à l'entraînement de tous les modèles depuis. - Wei Haoran, qui a quitté l'entreprise autour du Nouvel An. Il est le principal auteur de la série DeepSeek-OCR et pourrait rejoindre une grande entreprise. - Guo Daya, qui a officiellement quitté récemment. Il est le principal auteur de DeepSeek-R1 et pourrait rejoindre une grande entreprise. - Et plus tôt en 2025, Ruan Chong, qui a quitté l'entreprise pour prendre sa retraite. Il a annoncé en janvier rejoindre la startup de conduite autonome Yuanrong Qixing ; Ruan Chong est issu de

金色财经_

2026-04-02 11:49:09

DeepSeek se trouve à un carrefour de changements : depuis le second semestre 2025 jusqu’à aujourd’hui, voici les membres de DeepSeek qui ont clairement quitté le projet et trouvé une nouvelle destination :

Wang Bings宣, recruté par la vice-présidente de Tencent, Yao Shunyu, à la fin de l’année dernière. Il est l’auteur principal de DeepSeek LLM (le premier modèle de langage génération par DeepSeek) ; ensuite, il a participé à l’entraînement des modèles de chaque génération.
Wei Haoran, parti environ autour du Nouvel An lunaire. Il est l’auteur principal de la série DeepSeek-OCR et pourrait entrer dans une grande entreprise technologique.
Guo Daya, qui a quitté officiellement récemment. Il est l’auteur principal de DeepSeek-R1 et pourrait entrer dans une grande entreprise technologique.
Et enfin, Ruan Chong, qui avait quitté DeepSeek plus tôt dans l’année 2025 pour passer en retraite ; en janvier de cette année, il a annoncé officiellement rejoindre une entreprise de démarrage dans le domaine de la conduite automatisée, Yuanrong Qixing. Ruan Chong est un membre historique ayant rejoint dès l’époque de Fantang ; il est un contributeur central aux résultats multimodaux de DeepSeek, tels que Janus-Pro.

Jusqu’à présent, DeepSeek n’avait pas procédé à des levées de fonds, donc aucune valorisation claire de l’entreprise n’existait. Lorsque la capitalisation ou la valorisation d’autres entreprises d’IA connaît une hausse fulgurante, Liang Wenfeng cherche comment répondre aux questions de ses membres : au final, combien vaut l’entreprise ? Cela détermine aussi, en dernière analyse, la valeur des options que les employés ont signées.

À partir de l’automne 2025, Liang Wenfeng a également commencé à parler davantage de mise en produit et de commercialisation. DeepSeek dispose déjà d’une équipe produit d’une petite dizaine de personnes, mais n’a pas encore exploré des directions d’applications très en vogue comme la programmation IA ou les agents généraux ; côté client (C-end), il n’y a toujours que des produits typiques de chatbot.

Le nouveau sujet de travail de Liang Wenfeng concerne aussi l’ampleur de la gestion. Le nombre de personnes chez DeepSeek a dépassé celui de Fantang : c’est la plus grande organisation qu’il ait eu à gérer.

Ce qui recouvre tous ces changements, c’est que le DeepSeek V4 n’a toujours pas été publié officiellement.

En réalité, vers janvier 26, une version à petite quantité de paramètres de V4 a déjà été donnée à certaines communautés de frameworks open source pour commencer les adaptations. Selon des attentes relativement optimistes à l’époque, la version à gros paramètres de V4 devait initialement être publiée et open source autour de la mi-février, avant ou autour du Nouvel An lunaire. D’après ce que l’on sait, le DeepSeek V4 pourrait être publié en avril.

Quand certains partent, davantage de gens choisissent de rester. DeepSeek s’ajuste, mais conserve aussi de nombreuses caractéristiques inchangées.

C’est l’un des seuls labs IA “qui ne se marche pas sur les pieds” au monde. Quand les développeurs IA de cœur d’entreprises basées en Chine et aux États-Unis, comme Google, OpenAI, xAI et ByteDance, travaillent 70 à 80 heures par semaine, la plupart des employés de DeepSeek quittent l’entreprise autour de 18 h à 19 h en semaine ; ils ne pointent pas non plus le matin.

Pour Liang Wenfeng, le temps pendant lequel une personne peut produire un travail de haute qualité dans une journée est difficile à faire dépasser 6 à 8 heures.

DeepSeek n’a pas d’évaluation de performance explicite ni de DDL (date limite). Cette organisation compacte mais extrêmement dense en talents continue d’avoir une “division naturelle du travail” : les chercheurs peuvent former des équipes librement ou se consacrer seuls à certaines nouvelles idées.

“En plus de la ligne principale, il y a aussi des gens chez DeepSeek qui font des recherches à long terme dont l’avancement pourrait ne pas se traduire par des résultats avant un an.” “DeepSeek est un endroit où les gens veulent vraiment faire de la recherche ; en Chine, voire dans le monde, on n’y trouve pas de meilleurs endroits.” a déclaré une personne proche de DeepSeek.

Bien sûr, DeepSeek a aussi une autre particularité : le mystère. Surtout après 2025 : en dehors des rapports techniques publiés publiquement, il est difficile d’entendre leur voix dans les médias sociaux ou les communautés très actives de ceux qui travaillent dans l’IA, de la part du fondateur Liang Wenfeng jusqu’au silence collectif des membres de l’équipe.

Dans ce reportage, nous présentons les caractéristiques de DeepSeek, les priorités de travail, la manière dont l’organisation fonctionne, et les changements en cours dans cette organisation de moins de 200 personnes, en nous basant sur ce que nous avons compris via divers canaux. La source de tout cela est l’objectif unique que Liang Wenfeng a fixé à DeepSeek.

Le parcours de Liang Wenfeng : faire peu de choses, les pousser à l’extrême

L’objectif IA de Liang Wenfeng précède de loin la création de DeepSeek en 2023.

En 2016, Hasabis, le fondateur de DeepMind et à l’origine de la proposition d’AGI, a constitué une équipe de trading quantitatif, dans le but de générer des revenus pour DeepMind, alors qu’il cherchait à faire de l’argent pour son activité tout en s’affranchissant de Google. Résultat : ils n’ont pas réussi à gagner d’argent.

La même année, Liang Wenfeng, diplômé de l’Université du Zhejiang (master + premier cycle), investissait déjà en quant depuis 8 ans. En 2015, il a fondé Fantang ; en 2016, il a commencé à exécuter du deep learning sur GPU pour du trading en situation réelle ; à la fin de 2017, il a atteint “la quasi-totalité des stratégies de trading automatisées par l’IA”. En 2019, il a commencé à construire le premier cluster de puissance de calcul de Fantang, avec “Flamme 1”, 1100 GPU.

Également en 2019, Fantang AI (Société de recherche sur l’IA de Fantang) a été officiellement enregistrée. Aujourd’hui, Luo Fuli, responsable de l’IA chez Xiaomi, et Ruan Chong, récemment rejoint, sont tous deux entrés dans Fantang après cette période, puis ont rejoint DeepSeek en 2023.

En tant que personne devenue financièrement indépendante à moins de 30 ans, la vie de Liang Wenfeng est simple et mystérieuse.

Dans l’impression que les gens autour de lui gardent, il porte pendant plusieurs jours les mêmes vêtements. À Hangzhou, il a longtemps vécu dans des hôtels, puis à Pékin, où la majorité des ingénieurs R&D de DeepSeek résident, il louait un logement. Il est mince, avec des habitudes sportives ; et ce que l’on connaît de ses centres d’intérêt, ce sont des activités de plein air comme la randonnée.

Jen-Hsun Huang invite des employés de NVIDIA à passer chez lui, à boire un petit coup et à papoter, tout en montrant joyeusement ses voitures de sport. Mais Liang Wenfeng ne participe pas aux activités de team building trimestrielles, dîne rarement avec les membres ; en fin d’année, le grand team building ne se limite qu’à apparaître pendant son discours, sans participer à toute la durée.

En 2022, un employé de Fantang, surnommé “Un petit cochon ordinaire”, a fait à titre individuel un don de 138 millions de yuans à une organisation caritative. Plus tard, beaucoup de gens ont deviné que ce petit cochon était Liang Wenfeng. La réponse du personnel de Fantang a été : “Les dons des employés sont anonymes ; en interne, personne ne sait non plus qui est réellement le petit cochon.”

Dans le périmètre de travail, Liang Wenfeng ne fait que quelques choses. Il ne fait pas des choses que font la plupart des PDG de startups, comme lever des fonds.

En 2023, Liang Wenfeng a rencontré un petit nombre d’investisseurs. Mais, d’après ce que nous savons, il a formulé une exigence inhabituelle : à l’instar des accords d’investissement entre OpenAI et Microsoft, Liang Wenfeng espérait que l’investisseur accepte un plafond de rendement. À l’issue de ces rencontres, aucune institution n’a investi dans DeepSeek.

Au cours des deux années suivantes, les levées de fonds pour les grands modèles en Chine ont été très dynamiques ; on voyait souvent des tours à plusieurs centaines de millions, voire des ordres de grandeur de plusieurs centaines de millions de dollars. Pourtant, Liang Wenfeng ne revoyait plus d’investisseurs, et même n’établissait plus de nouveaux contacts. Même hors des fenêtres de levée de fonds, la plupart des fondateurs ne refuseraient pas de rencontrer des partenaires de premier plan d’institutions ; mais Liang Wenfeng a refusé la majorité de ces demandes.

Presque tout son temps, Liang Wenfeng l’a investi dans ces quelques choses qu’il estimait devoir être priorisées, et il les a faites de manière minutieuse, en les poussant à l’extrême.

L’une des clés du succès de DeepSeek jusqu’alors a été “une force tirée par un seul trou” : ils ont clairement placé le langage au rang de priorité supérieure, sans se lancer dans des directions populaires comme la génération multimodale.

Sur la ligne principale choisie, Liang Wenfeng est “hands on” en approfondissant les détails. Il apprend l’algorithmie, l’architecture, l’Infra et les connaissances en données auprès des membres de l’équipe venant de différents horizons, et il participe lui-même aux discussions sur les détails du modèle et du produit.

Beaucoup de gens qui ont rencontré Liang Wenfeng mentionnent qu’il n’a ni “charisme de PDG” ni, soi-disant, “aura de génie” ; il ressemble davantage à un chercheur. Lorsqu’il discute avec les gens, ce sont les problèmes techniques concrets qui l’intéressent le plus.

Le cofondateur de Oasis Capital, Zhang Jinjian, a déjà partagé une petite histoire dans “Ceux qui ont réussi à se construire” : il y demande au fondateur de MiniMax, Yan Junjie, qu’il considère investir, “Y a-t-il des gens plus concentrés que vous ?”. Yan Junjie a répondu : une fois, il a rendez-vous pour dîner avec un ami qu’il n’avait jamais rencontré. Il arrive un peu en avance et voit quelqu’un portant un T-shirt ; il le prend pour l’assistant. L’autre ne s’est pas présenté ; il a posé beaucoup de questions techniques à Yan Junjie. Après une demi-heure, Yan Junjie a demandé : “Quand est-ce que Liang GM va arriver ?” L’autre a répondu : “C’est moi, Liang Wenfeng”.

Organisation de DeepSeek : aplatie, division transversale du travail, pas d’heures sup

En cohérence avec le style de Liang Wenfeng, l’organisation de DeepSeek est extrêmement aplatie : chaque maillon se fait en division transversale, l’expansion d’échelle est prudente, et ils ne font pas d’heures supplémentaires.

Lors de la création de Fantang, Liang Wenfeng avait des partenaires ; mais DeepSeek n’a pas de numéro deux. Surtout dans l’équipe de recherche, il n’y a que deux niveaux : Liang Wenfeng et les autres chercheurs. Liang Wenfeng prend les décisions majeures et porte le plus de résultats.

À présent, cette partie de l’équipe de recherche compte environ plus de 100 personnes. Elle ressemble à un grand laboratoire. Les chercheurs de DeepSeek, dont la plupart sont nés autour de 2000, ont l’habitude d’appeler Liang Wenfeng, né en 1985, “Boss Liang”. Ce patron est plus proche d’un mentor : il pilote la R&D de l’organisation, coordonne les ressources, et mène aussi des recherches concrètes ; sur les résultats communs, il est crédité comme auteur de correspondance.

La plus grande implication personnelle de Liang Wenfeng se situe au niveau de l’équipe d’architecture de base (base model). Il discute en profondeur avec l’équipe avant de déterminer la version de l’architecture de chaque génération de modèle de base. Cette équipe compte une petite cinquantaine de personnes ; ils sont la force principale de l’entraînement pré-entraîné.

Étroitement liée à l’architecture de base, il y a l’équipe Infra et l’équipe des données, chacune comptant une petite cinquantaine de personnes. Dans certaines entreprises, l’équipe Infra ressemble davantage à un “prestataire interne” chargé de répondre aux besoins algorithmiques ; tandis qu’au sein de DeepSeek, l’équipe Infra participe déjà aux discussions et donne des recommandations pendant l’étape de définition (定版) avant l’entraînement du modèle.

La collaboration étroite entre ces modules fait que les frontières de l’équipe chez DeepSeek ne sont pas aussi nettes, et cela forme une “division transversale du travail”. En fait, c’est la forme de collaboration la plus adaptée aux caractéristiques de l’entraînement des modèles : au moment des expériences sur le modèle et de la définition/validation de l’architecture, il faut tenir compte du choix des données et de l’implémentation de l’Infra.

Liang Wenfeng est le détecteur et le “liaisonneur” qui relie ces différents modules : il assiste aux réunions de chaque équipe, pour comprendre l’avancement global et les points bloquants. La plupart des réunions hebdomadaires de DeepSeek sont aussi ouvertes à des membres d’autres équipes ; il est possible de participer depuis un autre groupe.

Le style “à la première place” consistant à plonger dans les détails, et la collaboration étroite qui se forme spontanément, sont difficiles à reproduire dans une grande organisation. C’est pourquoi DeepSeek élargit l’équipe de R&D centrale de manière très prudente.

Un point très singulier dans le cercle mondial de l’IA : chez DeepSeek, ils ne font pas d’heures sup. Ils ne pointent pas, n’ont pas d’évaluation de performance explicite ; en semaine, la plupart des membres quittent l’entreprise autour de 6 h à 7 h. DeepSeek fournit gratuitement à ses employés certains avantages après le travail, comme des cours de sport de balle, ou le remboursement des installations sportives, etc.

Liang Wenfeng pense : le temps pendant lequel une personne peut travailler avec une haute qualité dans une journée est difficile à dépasser 6 à 8 heures. La fatigue liée aux heures sup et le jugement obtus qui en résulte gaspillent au contraire des ressources de calcul précieuses ; cela ne vaut pas le coût.

Concernant la composition du personnel, auparavant, DeepSeek ne recrutait presque pas de “社招” (recrutement social/latéral), et se concentrait surtout sur le maintien des diplômés récents et des stagiaires. Au début de 2025, “LatePost” a rassemblé les CV de 172 chercheurs (y compris des stagiaires) qui avaient participé aux trois générations de modèles de DeepSeek (LLM, V2, V3&R1) à ce moment-là, et a trouvé l’historique de 84 personnes : plus de 70 % étaient des étudiants de licence ou de master ; plus de 70 % avaient moins de 30 ans.

Avant V3 et R1, DeepSeek se classait dans la première vague mondiale des grands modèles, en étant environ 1/10 en effectif par rapport aux grandes entreprises, et environ la moitié du temps de travail par personne, tout en maintenant une très forte concentration et focalisation.

Mais à mesure que les directions à explorer pour atteindre des capacités d’IA de pointe se multiplient, il devient de plus en plus difficile de maintenir la même taille d’organisation, le même mode de communication et la même ambiance de collaboration.

Au cours des 15 derniers mois, DeepSeek continue à faire ce qui lui ressemble, tandis que le monde extérieur change brutalement

Après que V3 et R1 aient explosé au début 2025, DeepSeek n’a pas profité de l’élan pour “sortir une arme” de plus, mais a poursuivi la recherche dans la direction qui les passionne. Les résultats publiés jusqu’ici se répartissent essentiellement en trois catégories :

D’abord, l’optimisation de l’efficacité : faire une “extraction” extrême de la puissance de calcul GPU, afin d’obtenir une intelligence plus grande par unité de calcul. Cela inclut l’ensemble de l’Infra d’entraînement et d’inférence open source publié en janvier 2025, couvrant les kernel d’inférence, les bibliothèques de communication, les bibliothèques de multiplication de matrices et les cadres de traitement des données. (Note : kernel est un code exécutant le calcul le plus bas niveau sur GPU, utilisé pour implémenter des opérations cœur comme la multiplication de matrices.)

Ensuite, des améliorations continues du mécanisme d’attention : comme la NSA (attention clairsemée native) au début de 25, puis la DSA (attention clairsemée dynamique) dans la suite. En y ajoutant plus tôt, dans V2, la MLA (attention latente multi-têtes), leur objectif commun est de traiter des contextes plus longs sans augmenter significativement la puissance de calcul.

Dans DeepSeek-V3.2, mis à jour fin septembre 25, on peut aussi voir que DeepSeek a même remplacé la bibliothèque de calcul de bas niveau des langages “mainstream” comme CUDA et Triton par TileLang. CUDA est le langage de bas niveau fourni par NVIDIA ; Triton a été open source par OpenAI ; TileLang est un projet open source initié par l’équipe de Yang Zhi de l’Université de Pékin.

Deuxièmement, des améliorations de l’architecture des modèles : par exemple mHC (liaison super-connexion avec contraintes courantes), publiée au début 26, visant à améliorer la stabilité dans l’entraînement à grande échelle ; et Engram, qui construit une mémoire à long terme en dehors du modèle. Le consensus externe est que mHC sera utilisé dans l’entraînement de V4.

Troisièmement, certaines explorations “non conventionnelles” : par exemple DeepSeek-OCR, qui convertit du texte en images, puis les introduit dans le modèle. Cette idée vise à faire comprendre au modèle des paragraphes et des hiérarchies d’une manière plus proche de “la lecture des textes” par les humains, afin d’améliorer la capacité à comprendre des documents complexes.

En interne chez DeepSeek, il existe aussi plus d’essais de ce type en cours, notamment l’apprentissage continu, l’apprentissage autonome, etc.

Liang Wenfeng a aussi recruté en 2025 certains conseillers ayant un bagage en neurosciences et en sciences du cerveau, afin d’explorer des mécanismes d’apprentissage plus proches de celui du cerveau humain.

Dans le même temps, l’environnement IA externe a fortement changé depuis 2025 jusqu’à aujourd’hui. Deux lignes concurrentielles reçoivent le plus d’attention :

D’abord, les modèles et applications Agentic basés sur la capacité de coding. C’est l’arène où la compétition est la plus féroce actuellement pour Anthropic et OpenAI ; cela a donné des duels entre Opus 4.6 et GPT-5.4, ainsi qu’entre Claude Code et Codex. OpenClaw, le homard qui a explosé depuis le début de l’année, est aussi une forme récente d’application Agentic.

Ensuite, la génération multimodale. Ce domaine est sorti à plusieurs reprises sous l’effet de “magie” : OpenAI GPT-4o au printemps 2025, puis Google NanoBanana à l’automne, jusqu’à Byte Seedance 2.0 avant le Nouvel An lunaire 2026. Et la génération vidéo est liée à une direction encore plus en avant : les “world models”.

DeepSeek n’a d’abord pas beaucoup investi dans la génération multimodale, parce que Liang Wenfeng considère que la génération multimodale n’est pas la ligne directrice de l’intelligence.

Dans la direction Agent, DeepSeek-V3.2 a renforcé la capacité Agent, mais l’ensemble de DeepSeek itère moins fréquemment que R1 ; ils ont donc ressenti une inquiétude profonde pendant un moment, voyant les autres “petits tigres” foncer.

De janvier 2025 jusqu’à aujourd’hui, Zhipu, MiniMax et Kimi ont chacun mis à jour 5 versions, 4 versions et 3 versions de leurs modèles, orientées Agent ou renforcement du coding.

D’après les données d’OpenRouter, sur les 30 derniers jours (du 24 février au 26 mars), parmi les 10 premiers en consommation de tokens des modèles utilisés par l’application OpenClaw via OpenRouter, 6 modèles proviennent de Chine, et DeepSeek-V3.2 se classe au 12e rang. (Note : OpenRouter reflète davantage l’usage des développeurs individuels et des petits développeurs ; ce n’est donc qu’une référence pour la consommation globale de tokens.)

L’objectif de DeepSeek n’est pas le plus mainstream ; certains partent, d’autres restent

Le côté “hors norme” de DeepSeek est lié à la vision AGI que Liang Wenfeng partage : outre la poursuite du plafond d’intelligence des grands modèles, il estime qu’il y a aussi deux autres travaux très importants :

D’abord, construire de grands modèles sur la base de l’écosystème domestique.

DeepSeek investira dans l’adaptation aux GPU domestiques, afin de résoudre la réalité selon laquelle l’approvisionnement en GPU haute performance est limité. Par exemple, après la mise à jour de V3.1 en août de l’an dernier, ils ont mentionné que le DeepSeek adopte l’UE8M0 FP8 — un format de compression des données — “conçu pour les puces domestiques de la prochaine génération”. Le TileLang en remplacement de Triton, basé sur du code open source domestique évoqué plus haut, relève aussi de ce type de travail : cela leur donne plus de prise d’initiative à la couche de base.

Lors des échanges avec des professionnels de l’IA, Liang Wenfeng a aussi évoqué une hypothèse : “Et si on utilisait une partie de la puissance de calcul existante pour réaliser toute l’intelligence d’aujourd’hui ?”

Deuxièmement, une “innovation de type original” : s’orienter vers des directions que les grandes entreprises ou d’autres startups ne testent pas, et ne veulent pas tester.

Par exemple, à la seconde moitié de 2024, DeepSeek a commencé la série Janus, en essayant d’unifier la compréhension et la génération multimodales. DeepSeek a aussi fait une série Prover, en explorant des preuves formelles. Il y a aussi l’OCR de 25, et les explorations internes en cours, notamment l’apprentissage continu et la “biomimétique” du cerveau.

En tant que fondateur, Liang Wenfeng se préoccupe non seulement des performances du modèle lui-même, mais aussi des découvertes plus essentielles et originales sur le chemin pour atteindre ces résultats.

Mais cela ne correspond pas à certaines attentes externes envers DeepSeek : certains espèrent que chaque sortie de DeepSeek soit aussi spectaculaire que R1. C’est quelque peu difficile, et cela ne suit pas les lois de la technique.

Liang Wenfeng n’a pas besoin de se soucier des attentes externes, mais il doit faire face et gérer les attentes internes.

Pour davantage de jeunes chercheurs, faire davantage de recherches de pointe signifie aussi assumer plus d’incertitude. Une voie plus sûre consiste à continuer à participer aux modèles les plus forts de l’industrie, à signer dans ces rapports techniques très suivis, et à disposer de ressources GPU riches pour soutenir les expériences et les explorations.

En plus des honneurs et de l’influence, l’attrait de DeepSeek pour ses membres tient aussi à une promesse de richesse élevée.

La rémunération absolue de DeepSeek n’est pas faible, mais l’extérieur peut proposer plus. Certains chasseurs de têtes nous ont dit que les concurrents offrent des “chiffres difficilement refusables”, que “passer de 2 à 3 fois, ce n’est pas un gros problème”, et que “les autres entreprises proposent un total à six chiffres (en actions ou en options)”.

Il y a aussi un changement : MiniMax et Zhipu ont été introduits en bourse, avec des hausses importantes de cours ; et l’IPO de Qimi est aussi inscrite au calendrier. Cela fait que certains membres de DeepSeek se posent davantage de questions sur la part d’options dans laquelle il n’y a pas de prix clairement affiché.

Face à des invitations massives, davantage de gens choisissent de rester. Ils reconnaissent la manière de Liang Wenfeng de poursuivre l’AGI : ils sont prêts à faire des explorations qui ne sont pas uniquement guidées par la concurrence ; ils sont aussi habitués à une ambiance de recherche chez DeepSeek relativement détendue et posée.

Certains bruits externes récents ne sont pas exacts : bien que DeepSeek ait connu des changements d’équipe, il n’y a pas eu de départ en groupe.

“Ceux qui restent gardent encore une part d’idéal.” a déclaré une personne proche de DeepSeek. Liang Wenfeng pense que, en plus de la ligne principale visant à améliorer l’efficacité et les performances du modèle, il faut faire quelques directions dont les retours ne sont pas clairs à court terme. Car “dans ces entreprises étrangères avec plus de puissance de calcul, comme Google ou OpenAI, elles essaient sûrement toutes sortes de directions”.

Jusqu’à présent, l’équipe relativement petite de DeepSeek et, depuis la fondation, l’atmosphère de transparence et d’aplatissement ont permis aux membres de conserver une division naturelle du travail : parfois, on lance une nouvelle direction parce que trois ou cinq personnes trouvent qu’une idée est bonne, puis ils se mettent à la faire ensemble.

Cela fait écho à la description de Liang Wenfeng lors de son interview avec “Dark Tide” en 2024 : “En général, nous ne faisons pas une division du travail en amont. Chacun a son parcours de croissance unique, il a déjà des idées, donc on n’a pas besoin de le pousser… Mais quand une idée montre son potentiel, nous réallouons les ressources de manière top-down.”

“DeepSeek est un endroit où les gens veulent vraiment faire de la recherche ; en Chine, voire dans le monde, c’est l’un des meilleurs endroits qu’on puisse trouver.” a déclaré une personne proche de DeepSeek.

Changer le monde — et être aussi changé par le monde

La manière dont DeepSeek a une compréhension unique et décompose l’objectif AGI est un atout précieux ; et c’est aussi la raison des tensions internes auxquelles il fait face aujourd’hui. Car l’importance que Liang Wenfeng accorde à la construction d’écosystème et à l’exploration originale chevauche avec l’objectif largement admis dans l’industrie de “rester le plus fort”, mais ce ne sont pas exactement les mêmes objectifs.

En outre, à mesure que les grands modèles se sont développés jusqu’à aujourd’hui, les critères de “force” et d’“originalité” deviennent de plus en plus flous et subjectifs.

Les scores de benchmark ne peuvent plus mesurer complètement le niveau des modèles. Surtout après l’entrée dans la compétition des modèles Agentic, les extensions produits et les cas d’usage à longue traîne qu’elles entraînent, ainsi que des données diversifiées, deviennent encore plus importants. C’est précisément là où DeepSeek n’avait pas beaucoup investi, car il se concentrait auparavant davantage sur la R&D du modèle.

Le V4 qui va être publié est très probablement encore le modèle open source le plus fort, mais il sera difficile qu’il s’agisse d’une “force écrasante”. Parce que pour des scénarios différents, différents développeurs et utilisateurs ont des perceptions de plus en plus variées de ce qui constitue “être fort”.

Qu’est-ce qu’une nouvelle exploration originale et à valeur ? Cela a toujours été une question qui suscite des opinions très diverses, et dépend de l’expérience, du jugement et de l’intuition de différents chercheurs, ce qu’on appelle le “goût technique”.

La manière de vérifier le goût est l’expérimentation ; or le nombre et l’ampleur des expériences sont limités par les ressources GPU. Par rapport aux pairs, DeepSeek n’a pas autant de puissance de calcul.

Finalement, que ce soit pour la base d’écosystème des grands modèles, ou dans le processus de recherche de performance, l’exploration de directions que d’autres équipes n’essaieraient pas : les retours de tout ce que Liang Wenfeng valorise sont extrêmement incertains.

La recherche de pointe devrait porter cette incertitude ; mais elle ne correspond pas tout à fait à la réalité — avec des ressources de calcul limitées — ni aux attentes du monde extérieur selon lesquelles DeepSeek puisse continuer à surprendre, voire “écraser”.

Liang Wenfeng s’en est rendu compte : récemment, il a commencé à chercher des moyens de donner une valorisation à la société, et de fournir des attentes plus certaines aux membres de l’équipe.

DeepSeek va aussi investir davantage dans les produits. Nous avons récapitulé toutes les annonces de recrutement publiées par un HR de DeepSeek sur les réseaux sociaux du 2024 décembre jusqu’à aujourd’hui. Dans la plus récente vague de recrutement à la mi-mars de cette année, DeepSeek a mentionné pour la première fois le nom de certains produits spécifiques : pour recruter des “Product Managers de stratégie de modèle” dans la direction Agent.

— Suivre en continu les tendances de l’industrie, être familier et utiliser en profondeur des agents connus comme Claude Code, OpenClaw, Manus, etc.…

À partir de là, on verra sûrement davantage d’actions de DeepSeek sur ses produits Agent.

Au début de 2025, avec un esprit open source généreux et la “merveille” de réussir avec peu au lieu de trop (“small wins with big effects”), DeepSeek a secoué la Chine et le monde, changé le monde : il a poussé une série de collègues à consacrer davantage d’attention à la technologie des modèles elle-même, a inspiré des modèles ultérieurs comme Kimi K2 et K2-thinking, et a directement aussi donné naissance à certaines nouvelles équipes, comme MiroMind soutenue financièrement par Chen Tianqiao.

Pourquoi cette merveille est une merveille ? Parce qu’elle ne se produit pas souvent : c’est un événement de faible probabilité. Dans l’environnement chinois où la concurrence et les résultats parlent, la simple existence de DeepSeek — qui ose poursuivre des objectifs uniques — est une surprenante petite probabilité.

Les personnes qui ont rencontré Liang Wenfeng le décrivent : “Il est particulièrement insensible au bruit.”

Après l’explosion de R1 en 2025, Liang Wenfeng a montré une attitude détachée face à la frénésie. Et désormais, il doit faire face à un autre type d’épreuve : avec l’intensification de la concurrence externe, distinguer le bruit du signal, maintenir ce qu’il faut maintenir, et changer ce qu’il faut changer.

“Les gens qui baissent la tête et font le travail ne gagneront peut-être pas forcément le dernier mot dans la marée du marché agitée et impatiente ; mais tant que davantage d’entreprises comme DeepSeek apparaîtront, la technologie chinoise aura la possibilité de passer de ‘copier’ à ‘mener la course’.” a déclaré un praticien.

C’est le travail qui appartient à Liang Wenfeng et à DeepSeek. Et pour ceux qui ont été secoués par cette entreprise, il y a beaucoup de choses simples à faire : détacher la narration de type “article sensation”, et aborder une entreprise et l’innovation technologique avec plus de calme.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.