Les employés d'OpenAI ont publiquement accusé les résultats des tests de benchmark du dernier modèle d'IA, Grok3, d'être trompeurs.

Création du résumé en cours

ChainCatcher 消息，据金十报道，OpenAI 的一名员工公开指责马斯克旗下的XAI公司，称其发布的最新 AI 模型 Grok3 的Benchmark测试结果具有误导性。对此，XAI 的联合创始人伊戈尔・巴布什金（Igor Babushkin）则坚称公司并无不当。 Le graphique de XAI montre que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle actuellement le plus puissant d'OpenAI, o3-mini-high, lors de l'AIME 2025. Cependant, les employés d'OpenAI ont rapidement souligné sur la plateforme X que le graphique de XAI n'incluait pas le score AIME 2025 de o3-mini-high dans la condition "cons@64". Babushkin a affirmé sur la plateforme X que OpenAI avait également publié des graphiques de tests de référence trompeurs similaires par le passé. Bien que ces graphiques étaient utilisés pour comparer les performances de leurs propres modèles.

XAI5.89%

GROK3.69%

Voir l'original

Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#BTC#
192k publications
#ETH#
120k publications
#PI#
96k publications
4#GateioInto11#
76k publications
5#ContentStar#
64k publications
6#BOME#
59k publications
7#GT#
56k publications
8#DOGE#
53k publications
9#MAGA#
52k publications
10#SLERF#
51k publications

Épingler