ChainCatcher 消息,据金十报道,OpenAI 的一名员工公开指责马斯克旗下的XAI公司,称其发布的最新 AI 模型 Grok3 的Benchmark测试结果具有误导性。对此,XAI 的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。
Le graphique de XAI montre que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle actuellement le plus puissant d'OpenAI, o3-mini-high, lors de l'AIME 2025. Cependant, les employés d'OpenAI ont rapidement souligné sur la plateforme X que le graphique de XAI n'incluait pas le score AIME 2025 de o3-mini-high dans la condition "cons@64".
Babushkin a affirmé sur la plateforme X que OpenAI avait également publié des graphiques de tests de référence trompeurs similaires par le passé. Bien que ces graphiques étaient utilisés pour comparer les performances de leurs propres modèles.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Les employés d'OpenAI ont publiquement accusé les résultats des tests de benchmark du dernier modèle d'IA, Grok3, d'être trompeurs.
ChainCatcher 消息,据金十报道,OpenAI 的一名员工公开指责马斯克旗下的XAI公司,称其发布的最新 AI 模型 Grok3 的Benchmark测试结果具有误导性。对此,XAI 的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。 Le graphique de XAI montre que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle actuellement le plus puissant d'OpenAI, o3-mini-high, lors de l'AIME 2025. Cependant, les employés d'OpenAI ont rapidement souligné sur la plateforme X que le graphique de XAI n'incluait pas le score AIME 2025 de o3-mini-high dans la condition "cons@64". Babushkin a affirmé sur la plateforme X que OpenAI avait également publié des graphiques de tests de référence trompeurs similaires par le passé. Bien que ces graphiques étaient utilisés pour comparer les performances de leurs propres modèles.