Asked GPT Image 2.0 to create a benchmark table of opus 4.7 vs gpt 5.5.
その画像モデルは非常に良くなった。
GPT-5.5がヘッドラインのスコアボードで勝利した。でもよく見てみて。
OSWorld 78.7対78.0。GDPval 84.9対80.3。Toolathlon 55.6対54.6 (オーバー5.4、Opusではなく)。
OpusはまだSWE-Bench Pro、MCP Atlas、GPQA Diamond、HLE no-toolsを使用している。
OpenAIはオールラウンドのベルトを獲得。Anthropicはコーディングの王冠を維持。紙の上では。
原文表示