美团はネイティブ多モーダル大規模モデルLongCat-Nextを発表しました

3月27日の報道によると、Meituanはネイティブのマルチモーダル大規模モデル「LongCat-Next」とそのコアコンポーネントである離散ネイティブ解像度ビジュアルトークナイザー(dNaViT)を公開し、全面的にオープンソース化しました。
このモデルは、従来の「言語中心」の大規模モデルの構造を打ち破り、画像、音声、テキストを同一源の離散トークンに統一的にマッピングします。
純粋な「次のトークン予測」(Next Token Prediction、NTP)方式を採用することで、LongCat-Nextは視覚と音声をAIの「ネイティブな母語」にします。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン