3月27日の報道によると、Meituanはネイティブのマルチモーダル大規模モデル「LongCat-Next」とそのコアコンポーネントである離散ネイティブ解像度ビジュアルトークナイザー(dNaViT)を公開し、全面的にオープンソース化しました。 このモデルは、従来の「言語中心」の大規模モデルの構造を打ち破り、画像、音声、テキストを同一源の離散トークンに統一的にマッピングします。 純粋な「次のトークン予測」(Next Token Prediction、NTP)方式を採用することで、LongCat-Nextは視覚と音声をAIの「ネイティブな母語」にします。
美团はネイティブ多モーダル大規模モデルLongCat-Nextを発表しました
3月27日の報道によると、Meituanはネイティブのマルチモーダル大規模モデル「LongCat-Next」とそのコアコンポーネントである離散ネイティブ解像度ビジュアルトークナイザー(dNaViT)を公開し、全面的にオープンソース化しました。
このモデルは、従来の「言語中心」の大規模モデルの構造を打ち破り、画像、音声、テキストを同一源の離散トークンに統一的にマッピングします。
純粋な「次のトークン予測」(Next Token Prediction、NTP)方式を採用することで、LongCat-Nextは視覚と音声をAIの「ネイティブな母語」にします。