Meituan merilis model multimodal asli LongCat-Next

27 Maret, Meituan merilis dan sepenuhnya mengopen-sumberkan model multimodal asli native multi-modal LongCat-Next beserta komponen intinya—discrete native resolution visual tokenizer (dNaViT). Model ini mematahkan arsitektur tradisional yang “berpusat pada bahasa” dalam model skala besar yang selama ini ada, dengan pendekatan rakitan (patchwork) berikut; model ini menyatukan pemetaan gambar, suara, dan teks ke dalam Token diskret yang berasal dari sumber yang sama. Melalui paradigma murni “prediksi Token berikutnya” (Next Token Prediction, NTP), LongCat-Next menjadikan visi dan audio sebagai “bahasa ibu” asli AI.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan