Meituan merilis model multimodal asli LongCat-Next

2026-03-27 08:47:37

27 Maret, Meituan merilis dan sepenuhnya mengopen-sumberkan model multimodal asli native multi-modal LongCat-Next beserta komponen intinya—discrete native resolution visual tokenizer (dNaViT). Model ini mematahkan arsitektur tradisional yang “berpusat pada bahasa” dalam model skala besar yang selama ini ada, dengan pendekatan rakitan (patchwork) berikut; model ini menyatukan pemetaan gambar, suara, dan teks ke dalam Token diskret yang berasal dari sumber yang sama. Melalui paradigma murni “prediksi Token berikutnya” (Next Token Prediction, NTP), LongCat-Next menjadikan visi dan audio sebagai “bahasa ibu” asli AI.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.