Milla Jova Vichy menggunakan AI untuk membuat “proyek nilai sempurna”? Pengembang menguji secara langsung: benar-benar berkualitas atau hanya membesar-besarkan dan melakukan promosi berlebihan?

CryptoCity

Sistem ingatan AI MemPalace yang dikembangkan bersama oleh Milla Jovovich mengklaim meraih nilai sempurna dalam pengujian lalu menjadi viral, namun segera dibongkar oleh komunitas bahwa pengujiannya diduga curang dan menyesatkan data. Hasil pengujian nyata menunjukkan bahwa kinerjanya dibesar-besarkan dan terdapat banyak kesalahan. Tim pun telah mengakui kekurangan dan sedang melakukan perbaikan.

Milla Jovovich membangun AI palace ingatan, menarik perhatian publik

Kemarin (4/7), ada kabar besar di kalangan AI: aktris Hollywood Milla Jovovich yang terkenal lewat Resident Evil dan The Fifth Element, bersama pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem AI memori open source “MemPalace”.

Sekilas, kabar “bintang Hollywood lintas bidang membuat proyek nilai sempurna” menyebar luas. Hingga saat ini, MemPalace juga sudah mendapat lebih dari 20k bintang di GitHub, tetapi tak lama kemudian komunitas pengembang mulai mempertanyakan: apakah memang ada isinya atau hanya promosi belaka?

Mari kita bahas terlebih dahulu motivasi lahirnya MemPalace. Dokumentasi resmi menyebut tujuannya adalah mengatasi keterbatasan bahwa pada sistem AI saat ini, konten percakapan dengan AI, proses pengambilan keputusan, dan pembahasan arsitektur biasanya menghilang setelah sesi kerja selesai, sehingga kerja keras berbulan-bulan menjadi sia-sia.

Untuk memecahkan masalah ini, MemPalace menggunakan arsitektur berbasis ruang untuk menyimpan ingatan, mengelompokkan informasi secara jelas ke wilayah sayap yang mewakili personel atau proyek, serta ke struktur tingkat berbeda seperti lorong, kamar, dan laci, dengan mempertahankan teks percakapan asli untuk pencarian makna berikutnya.

Tim pengembang mengklaim bahwa MemPalace meraih skor sempurna 100% pada basis evaluasi ingatan jangka panjang LongMemEval, dan mencapai akurasi 96,6% tanpa memanggil API eksternal apa pun. Selain itu, sistem ini bisa berjalan sepenuhnya di sisi lokal, tidak perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim mampu mencapai kompresi tanpa rugi 30x.

Sumber gambar: GitHub Bintang film Hollywood Milla Jovovich membangun AI palace ingatan, menarik perhatian publik

Rekan seprofesi dan komunitas sama-sama mempertanyakan, metode pengujian dan promosi banyak cacat

Namun, pencapaian skor penuh LongMemEval dari MemPalace segera memicu keraguan dari rekan seprofesi.

PenfieldLabs, yang juga mengembangkan sistem AI memori, menunjuk bahwa klaim MemPalace meraih skor sempurna pada dataset LoCoMo secara matematis tidak mungkin terjadi, karena jawaban standar dalam dataset tersebut sendiri sudah berisi 99 kesalahan.

Analisis PenfieldLabs menemukan bahwa skor 100% MemPalace berasal dari penyetelan jumlah penelusuran menjadi 50 kali, tetapi jumlah tahap maksimum pada percakapan dalam data uji hanya 32 kali. Artinya sistem langsung melewati tahap penelusuran, dan menyerahkan semua data kepada model AI untuk dibaca.

Terkait skor 100% pada LongMemEval, tim pengembang ditemukan mengarah pada tiga masalah spesifik yang salah saat pengembangan, kemudian menulis kode perbaikan khusus. Ini menimbulkan dugaan bahwa ada kecurangan pada set pengujian.

Sumber gambar: Reddit Rekan seprofesi PenfieldLabs menunjukkan bahwa klaim MemPalace meraih skor sempurna pada dataset LoCoMo secara matematis tidak mungkin terjadi

Pengujian pengguna GitHub, tes acuan mengandung unsur menyesatkan

Pengguna GitHub hugooconnor, setelah pengujian langsung, berkomentar bahwa MemPalace mengklaim akurasi penelusuran setinggi 96,6%, tetapi sebenarnya sama sekali tidak menggunakan arsitektur AI palace ingatan yang dipromosikan oleh MemPalace. hugooconnor menyebut bahwa pengujian mereka hanya memanggil fitur bawaan dari basis data tingkat bawah ChromaDB, tanpa melibatkan logika klasifikasi seperti wilayah sayap, kamar, atau laci yang ditegaskan oleh proyek tersebut.

Setelah pengujian, hugooconnor menemukan bahwa ketika sistem benar-benar mengaktifkan logika klasifikasi khusus dari AI palace tersebut, justru terjadi penurunan kinerja pencarian. Sebagai contoh mode kamar, akurasi turun menjadi 89,4%; dan setelah mengaktifkan teknik kompresi AAAK, akurasi turun lebih jauh menjadi 84,2%, dan keduanya lebih rendah daripada performa basis data bawaan.

hugooconnor juga mengkritik metode pengujian: lingkungan pengujian MemPalace sengaja mengecilkan rentang penelusuran untuk setiap pertanyaan menjadi sekitar 50 tahap percakapan, sehingga mencari jawaban dalam kumpulan data sampel yang sangat kecil menjadi terlalu mudah.

Jika rentang diperluas ke lebih dari 19.000 tahap percakapan dalam skenario nyata, akurasi pencarian berbasis kata kunci tradisional justru anjlok hingga 30%, menunjukkan bahwa cara pengujian MemPalace saat ini menutupi kesulitan pencarian yang sebenarnya.

Sumber gambar: GitHub Pengguna GitHub pengujian langsung, MemPalace komponen penilaian berbasis acuan mengandung unsur menyesatkan

Sementara itu, meskipun tim pengembang sudah merilis pernyataan koreksi dan mengakui bahwa teknologi AAAK memang terbukti sebagai kompresi dengan rugi, serta berjanji akan menyesuaikan dokumentasi dan desain sistem berdasarkan kritik keras dari komunitas, dokumen penjelasan utama proyek tetap mempertahankan banyak klaim yang belum dikoreksi. Termasuk klaim kompresi tanpa rugi 30x dan peningkatan penelusuran 34%, serta perbandingan dengan pesaing lain pada bagan yang juga sama sekali tidak menyertakan sumber.

Kode sumber MemPalace menghadapi banyak Bug

Seiring makin banyak pengembang yang mengunduh pengujian, di platform GitHub bermunculan laporan Bug dalam jumlah besar terkait kode sumber MemPalace.

Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk perintah kompresi tidak dapat dijalankan dan menyebabkan sistem crash, kesalahan logika perhitungan jumlah kata pada ringkasan, statistik penambangan kamar yang tidak akurat, serta masalah konsumsi sumber daya berat karena server memuat semua data interpretasi ke dalam memori setiap kali melakukan pemanggilan.

Masalah lain yang turut disorot juga mencakup sistem yang menuliskan nama anggota keluarga developer secara paksa ke dalam berkas konfigurasi default, serta adanya batas paksa tampilan maksimum 10k entri data saat melakukan kueri status.

Menanggapi masalah-masalah tersebut, komunitas open source telah mulai melakukan perbaikan secara aktif. Pengguna adv3nt3 mengajukan berbagai** permintaan perbaikan****, termasuk memperbaiki statistik penambangan, menghapus nama anggota keluarga yang ditetapkan secara default, serta menunda waktu inisialisasi inisialisasi pengetahuan untuk knowledge graph.** Tim pengembang selanjutnya juga mengakui kesalahan-kesalahan ini dan sedang menyelesaikan masalah kode secara bertahap melalui kerja sama komunitas.

Vibe Coding Milla Jovovich keren, tapi cara pemasarannya tidak keren

Untuk proyek MemPalace, seorang pengguna Hacker News bernama darkhanakh menarik kesimpulan: MemPalace memberikan kesan seperti OpenClaw, yaitu memanipulasi hasil benchmark secara sengaja agar terlihat sempurna, lalu membungkusnya sebagai semacam terobosan besar untuk pemasaran.

Ia berpendapat bahwa teknologi dasar MemPalace mungkin memang menarik, tetapi dalam situasi metode pengujian memiliki cacat seperti itu, bahkan masih mengusung promosi “skor publik tertinggi sepanjang masa”, tentu tidak terlalu pantas. “Namun, soal Milla Jovovich bermain Vibe Coding, menurut saya itu tetap cukup keren.”

Bacaan lanjutan:
AI menulis program dan berantakan! Aplikasi “Penghuni Pemburu Sisa” produk tanggal berlaku minimarket meledak masalah keamanan siber, GPS di rumah telanjang sepenuhnya

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar