Setelah OpenClaw, mengapa sebagian besar orang masih merasa kurang jauh

Penulis: DeepThink Circle

Pernahkah Anda memikirkan satu pertanyaan: mengapa OpenClaw begitu populer, tetapi setelah digunakan secara nyata, kebanyakan orang merasa—itu sangat pintar, tetapi sepertinya masih kurang satu langkah?

Bukan karena modelnya tidak cukup kuat, bukan karena fungsinya tidak cukup banyak. Melainkan karena ia menyelesaikan masalah “berpikir”, tetapi belum menyelesaikan masalah “melakukan”.

Anda memberitahunya untuk menjalankan sebuah tugas, ia berjalan di terminal, menulis di IDE, melakukan inferensi di kotak dialog. Tetapi setiap langkah dari “penilaian selesai” hingga “benar-benar selesai” masih ada jarak—mengganti jendela, mencari sistem, menyalin dan menempel, mengklik konfirmasi—semua itu tetap Anda yang jalani.

Ini bukan kesalahan desain OpenClaw, melainkan masalah struktural yang dihadapi oleh ekosistem AI Agent saat ini: lapisan persepsi dan inferensi sudah cukup matang, tetapi lapisan eksekusi hampir kosong.

Variabel yang sering diremehkan

Dalam dua tahun terakhir, diskusi tentang infrastruktur AI terkonsentrasi pada dua arah:

Pertama, kemampuan model—skala parameter, kecepatan inferensi, jendela konteks—kemajuan di bidang ini sudah terbukti nyata.

Kedua, kerangka kerja Agent—kemampuan penjadwalan dan pengaturan tugas yang diwakili oleh LangChain, AutoGPT, OpenClaw—juga banyak mendapatkan investasi.

Namun ada satu variabel yang hampir tidak ada yang secara sistematis mengerjakan: infrastruktur eksekusi di tingkat stasiun kerja.

Apa itu infrastruktur eksekusi di tingkat stasiun kerja?

Sederhananya, itu adalah sesuatu yang memungkinkan Agent benar-benar bisa “beraksi” di lingkungan kerja nyata Anda—bukan di sandbox, bukan di wadahnya sendiri, melainkan di layar nyata Anda, di alat nyata Anda, di sistem nyata Anda.

Mengapa ini sulit?

Karena kompleksitas lingkungan kerja nyata jauh melampaui simulasi sandbox. Banyak perusahaan menjalankan sistem legacy tanpa API, banyak alur kerja yang harus melintasi lima atau enam alat berbeda, konteks dari berbagai tugas tersebar di banyak jendela, tanpa adanya antarmuka standar yang bisa dipanggil.

Kerumitan ini tidak bisa diselesaikan hanya dengan model yang lebih pintar. Ia membutuhkan kemampuan persepsi dan eksekusi yang lebih mendasar—dapat melihat layar nyata, memahami status antar jendela, dan langsung mengendalikan mouse dan keyboard secara langsung.

Inilah sebenarnya hambatan utama dalam mewujudkan Agent secara nyata, dan variabel yang secara sistematis diremehkan oleh kebanyakan orang saat membahas AI Agent.

Apa yang dilakukan Violoop

Baru-baru ini ada sebuah proyek yang masuk ke perhatian saya, bernama Violoop.

Bentuknya adalah perangkat keras AI yang terintegrasi di meja, dengan layar sentuh bawaan, terhubung ke komputer melalui HDMI + Type-C, mendukung Mac dan Windows. Dari bentuknya, terlihat biasa saja. Tapi apa yang dilakukan, justru mengarah ke posisi yang sering diremehkan tadi.

Ia mengumpulkan tiga jenis data: aliran video (persepsi visual global layar), API sistem (sinyal status sistem operasi), dan izin kontrol HID (pengendalian dasar mouse dan keyboard). Ketiga lapisan ini digabungkan membentuk runtime persepsi-penilaian-eksekusi tingkat stasiun kerja.

Yang lebih penting lagi adalah mode kerjanya: ia bukan pengeksekusi pasif yang menunggu instruksi, melainkan runtime aktif yang terus-menerus memantau kondisi kerja, secara proaktif menilai kapan harus campur tangan.

Ia memantau jendela mana yang Anda buka, berapa lama Anda berada di halaman tertentu, dan ritme tugasnya—kemudian secara otomatis menilai apakah saatnya bertindak atau tidak. Logika desain ini berbeda secara esensial dari mode “respon pasif” yang dimiliki semua alat AI saat ini.

Nilai struktural lapisan eksekusi

Saya ingin sedikit menguraikan mengapa ketiadaan lapisan eksekusi ini adalah masalah struktural, bukan sekadar kekurangan fungsi.

Hierarki alat AI Agent saat ini bisa dipahami secara kasar sebagai:

Lapisan model: bertanggung jawab untuk inferensi, sudah cukup matang

Lapisan kerangka kerja: bertanggung jawab untuk penjadwalan tugas, cepat konvergen

Lapisan alat: meningkatkan performa dalam skenario tertentu, sangat homogen

Lapisan eksekusi: bertanggung jawab untuk persepsi tingkat stasiun kerja dan eksekusi lintas alat, hampir kosong

Ketiadaan lapisan eksekusi ini bukan hanya membuat Agent kurang optimal—lebih dalam lagi, membatasi kemampuan Agent secara manusiawi, karena batas kemampuan mereka secara kontekstual dibatasi oleh wadahnya.

Contohnya, kemampuan Cursor terbatas pada IDE. Kemampuan Claude Code terbatas pada terminal. Mereka sangat kuat di dalam wadahnya, tetapi apa yang terjadi di luar itu tidak mereka ketahui dan tidak bisa mereka respons.

Ini berarti, secara esensial, AI Agent saat ini masih sebatas “peningkatan parsial”—ia meningkatkan kemampuan Anda di satu alat tertentu, tetapi tidak meningkatkan kemampuan Anda dalam seluruh alur kerja.

Mewujudkan Agent yang benar-benar nyata membutuhkan kemampuan persepsi dan eksekusi yang melampaui batas wadah ini. Dibutuhkan sebuah sistem AI yang mampu melihat secara global dan mengendalikan secara menyeluruh.

Di sinilah titik masuk Violoop.

Beberapa keputusan desain yang patut dipikirkan secara mendalam

Dalam arsitektur Violoop, ada beberapa desain yang menurut saya bukan sekadar pilihan fungsi, tetapi juga cerminan dari pemahaman terhadap masalah ini.

Mode belajar rekaman layar: respons positif terhadap “realitas tanpa API”

Saat ini banyak perusahaan menjalankan sistem legacy tanpa API sama sekali. Ini bukan masalah utang teknologi, melainkan batasan nyata—sistem ini tidak akan hilang dalam waktu dekat, dan tidak akan tiba-tiba membuka antarmuka.

Mode belajar rekaman layar Violoop, menggunakan reinforcement learning untuk membangun model struktur tugas, bukan sekadar merekam dan memutar ulang koordinat tetap. Keputusan desain ini didasarkan pada pemahaman bahwa lingkungan kerja nyata bersifat dinamis, dan otomatisasi berbasis jalur tetap akan gagal saat UI berubah. Hanya dengan memahami niat tugas, kita bisa tetap stabil di tengah perubahan.

Ini adalah penilaian yang benar, dan juga alasan utama mengapa alat RPA tradisional sering mengalami batasan saat skalabilitas.

Pembagian kerja antara sisi perangkat dan cloud: menanggapi biaya inferensi dan batas privasi secara bersamaan

Pengolahan multimodal frekuensi tinggi (persepsi layar, pemahaman visual, pembersihan data sensitif) dilakukan di chip lokal, sementara inferensi kompleks berjalan di cloud.

Pembagian ini menyelesaikan dua masalah sekaligus: pertama, biaya—inferensi multimodal saat ini adalah sumber utama biaya operasional Agent, lokal bisa secara signifikan menurunkan biaya eksekusi per kali; kedua, privasi—data sensitif difilter sebelum dikirim ke cloud, memenuhi persyaratan tata kelola data perusahaan.

Lebih dari itu, arsitektur ini memungkinkan Violoop benar-benar standby 24/7—dengan mekanisme Wake-on-LAN, dapat otomatis membangunkan host pada waktu tertentu, menjalankan tugas, lalu kembali ke mode sleep. Ini tidak bisa dilakukan oleh Agent perangkat lunak murni.

Isolasi hak akses tingkat perangkat keras: respons teknis terhadap “risiko eksekusi mandiri”

Chip keamanan independen bertanggung jawab untuk pemeriksaan hak akses, secara fisik terisolasi dari chip utama. Operasi berisiko tinggi harus melalui proses konfirmasi perangkat keras, tidak bisa dilompati oleh perangkat lunak, dan jika kabel diputus secara fisik, seluruh sistem berhenti.

Saya sangat memperhatikan desain ini karena menunjukkan bahwa tim memahami secara jernih tentang “eksekusi aktif”: risiko eksekusi mandiri tidak cukup hanya dikendalikan oleh prompt dan sistem prompt, tetapi juga membutuhkan batasan keras di runtime. Ini adalah penilaian yang hanya dilakukan tim yang pernah mengimplementasikan Agent di lingkungan produksi.

Mengapa arah ini muncul sekarang

Ada satu pertanyaan yang layak dipikirkan: ketiadaan lapisan eksekusi bukan masalah baru, mengapa proyek seperti Violoop muncul sekarang?

Menurut saya, ada beberapa kondisi yang secara bersamaan matang dalam waktu dekat:

Pertama, kemampuan inferensi multimodal di edge sudah mencapai tingkat yang mampu memproses sinyal visual layar secara real-time. Hardware sebelumnya tidak mampu melakukan ini.

Kedua, kemampuan pemahaman tugas dari model besar cukup kuat, sehingga “memahami niat tugas” menjadi mungkin, bukan sekadar “merekam urutan operasi”. Ini adalah prasyarat keberhasilan mode belajar rekaman layar.

Ketiga, tren OpenClaw mengungkapkan masalah kekurangan lapisan eksekusi, sehingga kebutuhan pasar terhadap arah ini menjadi terlihat.

Ketiga kondisi ini yang bersamaan membuka sebuah peluang yang sebelumnya tidak ada.

Latar belakang tim Violoop juga secara tidak langsung menguatkan penilaian ini—CEO Jaylen He adalah pengusaha serial, pernah memimpin tim masuk YC, CTO King Zhu adalah lulusan MIT EECS, jenius yang menyelesaikan studi dalam 3,5 tahun, dengan latar belakang engineering di Microsoft Xbox, HoloLens, Surface, dan sejak 2023 sudah melakukan deployment di perusahaan Fortune 500. Mereka bukan tim yang baru beralih ke hardware AI karena tren OpenClaw yang sedang naik, melainkan sudah menguji arah ini sebelum kondisi matang.

Selain itu, dalam sebulan, Violoop menyelesaikan dua putaran pendanaan, putaran kedua dari pertemuan hingga tanda tangan dokumen hanya satu minggu, dan putaran ketiga sedang dalam proses—ritme ini menunjukkan bahwa modal juga mengakui potensi arah ini.

Sinyal yang benar-benar patut diperhatikan

Produk ini akan resmi crowdfunding di Kickstarter pada bulan April. Proyek ini belum mass produksi, banyak kemampuan yang masih perlu divalidasi di lingkungan nyata. Batas generalisasi mode belajar rekaman layar, keberlanjutan jangka panjang dari sistem Skill, stabilitas hardware massal—semua ini adalah pertanyaan yang membutuhkan waktu dan data pengguna nyata untuk menjawabnya.

Namun ada satu hal yang saya rasa sudah bisa dipastikan:

Lapisan eksekusi adalah infrastruktur dasar yang harus dilengkapi oleh ekosistem Agent dalam dua sampai tiga tahun ke depan. Bukan karena satu produk sedang naik daun, tetapi karena tanpa lapisan ini, semua investasi di lapisan persepsi dan inferensi tidak akan benar-benar mengubah efisiensi kerja pengguna secara nyata.

Posisi ini, suatu saat pasti akan diisi oleh orang lain.

Pertanyaan saat ini bukan “seberapa penting lapisan eksekusi”, melainkan “siapa yang akan melakukannya, bagaimana caranya, dan kapan waktu yang tepat”.

Violoop saat ini adalah salah satu dari sedikit proyek yang memahami masalah ini dengan cukup jelas dan memiliki arsitektur yang didasarkan pada penilaian sendiri.

Kesuksesan OpenClaw menunjukkan potensi Agent. Tetapi titik balik nyata dalam penerapan Agent kemungkinan besar tidak akan terjadi saat model baru dirilis, melainkan saat infrastruktur lapisan eksekusi dilengkapi.

Itulah sinyal yang benar-benar patut diperhatikan di balik tren ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan