Inventarisasi agen otonom AI, cakupan penuh konstruksi, penerapan, dan evaluasi, ikhtisar 32 halaman oleh Wen Jirong dari Gaoling Kongres Rakyat Nasional
Makalah ini memberikan pengenalan komprehensif tentang konstruksi, potensi penerapan, dan evaluasi agen berbasis model bahasa besar (LLM), yang sangat penting untuk pemahaman komprehensif tentang pengembangan bidang ini dan untuk menginspirasi penelitian di masa depan.
Sumber gambar: Dihasilkan oleh AI Tanpa Batas
Di era AI saat ini, agen otonom dianggap sebagai jalur yang menjanjikan menuju kecerdasan umum buatan (AGI). Agen otonom disebut mampu menyelesaikan tugas melalui perencanaan dan instruksi otonom. Dalam paradigma pembangunan awal, fungsi kebijakan yang menentukan tindakan agen didominasi oleh heuristik, yang secara bertahap disempurnakan dalam interaksi lingkungan.
Namun, dalam lingkungan domain terbuka yang tidak dibatasi, seringkali sulit bagi agen otonom untuk bertindak dengan kemahiran setingkat manusia.
Dengan kesuksesan besar model bahasa besar (LLM) dalam beberapa tahun terakhir, model ini telah menunjukkan potensi untuk mencapai kecerdasan mirip manusia. Oleh karena itu, berkat kemampuannya yang kuat, LLM semakin banyak digunakan sebagai koordinator inti untuk menciptakan agen otonom, dan berbagai agen AI bermunculan secara berturut-turut. Agen-agen ini menawarkan jalur yang memungkinkan menuju sistem AI yang lebih kompleks dan mudah beradaptasi dengan meniru proses pengambilan keputusan yang mirip manusia.
*Daftar agen otonom berbasis LLM, termasuk agen alat, agen simulasi, agen umum, dan agen domain. *
Pada tahap ini, sangat penting untuk melakukan analisis holistik terhadap munculnya agen otonom berbasis LLM, dan sangat penting untuk memahami sepenuhnya status pengembangan bidang ini dan menginspirasi penelitian di masa depan.
Dalam makalah ini, para peneliti dari Hillhouse School of Artificial Intelligence di Renmin University of China melakukan survei komprehensif terhadap agen otonom berbasis LLM, dengan fokus pada tiga aspek konstruksi, penerapan, dan evaluasinya.
Alamat kertas:
Untuk konstruksi agen, mereka mengusulkan kerangka terpadu yang terdiri dari empat bagian, yaitu modul konfigurasi untuk mewakili atribut agen, modul memori untuk menyimpan informasi historis, modul perencanaan untuk merumuskan strategi tindakan di masa depan, dan modul tindakan. modul untuk melaksanakan keputusan perencanaan. Setelah memperkenalkan modul agen yang umum, para peneliti juga merangkum strategi penyesuaian yang umum digunakan untuk meningkatkan kemampuan adaptasi agen terhadap skenario aplikasi yang berbeda.
Para peneliti kemudian menguraikan potensi penerapan agen otonom, mengeksplorasi bagaimana mereka dapat memberikan manfaat pada bidang ilmu sosial, ilmu alam, dan teknik. Terakhir, metode evaluasi untuk agen otonom dibahas, termasuk strategi evaluasi subjektif dan objektif. Gambar di bawah menunjukkan struktur artikel secara keseluruhan.
Sumber:
Pembangunan agen otonom berbasis LLM
Untuk membuat agen otonom berbasis LLM lebih efisien, ada dua aspek yang perlu dipertimbangkan: pertama, jenis arsitektur apa yang harus dirancang agar agen dapat memanfaatkan LLM dengan lebih baik; kedua, bagaimana mempelajari parameter secara efektif.
Desain arsitektur agen: Makalah ini mengusulkan kerangka terpadu untuk merangkum arsitektur yang diusulkan dalam penelitian sebelumnya.Struktur keseluruhan ditunjukkan pada Gambar 2, yang terdiri dari modul profiling, modul memori, modul perencanaan dan modul tindakan.
Singkatnya, modul analisis bertujuan untuk mengidentifikasi peran agen; modul memori dan perencanaan menempatkan agen dalam lingkungan yang dinamis, memungkinkan agen mengingat perilaku masa lalu dan merencanakan tindakan di masa depan; Keputusan diterjemahkan ke dalam keluaran nyata. Di antara modul-modul tersebut, modul analisis mempengaruhi modul memori dan perencanaan, dan ketiga modul ini bersama-sama mempengaruhi modul tindakan.
Modul Analisis
Agen otonom melakukan tugas melalui peran tertentu, seperti pemrogram, guru, dan pakar domain. Modul analisis bertujuan untuk menunjukkan apa peran agen, dan informasi ini biasanya ditulis ke dalam petunjuk masukan untuk mempengaruhi perilaku LLM. Dalam karya yang ada, ada tiga strategi yang umum digunakan untuk menghasilkan profil agen: metode kerajinan tangan; metode pembuatan LLM; metode penyelarasan kumpulan data.
Modul memori
Modul memori memainkan peran yang sangat penting dalam pembangunan agen AI. Ia menghafal informasi yang dirasakan dari lingkungan dan menggunakan memori yang direkam untuk memfasilitasi tindakan agen di masa depan. Modul memori dapat membantu agen mengumpulkan pengalaman, mewujudkan evolusi diri, dan menyelesaikan tugas dengan cara yang lebih konsisten, masuk akal, dan efektif.
Modul Perencanaan
Ketika manusia dihadapkan pada tugas yang kompleks, pertama-tama mereka memecahnya menjadi subtugas sederhana, lalu menyelesaikan setiap subtugas satu per satu. Modul perencanaan memberi agen berbasis LLM kemampuan berpikir dan perencanaan yang diperlukan untuk menyelesaikan tugas-tugas kompleks, menjadikan agen lebih komprehensif, kuat, dan andal. Artikel ini menyajikan dua modul perencanaan: perencanaan tanpa umpan balik dan perencanaan dengan umpan balik.
Modul Aksi
Modul tindakan bertujuan untuk mengubah keputusan agen menjadi keluaran hasil tertentu. Ia berinteraksi langsung dengan lingkungan dan menentukan efektivitas agen dalam menyelesaikan tugas. Bagian ini memperkenalkan dari perspektif tujuan tindakan, kebijakan, ruang tindakan dan pengaruh tindakan.
Selain 4 bagian di atas, bab ini juga memperkenalkan strategi pembelajaran agen, termasuk belajar dari contoh, belajar dari umpan balik lingkungan, dan belajar dari umpan balik manusia yang interaktif.
Tabel 1 mencantumkan korespondensi antara pekerjaan sebelumnya dan taksonomi kami:
Aplikasi agen otonom berbasis LLM
Bab ini mengeksplorasi dampak transformatif agen otonom berbasis LLM di tiga bidang berbeda: ilmu sosial, ilmu alam, dan teknik.
Misalnya, agen berbasis LLM dapat digunakan untuk merancang dan mengoptimalkan struktur kompleks seperti bangunan, jembatan, bendungan, jalan, dll. Sebelumnya, beberapa peneliti mengusulkan kerangka kerja interaktif di mana arsitek manusia dan agen AI bekerja sama untuk membangun lingkungan struktural dalam simulasi 3D. Agen interaktif dapat memahami instruksi bahasa alami, menempatkan modul, mencari saran, dan menggabungkan umpan balik manusia, yang menunjukkan potensi kolaborasi manusia-mesin dalam desain teknik.
Dalam ilmu komputer dan rekayasa perangkat lunak, misalnya, agen berbasis LLM menawarkan potensi untuk mengotomatiskan pengkodean, pengujian, debugging, dan pembuatan dokumentasi. Beberapa peneliti telah mengusulkan ChatDev, yang merupakan kerangka kerja end-to-end di mana banyak agen berkomunikasi dan berkolaborasi melalui dialog bahasa alami untuk menyelesaikan siklus hidup pengembangan perangkat lunak; ToolBench dapat digunakan untuk tugas-tugas seperti penyelesaian otomatis kode dan rekomendasi kode; MetaGPT dapat memainkan peran sebagai manajer produk, arsitek, manajer proyek dan insinyur, mengawasi pembuatan kode secara internal dan meningkatkan kualitas kode keluaran akhir, dll.
Tabel berikut menunjukkan aplikasi perwakilan agen otonom berbasis LLM:
Evaluasi Agen Otonom Berbasis LLM
Artikel ini memperkenalkan dua strategi evaluasi yang umum digunakan: evaluasi subjektif dan evaluasi objektif.
Evaluasi subyektif mengacu pada kemampuan manusia untuk menguji agen berbasis LLM melalui berbagai cara seperti interaksi dan penilaian. Dalam hal ini, orang-orang yang berpartisipasi dalam evaluasi sering kali direkrut melalui platform crowdsourcing; dan beberapa peneliti percaya bahwa personel crowdsourcing tidak stabil karena perbedaan kemampuan individu, sehingga penjelasan ahli juga digunakan untuk evaluasi.
Selain itu, dalam beberapa penelitian saat ini, kita dapat menggunakan agen LLM sebagai evaluator subjektif. Dalam studi ChemCrow, misalnya, uatorGPT mengevaluasi hasil eksperimen dengan memberikan peringkat yang mempertimbangkan keberhasilan penyelesaian tugas dan keakuratan proses berpikir yang mendasarinya. Contoh lainnya adalah Chat membentuk tim wasit multi-agen berbasis LLM untuk mengevaluasi hasil pembuatan model melalui debat.
Evaluasi objektif memiliki beberapa keunggulan dibandingkan evaluasi subjektif, yang mengacu pada penggunaan metrik kuantitatif untuk mengevaluasi kemampuan agen otonom berbasis LLM. Bagian ini mengulas dan mensintesis metode evaluasi objektif dari perspektif metrik, strategi, dan tolok ukur.
Kita dapat menggabungkan kedua metode ini selama penilaian penggunaan.
Tabel 3 merangkum korespondensi antara penelitian sebelumnya dan strategi evaluasi berikut:
Untuk informasi lebih lanjut, silakan merujuk ke kertas aslinya.
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Inventarisasi agen otonom AI, cakupan penuh konstruksi, penerapan, dan evaluasi, ikhtisar 32 halaman oleh Wen Jirong dari Gaoling Kongres Rakyat Nasional
Editor: Du Wei, Chen Ping
Di era AI saat ini, agen otonom dianggap sebagai jalur yang menjanjikan menuju kecerdasan umum buatan (AGI). Agen otonom disebut mampu menyelesaikan tugas melalui perencanaan dan instruksi otonom. Dalam paradigma pembangunan awal, fungsi kebijakan yang menentukan tindakan agen didominasi oleh heuristik, yang secara bertahap disempurnakan dalam interaksi lingkungan.
Namun, dalam lingkungan domain terbuka yang tidak dibatasi, seringkali sulit bagi agen otonom untuk bertindak dengan kemahiran setingkat manusia.
Dengan kesuksesan besar model bahasa besar (LLM) dalam beberapa tahun terakhir, model ini telah menunjukkan potensi untuk mencapai kecerdasan mirip manusia. Oleh karena itu, berkat kemampuannya yang kuat, LLM semakin banyak digunakan sebagai koordinator inti untuk menciptakan agen otonom, dan berbagai agen AI bermunculan secara berturut-turut. Agen-agen ini menawarkan jalur yang memungkinkan menuju sistem AI yang lebih kompleks dan mudah beradaptasi dengan meniru proses pengambilan keputusan yang mirip manusia.
Pada tahap ini, sangat penting untuk melakukan analisis holistik terhadap munculnya agen otonom berbasis LLM, dan sangat penting untuk memahami sepenuhnya status pengembangan bidang ini dan menginspirasi penelitian di masa depan.
Dalam makalah ini, para peneliti dari Hillhouse School of Artificial Intelligence di Renmin University of China melakukan survei komprehensif terhadap agen otonom berbasis LLM, dengan fokus pada tiga aspek konstruksi, penerapan, dan evaluasinya.
Untuk konstruksi agen, mereka mengusulkan kerangka terpadu yang terdiri dari empat bagian, yaitu modul konfigurasi untuk mewakili atribut agen, modul memori untuk menyimpan informasi historis, modul perencanaan untuk merumuskan strategi tindakan di masa depan, dan modul tindakan. modul untuk melaksanakan keputusan perencanaan. Setelah memperkenalkan modul agen yang umum, para peneliti juga merangkum strategi penyesuaian yang umum digunakan untuk meningkatkan kemampuan adaptasi agen terhadap skenario aplikasi yang berbeda.
Para peneliti kemudian menguraikan potensi penerapan agen otonom, mengeksplorasi bagaimana mereka dapat memberikan manfaat pada bidang ilmu sosial, ilmu alam, dan teknik. Terakhir, metode evaluasi untuk agen otonom dibahas, termasuk strategi evaluasi subjektif dan objektif. Gambar di bawah menunjukkan struktur artikel secara keseluruhan.
Pembangunan agen otonom berbasis LLM
Untuk membuat agen otonom berbasis LLM lebih efisien, ada dua aspek yang perlu dipertimbangkan: pertama, jenis arsitektur apa yang harus dirancang agar agen dapat memanfaatkan LLM dengan lebih baik; kedua, bagaimana mempelajari parameter secara efektif.
Desain arsitektur agen: Makalah ini mengusulkan kerangka terpadu untuk merangkum arsitektur yang diusulkan dalam penelitian sebelumnya.Struktur keseluruhan ditunjukkan pada Gambar 2, yang terdiri dari modul profiling, modul memori, modul perencanaan dan modul tindakan.
Modul Analisis
Agen otonom melakukan tugas melalui peran tertentu, seperti pemrogram, guru, dan pakar domain. Modul analisis bertujuan untuk menunjukkan apa peran agen, dan informasi ini biasanya ditulis ke dalam petunjuk masukan untuk mempengaruhi perilaku LLM. Dalam karya yang ada, ada tiga strategi yang umum digunakan untuk menghasilkan profil agen: metode kerajinan tangan; metode pembuatan LLM; metode penyelarasan kumpulan data.
Modul memori
Modul memori memainkan peran yang sangat penting dalam pembangunan agen AI. Ia menghafal informasi yang dirasakan dari lingkungan dan menggunakan memori yang direkam untuk memfasilitasi tindakan agen di masa depan. Modul memori dapat membantu agen mengumpulkan pengalaman, mewujudkan evolusi diri, dan menyelesaikan tugas dengan cara yang lebih konsisten, masuk akal, dan efektif.
Modul Perencanaan
Ketika manusia dihadapkan pada tugas yang kompleks, pertama-tama mereka memecahnya menjadi subtugas sederhana, lalu menyelesaikan setiap subtugas satu per satu. Modul perencanaan memberi agen berbasis LLM kemampuan berpikir dan perencanaan yang diperlukan untuk menyelesaikan tugas-tugas kompleks, menjadikan agen lebih komprehensif, kuat, dan andal. Artikel ini menyajikan dua modul perencanaan: perencanaan tanpa umpan balik dan perencanaan dengan umpan balik.
Modul Aksi
Modul tindakan bertujuan untuk mengubah keputusan agen menjadi keluaran hasil tertentu. Ia berinteraksi langsung dengan lingkungan dan menentukan efektivitas agen dalam menyelesaikan tugas. Bagian ini memperkenalkan dari perspektif tujuan tindakan, kebijakan, ruang tindakan dan pengaruh tindakan.
Selain 4 bagian di atas, bab ini juga memperkenalkan strategi pembelajaran agen, termasuk belajar dari contoh, belajar dari umpan balik lingkungan, dan belajar dari umpan balik manusia yang interaktif.
Tabel 1 mencantumkan korespondensi antara pekerjaan sebelumnya dan taksonomi kami:
Bab ini mengeksplorasi dampak transformatif agen otonom berbasis LLM di tiga bidang berbeda: ilmu sosial, ilmu alam, dan teknik.
Dalam ilmu komputer dan rekayasa perangkat lunak, misalnya, agen berbasis LLM menawarkan potensi untuk mengotomatiskan pengkodean, pengujian, debugging, dan pembuatan dokumentasi. Beberapa peneliti telah mengusulkan ChatDev, yang merupakan kerangka kerja end-to-end di mana banyak agen berkomunikasi dan berkolaborasi melalui dialog bahasa alami untuk menyelesaikan siklus hidup pengembangan perangkat lunak; ToolBench dapat digunakan untuk tugas-tugas seperti penyelesaian otomatis kode dan rekomendasi kode; MetaGPT dapat memainkan peran sebagai manajer produk, arsitek, manajer proyek dan insinyur, mengawasi pembuatan kode secara internal dan meningkatkan kualitas kode keluaran akhir, dll.
Tabel berikut menunjukkan aplikasi perwakilan agen otonom berbasis LLM:
Artikel ini memperkenalkan dua strategi evaluasi yang umum digunakan: evaluasi subjektif dan evaluasi objektif.
Evaluasi subyektif mengacu pada kemampuan manusia untuk menguji agen berbasis LLM melalui berbagai cara seperti interaksi dan penilaian. Dalam hal ini, orang-orang yang berpartisipasi dalam evaluasi sering kali direkrut melalui platform crowdsourcing; dan beberapa peneliti percaya bahwa personel crowdsourcing tidak stabil karena perbedaan kemampuan individu, sehingga penjelasan ahli juga digunakan untuk evaluasi.
Selain itu, dalam beberapa penelitian saat ini, kita dapat menggunakan agen LLM sebagai evaluator subjektif. Dalam studi ChemCrow, misalnya, uatorGPT mengevaluasi hasil eksperimen dengan memberikan peringkat yang mempertimbangkan keberhasilan penyelesaian tugas dan keakuratan proses berpikir yang mendasarinya. Contoh lainnya adalah Chat membentuk tim wasit multi-agen berbasis LLM untuk mengevaluasi hasil pembuatan model melalui debat.
Evaluasi objektif memiliki beberapa keunggulan dibandingkan evaluasi subjektif, yang mengacu pada penggunaan metrik kuantitatif untuk mengevaluasi kemampuan agen otonom berbasis LLM. Bagian ini mengulas dan mensintesis metode evaluasi objektif dari perspektif metrik, strategi, dan tolok ukur.
Kita dapat menggabungkan kedua metode ini selama penilaian penggunaan.
Tabel 3 merangkum korespondensi antara penelitian sebelumnya dan strategi evaluasi berikut: