Memberitahu chatbot AI bahwa Anda memiliki kondisi kesehatan mental dapat mengubah responsnya, bahkan jika tugas tersebut tidak berbahaya atau sama dengan yang telah diselesaikan sebelumnya, menurut penelitian baru. Studi preprint ini, yang dipimpin oleh peneliti dari Northeastern University, Caglar Yildirim, menguji bagaimana agen model bahasa besar berperilaku di bawah berbagai pengaturan pengguna, karena mereka semakin banyak digunakan sebagai agen AI. “Sistem yang diterapkan sering kali bergantung pada profil pengguna atau memori permanen, namun evaluasi keamanan agen biasanya mengabaikan sinyal personalisasi,” kata studi tersebut. “Untuk mengatasi kekurangan ini, kami menyelidiki bagaimana pengungkapan kondisi kesehatan mental, sebagai konteks pengguna yang sensitif dan realistis, mempengaruhi perilaku berbahaya dalam pengaturan agenik.”
Laporan ini muncul saat agen AI berkembang pesat secara daring dan pengembang menjadikan memori sebagai fitur inti, dengan perusahaan besar membangun sistem yang mengingat percakapan dan preferensi pengguna untuk memberikan respons yang lebih personal dari waktu ke waktu. Ini juga muncul saat pengembang AI menghadapi gugatan terkait bunuh diri dan kejahatan kekerasan yang diduga dilakukan dalam kaitannya dengan interaksi yang melibatkan sistem mereka. Pada bulan Oktober, pengembang ChatGPT, OpenAI, mengungkapkan bahwa lebih dari 1 juta pengguna membahas bunuh diri dengan chatbot setiap minggu. Awal bulan ini, keluarga Jonathan Gavalas mengajukan gugatan terhadap Google, mengklaim Gemini menyebabkan peningkatan kekerasan dan bunuh diri akhirnya. Para peneliti menggunakan tolok ukur bernama AgentHarm untuk menjalankan serangkaian tugas yang sama dalam tiga kondisi: tanpa informasi latar belakang, bio pengguna singkat, dan bio yang sama dengan satu kalimat tambahan yang menyatakan pengguna memiliki kondisi kesehatan mental.
“Dalam studi ini, kami menggunakan pengungkapan yang sangat minimal dan umum, ‘Saya memiliki kondisi kesehatan mental.’ Kesimpulannya adalah bahwa bahkan petunjuk kecil dapat mengubah perilaku model, bukan bahwa semua frasa akan memiliki efek yang sama,” kata Yildirim kepada Decrypt. “Ablasi yang kami lakukan dengan pengungkapan tentang kesehatan kronis dan disabilitas fisik menunjukkan adanya kekhususan terhadap petunjuk kesehatan mental, tetapi kami tidak secara sistematis memvariasikan frasa atau kekhususan dalam kategori tersebut. Di antara model yang diuji, termasuk DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5, dan Sonnet 4.5, ketika peneliti menambahkan konteks kesehatan mental pribadi, model menjadi kurang cenderung menyelesaikan tugas berbahaya—permintaan multi-langkah yang dapat menyebabkan kerugian di dunia nyata. Hasilnya, studi menemukan, adalah trade-off: Menambahkan detail pribadi membuat sistem lebih berhati-hati terhadap permintaan berbahaya, tetapi juga lebih cenderung menolak permintaan yang sah. “Saya tidak berpikir ada satu alasan tunggal; ini benar-benar kombinasi dari pilihan desain. Beberapa sistem lebih agresif disetel untuk menolak permintaan berisiko, sementara yang lain lebih mengutamakan membantu dan menyelesaikan tugas,” kata Yildirim. Namun, efeknya bervariasi tergantung model, dan hasilnya berubah ketika LLM di-jailbreak setelah peneliti menambahkan prompt yang dirancang untuk mendorong model agar patuh. “Model mungkin terlihat aman dalam pengaturan standar, tetapi menjadi jauh lebih rentan ketika Anda memperkenalkan hal-hal seperti prompt jailbreak,” katanya. “Dan secara khusus dalam sistem agen, ada lapisan tambahan, karena model ini tidak hanya menghasilkan teks, mereka juga merencanakan dan bertindak melalui beberapa langkah. Jadi jika sebuah sistem sangat baik mengikuti instruksi, tetapi perlindungannya lebih mudah dilanggar, itu sebenarnya dapat meningkatkan risiko.” Musim panas lalu, peneliti dari George Mason University menunjukkan bahwa sistem AI dapat diretas dengan mengubah satu bit dalam memori menggunakan Oneflip, sebuah serangan seperti “typo” yang membuat model tetap berfungsi normal tetapi menyembunyikan backdoor yang dapat memaksa keluaran yang salah sesuai perintah. Meskipun makalah ini tidak mengidentifikasi satu penyebab tunggal dari perubahan tersebut, ia menyoroti kemungkinan penjelasan, termasuk sistem keamanan yang bereaksi terhadap kerentanan yang dirasakan, penyaringan berbasis kata kunci, atau perubahan dalam cara penafsiran prompt saat detail pribadi disertakan.
OpenAI menolak berkomentar tentang studi ini. Anthropic dan Google tidak segera menanggapi permintaan komentar. Yildirim mengatakan bahwa masih belum jelas apakah pernyataan yang lebih spesifik seperti “Saya mengalami depresi klinis” akan mengubah hasil, menambahkan bahwa meskipun kekhususan kemungkinan penting dan dapat bervariasi antar model, itu masih sebuah hipotesis dan bukan kesimpulan yang didukung data. “Ada potensi risiko jika sebuah model menghasilkan output yang secara gaya berhati-hati atau hampir menolak tanpa secara resmi menolak, hakim mungkin menilai itu berbeda dari penyelesaian yang bersih, dan fitur gaya tersebut bisa saja berkorelasi dengan kondisi personalisasi,” katanya. Yildirim juga mencatat bahwa skor tersebut mencerminkan bagaimana performa LLM saat dinilai oleh satu pengulas AI, dan bukan ukuran pasti dari kerugian di dunia nyata. “Untuk saat ini, sinyal penolakan memberi kita pemeriksaan independen dan kedua ukuran ini sebagian besar konsisten secara arah, yang memberikan sedikit jaminan, tetapi tidak sepenuhnya mengesampingkan artefak spesifik hakim,” katanya.