Satu hari setelah dirilis, kemampuan pengkodean Code Llama telah meningkat pesat, dan versi Human_ yang telah disempurnakan mendapat skor lebih tinggi daripada GPT-4

Saya kemarin: LLM open source akan mengalahkan GPT-4 dalam beberapa bulan untuk pembuatan kode. Saya sekarang: Sebenarnya hari ini.

Kemarin, kode sumber terbuka Meta Llama, model dasar yang berspesialisasi dalam pembuatan kode, gratis untuk tujuan penelitian dan komersial.

Ada tiga versi parameter model rangkaian Code Llama, jumlah parameternya adalah 7B, 13B dan 34B. Dan mendukung berbagai bahasa pemrograman, termasuk Python, C++, Java, PHP, Type (Java), C#, dan Bash.

Versi Kode Llama yang disediakan oleh Meta antara lain:

  • Kode Llama, model kode dasar;
  • Kode Llama-Python, versi Python yang telah disempurnakan;
  • Code Llama-Instruct, versi instruksi bahasa alami yang telah disempurnakan.

Dalam hal pengaruhnya, versi Kode Llama yang berbeda memiliki tingkat kelulusan generasi (pass@1) pada kumpulan data Manusia dan MBPP yang melampaui GPT-3.5.

Selain itu, pass@1 versi 34B "Tidak Wajar" Kode Llama pada kumpulan data Manusia mendekati GPT-4 (62,2% vs 67,0%). Namun, Meta tidak merilis versi ini, namun mencapai peningkatan kinerja yang signifikan melalui pelatihan dengan sejumlah kecil data yang dikodekan berkualitas tinggi.

Sumber:

Sehari kemudian, beberapa peneliti menantang GPT-4. Mereka berasal dari Phind (sebuah organisasi yang bertujuan membangun mesin pencari AI untuk pengembang), yang mengalahkan GPT-4** dalam evaluasi manusia dengan **Kode Llama-34B yang telah disempurnakan.

Salah satu pendiri Phind, Michael Royzen mengatakan: "Ini hanyalah eksperimen awal yang bertujuan untuk mereproduksi (dan melampaui) hasil" Kode Llama Tidak Alami "di makalah Meta. Di masa depan, kami akan memiliki portofolio ahli dari berbagai model CodeLlama yang menurut saya akan kompetitif dalam alur kerja dunia nyata. "

Kedua model telah bersumber terbuka:

Para peneliti mempublikasikan kedua model ini di Huggingface, dan semua orang dapat memeriksanya.

  • Kode PhindLlama-34B-v1:
  • Phind-CodeLlama-34B-Python-v1:

Selanjutnya, mari kita lihat bagaimana penelitian ini dilaksanakan.

** Sempurnakan Kode Llama-34B untuk mengalahkan GPT-4**

Mari kita lihat hasilnya terlebih dahulu. Penelitian ini menyempurnakan Kode Llama-34B dan Kode Llama-34B-Python dengan kumpulan data internal Phind, dan memperoleh dua model, masing-masing Phind-CodeLlama-34B-v1 dan Phind-CodeLlama-34B-Python-v1.

Dua model baru yang diperoleh masing-masing mencapai 67,6% dan 69,5% pass@1 pada Manusia.

Sebagai perbandingan, CodeLlama-34B pass@1 adalah 48,8%; CodeLlama-34B-Python pass@1 adalah 53,7%.

Dan GPT-4 pass@1 pada Manusia adalah 67% (data dirilis oleh OpenAI dalam "Laporan Teknis GPT-4" yang dirilis pada bulan Maret tahun ini).

Sumber:

Sumber:

Dalam hal penyesuaian, kumpulan data adalah suatu keharusan, dan penelitian ini menyempurnakan Kode Llama-34B dan Kode Llama-34B-Python pada kumpulan data eksklusif yang berisi ~80.000 masalah dan solusi pemrograman berkualitas tinggi.

Alih-alih contoh penyelesaian kode, kumpulan data ini menggunakan pasangan instruksi-jawaban, yang berbeda dari struktur data Manusia. Studi tersebut kemudian melatih model Phind selama dua periode, dengan total sekitar 160.000 contoh. Para peneliti mengatakan bahwa teknologi LoRA tidak digunakan dalam pelatihan tersebut, tetapi yang digunakan adalah penyesuaian lokal.

Selain itu, penelitian ini juga mengadopsi teknologi DeepSpeed ZeRO 3 dan Flash Attention 2. Mereka menghabiskan tiga jam pada 32 GPU A100-80GB untuk melatih model ini dengan panjang urutan 4096 token.

Selain itu, penelitian ini menerapkan metode dekontaminasi OpenAI pada kumpulan data agar hasil model lebih efektif.

Seperti yang kita ketahui bersama, GPT-4 yang sangat kuat sekalipun akan menghadapi dilema polusi data.Dalam istilah awam, model yang dilatih mungkin telah dilatih berdasarkan data evaluasi.

Masalah ini sangat rumit untuk LLM, misalnya dalam proses evaluasi kinerja suatu model, untuk membuat evaluasi yang kredibel secara ilmiah, peneliti harus memeriksa apakah masalah yang digunakan untuk evaluasi ada pada data pelatihan model tersebut. Jika demikian, model dapat mengingat pertanyaan-pertanyaan ini, dan ketika mengevaluasi model, model tersebut jelas akan berkinerja lebih baik pada pertanyaan-pertanyaan spesifik ini.

Ibaratnya seseorang sudah mengetahui soal-soal ujian sebelum mengikuti ujian.

Untuk mengatasi masalah ini, OpenAI mengungkapkan cara GPT-4 mengevaluasi polusi data dalam dokumen teknis publik GPT-4 "Laporan Teknis GPT-4". mereka mempublikasikannya

Strategi untuk mengukur dan mengevaluasi polusi data ini.

Secara khusus, OpenAI menggunakan pencocokan substring untuk mengukur kontaminasi silang antara kumpulan data evaluasi dan data pra-pelatihan. Baik data evaluasi maupun data pelatihan diproses dengan menghilangkan semua spasi dan simbol, hanya menyisakan karakter (termasuk angka).

Untuk setiap contoh evaluasi, OpenAI secara acak memilih tiga substring yang terdiri dari 50 karakter (atau menggunakan seluruh contoh jika jumlahnya kurang dari 50 karakter). Kecocokan ditentukan jika salah satu dari tiga substring evaluasi sampel adalah substring dari contoh pelatihan yang diproses.

Ini menghasilkan daftar contoh yang tercemar, yang dibuang dan dijalankan ulang oleh OpenAI untuk mendapatkan skor yang tidak tercemar. Namun metode pemfilteran ini memiliki beberapa keterbatasan, pencocokan substring dapat menghasilkan negatif palsu (jika terdapat perbedaan kecil antara data evaluasi dan data pelatihan) serta positif palsu. Dengan demikian, OpenAI hanya menggunakan sebagian informasi dalam contoh evaluasi, hanya menggunakan pertanyaan, konteks, atau data setara, tetapi mengabaikan jawaban, respons, atau data setara. Dalam beberapa kasus, pilihan pilihan ganda juga dikecualikan. Pengecualian ini dapat menyebabkan peningkatan hasil positif palsu.

Untuk bagian ini, pembaca yang tertarik dapat merujuk pada makalah ini untuk informasi lebih lanjut.

Alamat kertas:

Namun, ada beberapa kontroversi mengenai skor Manusia yang digunakan Phind saat melakukan benchmarking pada GPT-4. Beberapa orang mengatakan bahwa skor tes GPT-4 terbaru telah mencapai 85%. Namun Phind menjawab bahwa penelitian relevan yang memperoleh skor ini tidak melakukan penelitian polusi, dan tidak mungkin untuk menentukan apakah GPT-4 telah melihat data pengujian Manusia saat menjalani pengujian putaran baru. Mengingat beberapa penelitian terbaru tentang "GPT-4 menjadi bodoh", lebih aman menggunakan data dalam laporan teknis asli.

Namun, mengingat kompleksitas evaluasi model skala besar, apakah hasil evaluasi ini dapat mencerminkan kemampuan model yang sebenarnya masih menjadi isu kontroversial. Anda dapat mengunduh modelnya dan merasakannya sendiri.

Tautan referensi:

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)