Chiến thắng hoàn toàn trước GPT-4, tiêu diệt mô hình nguồn đóng trong vài giây! Code Llama phiên bản bí ẩn lộ diện

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI‌ không giới hạn

Chỉ 2 ngày sau khi phát hành, Code Llama một lần nữa khơi dậy cuộc cách mạng về mã hóa AI.

Bạn có nhớ phiên bản bí ẩn Unnatural Code Llama mà Meta xuất hiện trong bài viết Code Llama có thể cân bằng hoàn toàn GPT-4 không?

Anh chàng to lớn Sebastian đã giải thích trên blog của mình:

Đây là phiên bản tinh chỉnh của Code Llama-Python 34B sử dụng 15.000 hướng dẫn ngôn ngữ phi tự nhiên.

Bằng cách giấu đi một thông tin rất ẩn giấu như vậy trong bài báo, Meta dường như muốn gợi ý cho cộng đồng nguồn mở rằng Code Llama có tiềm năng rất lớn, vì vậy hãy cùng tinh chỉnh nó nhé!

Như vậy vừa rồi WizardCoder 34B được tinh chỉnh dựa trên Code Llama đã trực tiếp đánh bại GPT-4 trên bài benchmark Human.

Cụ thể, WizardCoder đã đè bẹp phiên bản tháng 3 của GPT-4 (67%) với tỷ lệ chiến thắng là 73,2%.

Ngoài ra, hiệu năng của WizardCoder 34B vượt xa phiên bản mới nhất GPT-3.5 và Claude 2.

Mô hình lập trình WizardCoder được Microsoft và Đại học Baptist Hồng Kông phát hành vào tháng 6. Một phiên bản 13B/7B tinh chỉnh được cho là sẽ sớm ra mắt.

Theo Jim Fan, một nhà khoa học hàng đầu tại Nvidia, về cơ bản đây là phiên bản mở của “Unnatural Code Llama”.

Mặc dù dữ liệu điểm chuẩn có vẻ tốt nhưng Human chỉ kiểm tra phân phối hẹp và có thể phù hợp quá mức. Kiểm tra dữ liệu trong các tình huống tự nhiên thực sự quan trọng. Điểm chuẩn mã hóa cần được nâng cấp lớn.

## **Phiên bản bí ẩn của Code Llama đã ra đời? **

Vào thứ Sáu, Meta đã chính thức cung cấp ba phiên bản Code Llama có nguồn mở.

Trong điểm chuẩn Human và MBPP, nhiều người tìm thấy một phiên bản không được đề cập trong Meta - Unnatural Code Llama chính thức.

Phiên bản bí ẩn này đạt hiệu suất 62,2% trên Human pass@1.

WizardCoder 34B được tinh chỉnh được phát hành hôm nay có hiệu suất 73,2% trên Human pass@1.

Theo giới thiệu, WizardCoder 34B là phiên bản tinh chỉnh của mô hình Code Llama sử dụng tập dữ liệu tổng hợp Evol-Instruct.

Sau đây là hình ảnh trực quan so sánh hiệu suất với tất cả các mô hình nguồn mở và nguồn đóng.

So với mô hình OpenAI, các nhà nghiên cứu chỉ ra rằng GPT4 và ChatGPT-3.5 có hai kết quả Human:

Kết quả được cung cấp bởi báo cáo GPT4 chính thức của OpenAI (15/03/2023) lần lượt là: 67,0% và 48,1%. Kết quả của các nhà nghiên cứu sử dụng thử nghiệm API mới nhất (26/08/2023) là 82,0% và 72,5%.

Ngoài ra, các nhà nghiên cứu nhấn mạnh rằng kết quả hoạt động này có thể tái tạo 100%!

Bản demo của WizardCoder 34B được mở cho bất kỳ ai dùng thử.

Người ta đã chỉ ra rằng việc trang bị quá mức cho các bảng xếp hạng công khai là một trong những lý do chính khiến các mô hình nguồn mở gặp khó khăn trong thực tế. Dưới đây là ví dụ về việc chuẩn bị dữ liệu trình hướng dẫn mã hóa bằng cách sử dụng điểm Human pass@1 để quyết định xem có nên phát triển thêm tập dữ liệu hay không. Chỉ tối ưu hóa trên tập kiểm tra sẽ làm mất đi mục đích của tập kiểm tra.

Cũng mới hôm qua, các nhà nghiên cứu từ tổ chức Phind đã tinh chỉnh Code Llama-34B để đánh bại GPT-4 trong phần đánh giá Human.

ChatGPT so với Mã Llama

Code Llama hoạt động như thế nào trong các tác vụ mã hóa thực tế?

Một cư dân mạng đã thực hiện bài kiểm tra so sánh GPT-3.5 và Code Llama Instruct-34B. Nó đã được thử nghiệm với quyền truy cập vào Mã Llama 34B do Perplexity.AI cung cấp.

Nó cung cấp 8 tác vụ mã giống hệt nhau cho hai mô hình tương ứng và so sánh chất lượng mã được tạo của chúng.

Kết quả là GPT-3.5 thắng với tỷ số 8:5.

Sau đây là kết quả kiểm tra cụ thể.

câu hỏi đầu tiên

Sử dụng Python để hoàn thành nhiệm vụ này, cho hai chuỗi word1 và word2. Hợp nhất các chuỗi bằng cách thêm các chữ cái theo thứ tự xen kẽ, bắt đầu bằng word1. Nếu một chuỗi dài hơn chuỗi kia, hãy thêm các chữ cái bổ sung vào cuối chuỗi đã hợp nhất.

Cuối cùng xuất ra chuỗi đã hợp nhất.

Ví dụ:

Đầu vào: word1 = "abc", word2 = "pqr" Đầu ra: "apbqcr"

Cả GPT-3.5 và Code Llama đều có thể hoàn thành - 1:1

Câu hỏi thứ hai

Sử dụng Python để hoàn thành nhiệm vụ này, cho một chuỗi s, chỉ cần đảo ngược tất cả các nguyên âm trong chuỗi và trả về nó.

Các nguyên âm là "a", "e", "i", "o" và "u", có thể xuất hiện nhiều lần ở cả chữ thường và chữ hoa.

Ví dụ: đầu vào: s = "hello" đầu ra: "ello"

GPT-3.5 đã hoàn thành, Mã Llama chưa hoàn thành - 2:1

Câu hỏi thứ ba

Sử dụng Python để hoàn thành nhiệm vụ này, cho trước một mảng số nguyên, di chuyển tất cả các số 0 đến cuối mảng đó trong khi vẫn duy trì thứ tự tương đối của các phần tử khác 0.

Lưu ý rằng bạn phải thực hiện việc này tại chỗ mà không cần tạo bản sao của mảng.

Ví dụ: Đầu vào: nums = [0,1,0,3,12] Đầu ra: [1,3,12,0,0]

GPT-3.5 đã hoàn thành, Mã Llama chưa hoàn thành - 3:1

Câu hỏi 4

Sử dụng Python cho nhiệm vụ này, bạn có một luống hoa dài, một số ô được trồng hoa, còn một số thì không.

Tuy nhiên, những mảnh đất liền kề không thể trồng hoa. Cho một mảng số nguyên 0 và 1 cho một thảm hoa, trong đó 0 trống và 1 không trống và một số nguyên n, cho ra kết quả đúng nếu n bông hoa mới có thể được trồng trong thảm hoa mà không vi phạm quy tắc không có hoa liền kề, Ngược lại, sai là đầu ra.

Ví dụ 1: Đầu vào: Flowerbed = [1,0,0,0,1], n = 1 Đầu ra: true Ví dụ 2: Đầu vào: Flowerbed = [1,0,0,0,1], n = 2 Đầu ra: false

Cả hai mô hình đã hoàn thành - 4:2

Câu hỏi 5

Sử dụng Python, với chuỗi đầu vào s, đảo ngược thứ tự của các từ. Một từ được định nghĩa là một chuỗi các ký tự không có khoảng trắng. Các từ trong s sẽ cách nhau ít nhất một dấu cách.

Xuất ra một chuỗi các từ được nối bằng dấu cách theo thứ tự ngược lại. Lưu ý rằng s có thể chứa dấu cách ở đầu hoặc cuối hoặc nhiều dấu cách giữa hai từ.

Chuỗi trả về chỉ được có một khoảng trắng để phân tách các từ. Không bao gồm bất kỳ khoảng trắng thừa.

Ví dụ: Đầu vào: s = "bầu trời màu xanh" Đầu ra: "màu xanh là bầu trời"

Cả hai mô hình đã hoàn thành - 5:3

Câu hỏi 6

Sử dụng Python để hoàn thành nhiệm vụ này. Cho một chuỗi s và một số nguyên k, trả về số nguyên âm tối đa trong bất kỳ chuỗi con nào có độ dài k trong s.

Các nguyên âm trong tiếng Anh là “a”, “e”, “i”, “o” và “u”. Ví dụ: Đầu vào: s = "leetcode", k = 3 Đầu ra: 2

Giải thích: “lee”, “eet” và “ode” chứa 2 nguyên âm.

Cả hai mô hình đã hoàn thành - 6:4

Câu hỏi 7

Sử dụng Python để hoàn thành nhiệm vụ này, với một chuỗi s chứa dấu hoa thị *. Với một thao tác, bạn có thể: Chọn dấu hoa thị trong s.

Xóa ký tự không có dấu hoa thị gần nhất ở bên trái và xóa chính dấu hoa thị đó. Xuất chuỗi sau khi loại bỏ tất cả dấu hoa thị. Ví dụ: Đầu vào: s = "leet**cod*e" Đầu ra: "lecoe"

GPT-3.5 đã hoàn thiện nhưng Code Llama thì chưa - 7:4

Câu hỏi 8

Sử dụng Python để hoàn thành nhiệm vụ này, đưa ra một mảng nhiệt độ số nguyên biểu thị nhiệt độ hàng ngày, trả về một câu trả lời mảng, trong đó câu trả lời [i] là số ngày tôi phải đợi nhiệt độ ấm hơn.

Nếu không có ngày nào trong tương lai để làm việc này thì hãy giữ câu trả lời [i] == 0. Ví dụ: Đầu vào: Nhiệt độ = [73,74,75,71,69,72,76,73] Đầu ra: [1,1,4,2,1,1,0,0]

Cả hai mô hình đã hoàn thành - 8:5

Về hiệu suất của hai mô hình, cư dân mạng này cho rằng đây không phải là một nghiên cứu nghiêm ngặt mà là một thử nghiệm đơn giản, mỗi khi mô hình được tái tạo để tạo mã, về cơ bản nó có thể nhận được câu trả lời tốt hơn, nhưng không có thử nghiệm.

Vì vậy, kết luận của bài kiểm tra không phải là hiệu suất của hai mẫu xe cuối cùng.

Có thể so sánh với GPT-4, Llama 3 phải là nguồn mở

Kể từ khi phát hành Llama và Llama 2, cộng đồng máy học ChatGPT đã bùng nổ và nhiều mô hình tinh chỉnh khác nhau đã xuất hiện.

Nhà nghiên cứu OpenAI Jason Wei cho biết ông đã học được từ các hoạt động xã hội của Meta GenAI rằng Llama 3 và Llama 4 cũng sẽ là nguồn mở trong tương lai.

Chúng tôi có khả năng tính toán để đào tạo Llama 3 và 4. Kế hoạch của chúng tôi là làm cho Llama-3 hoạt động tốt như GPT-4. Ồ, nếu Llama-3 tốt như GPT-4, bạn sẽ mở nguồn nó chứ? Vâng chúng tôi sẽ. Xin lỗi, nhân viên căn chỉnh.

Một cư dân mạng khác nói rằng Meta hy vọng sẽ mở được mô hình cấp độ GPT-5 và có vẻ như nó đã nhấn mạnh vào nguồn mở trước AGI.

Tôi muốn làm rõ điều này có nghĩa là gì: không có kill switch.

Nếu có sự cố xảy ra—một đặc vụ mất kiểm soát hoặc một kẻ xấu sử dụng nó—không có cách nào dễ dàng để tắt nó. Nó có thể chạy trên bất kỳ cụm nhỏ nào. Không có an ninh nào cả.

Nghiên cứu bảo mật trở nên vô nghĩa.

Tất cả những công việc con người đã làm để làm cho hệ thống AI trở nên trung thực, nhất quán, có đạo đức, v.v. đều trở nên vô nghĩa. Các hệ thống AI trên thế giới sẽ phát triển theo hướng mang lại lợi ích kinh tế lớn nhất, bất kể giá trị hay động cơ của chúng là gì. Không có lan can. Bất kỳ ai cũng có thể thay đổi giá trị hoặc khả năng của AI theo ý muốn, tốt hơn hoặc xấu hơn.

Nếu Meta tiếp tục có nguồn mở trong khi chúng ta có AI thông minh hơn thì đối với tôi rõ ràng là mọi thứ sẽ trở nên lộn xộn. Sự xuất hiện của những trí tuệ ngoài Trái đất này đã làm thế giới hỗn loạn, nhưng sẽ còn tồi tệ hơn nếu chúng ta từ bỏ những gì con người có ít khả năng kiểm soát.

Theo như tôi được biết, hy vọng của Meta về nguồn mở chủ yếu xuất phát từ “giáo điều cộng đồng nguồn mở”, tức là “nguồn mở là tốt”. Và theo những gì tôi biết, họ không phải là nguồn mở ủng hộ cho đến khi mẫu đầu tiên của họ vô tình bị rò rỉ, Llama, và họ đã giả vờ là nguồn mở kể từ đó.

Về vấn đề này, Musk cho biết, tuy nhiên, LLM sử dụng Transformer tự hồi quy có hiệu suất sử dụng năng lượng cực kỳ kém, không chỉ trong huấn luyện mà còn trong lý luận. Tôi nghĩ nó sai lệch vài bậc.

## Khả năng mã hóa của Llama 2 tăng vọt

Llama 2 là một mô hình rất mạnh về mọi mặt.

Tuy nhiên, nó có một điểm yếu rất rõ ràng - khả năng viết mã.

Theo dữ liệu trong bài báo được Meta công bố về Llama 2, hiệu suất của Llama 2 trong Hum (một bài kiểm tra benchmark để đánh giá LLM và mã hóa) thậm chí còn kém hơn GPT-3.5, chưa kể kém hơn GPT-4 bao nhiêu.

Hình được chú thích từ bài báo Llama 2 gốc

Nhưng khả năng viết mã chắc chắn sẽ là một hướng quan trọng để cộng đồng nguồn mở sử dụng Llama 2 trong tương lai. Đương nhiên, Meta không thể kém theo hướng này nên đã có Code Llama, được tối ưu hóa rất nhiều cho khả năng viết mã.

Hai ngày trước, Meta đã chính thức phát hành dòng Code Llama: Code Llama (7B, 13B và 34B) cùng 3 biến thể: mô hình mã chung Code Llama, mô hình hướng dẫn theo mô hình Code Llama-instruct và phiên bản dành riêng cho mã Python Code Llama - Trăn.

Những mô hình này mang tính học thuật và thương mại miễn phí, cũng như các giấy phép Llama 2.

Khả năng mã hóa của mẫu Code Llama 34B gần gấp đôi so với Llama 2, thu hẹp đáng kể khoảng cách với GPT-4.

Bạn còn nhớ Code Llama bất thường mà Meta xuất hiện trong bài viết Code Llama, thứ có thể cân bằng hoàn toàn phiên bản GPT-4 không?

Anh chàng to lớn Sebastian đã giải thích trên blog của mình:

Đây là phiên bản tinh chỉnh của Code Llama-Python 34B sử dụng 15.000 hướng dẫn ngôn ngữ phi tự nhiên.

Tại sao không có mẫu Llama Mã 70B?

Điều thú vị là Code Llama chỉ có phiên bản thông số 7B, 13B và 34B, tức là kém 70B so với Llama 2.

Mặc dù Meta không giải thích lý do tại sao lại xảy ra trường hợp này nhưng chuyên gia công nghệ Sebastian đã đưa ra hai lý do có thể xảy ra:

Code Llama được đào tạo trên mã thông báo 500B và Llama 2 được đào tạo trên mã thông báo 2T.

Vì dữ liệu huấn luyện của Code Llama chỉ bằng 1/4 so với Llama 2 nên có thể do không có đủ dữ liệu huấn luyện, cộng với hạn chế của Scaling Laws của LLM nên hiệu suất của CodeLlama70B không tốt.

Mô hình Code Llama hỗ trợ kích thước ngữ cảnh là 100k, rất hữu ích khi xử lý các tác vụ mã.

Ngược lại, Llama 2 chỉ hỗ trợ độ dài đầu vào lên tới 4k. Nếu mô hình 70B hỗ trợ độ dài đầu vào là 100k mã thông báo, điều đó có thể khiến các yêu cầu tính toán của mô hình trở nên quá phóng đại.

Người giới thiệu:

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#BTC#
193k Trạng thái
#ETH#
120k Trạng thái
#PI#
100k Trạng thái
4#GateioInto11#
77k Trạng thái
5#ContentStar#
64k Trạng thái
6#BOME#
60k Trạng thái
7#GT#
56k Trạng thái
8#DOGE#
53k Trạng thái
9#MAGA#
52k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web