Đến cuối cùng, Token là gì? Hiểu rõ khóa học nhập môn AI cần thiết



1. Các mô hình lớn của AI căn bản không thể xử lý trực tiếp văn bản gốc mà chúng ta nhập vào, bước xử lý đầu tiên là chuyển đổi văn bản thành Token
2. Nói đơn giản, Token chính là đơn vị xử lý nhỏ nhất trước khi đưa văn bản vào mô hình, sau khi đã được tách ra
3. Một Token có thể là một từ hoàn chỉnh, một phần của từ, dấu câu, thậm chí chỉ là một khoảng trống
4. Các từ thông dụng thường chỉ được tách thành 1 Token, trong khi các từ dài hoặc ít gặp hơn thường sẽ bị tách thành các đoạn nhỏ hơn, ví dụ như mã hóa tiếng Anh sẽ bị tách thành hai phần là encod+ing
5. Dưới đây là một tham khảo chung về quy đổi: 1 Token tương đương khoảng 4 ký tự tiếng Anh hoặc 3/4 từ tiếng Anh; tuy nhiên, giá trị này không cố định, sẽ thay đổi tùy theo ngôn ngữ và bộ phân tách từ (Tokenizer)
6. Quy trình xử lý hoàn chỉnh như sau: đầu tiên phân tách văn bản thành Token, sau đó ánh xạ từng Token thành mã số ID tương ứng, tiếp theo chuyển đổi ID thành vector mà mô hình có thể nhận diện, sau ba bước này, mô hình mới bắt đầu xử lý nội dung của bạn
7. Cũng giống như mọi người thường nghe về "cửa sổ ngữ cảnh", nó cũng được đo bằng Token — giới hạn tối đa của Token trong cửa sổ sẽ quyết định lượng nội dung mô hình có thể "nhớ" trong một lần đối thoại
8. Điểm cuối cùng chắc chắn mọi người quan tâm: Token cũng là đơn vị tính giá cốt lõi của AI sinh tạo — chi phí sử dụng AI hàng ngày của chúng ta đều dựa trên lượng Token tiêu thụ
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim