Що таке Token? Основи для розуміння AI



1. Велика модель AI просто не може безпосередньо обробляти наші вихідні тексти, всі етапи обробки починаються з перетворення тексту у Token
2. Кажучи простою мовою, Token — це найменша оброблювана одиниця, на яку розбивається текст перед подачею моделі
3. Один Token може бути цілим словом, частиною слова, знаками пунктуації або навіть просто пробілом
4. Зазвичай поширені слова розбиваються лише на один Token, а довгі або рідкісні слова часто розбиваються на менші частини, наприклад, англійське кодування (encoding) може бути розбите на дві частини: encod + ing
5. Ось універсальний орієнтир для перетворення: один Token приблизно відповідає 4 англійським символам або 3/4 англійського слова; проте ця величина не є фіксованою і залежить від мови та токенізатора
6. Повний процес обробки виглядає так: спочатку текст розбивається на Token, потім кожен Token перетворюється у відповідний числовий ID, далі цей ID перетворюється у вектор, який модель може розпізнати; після завершення цих трьох кроків модель починає обробляти ваш контент
7. Також популярний термін «вікно контексту» — його розмір вимірюється у Token, і обмеження вікна безпосередньо визначає, скільки інформації модель може «запам’ятати» за один раз
8. Останнє, що, ймовірно, вас цікавить: Token — це основна одиниця ціноутворення для генеративного AI, і зазвичай ми платимо за кількість використаних Token

Вищезазначене — лише вершина айсберга, глибока логіка за Token набагато цікавіша, ніж здається.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити