Что такое Token? Вступительный курс по пониманию AI



1. Большие модели AI вообще не могут напрямую обрабатывать наш исходный текст, вся первая стадия обработки — это преобразование текста в Token
2. Говоря проще, Token — это минимальная единица обработки, на которую разбивается текст перед подачей модели
3. Один Token может быть целым словом, частью слова, знаками препинания или даже просто пробелом
4. Обычно часто используемые слова разбиваются всего на один Token, а длинные или редкие слова часто разбиваются на более мелкие части, например, английское кодирование (encoding) разбивается на две части: encod+ing
5. Вот универсальный ориентир для перевода: один Token примерно соответствует 4 английским символам или 3/4 английского слова; однако это значение не фиксировано и зависит от языка и используемого токенизатора
6. Полный процесс обработки выглядит так: сначала текст разбивается на токены, затем каждый Token отображается в соответствующий числовой ID, после чего ID преобразуются в вектор, который модель может распознать; пройдя эти три шага, модель уже начнет обрабатывать ваш контент
7. Также часто слышим термин «окно контекста» — оно тоже измеряется в Tokenах — лимит Tokenов в окне напрямую определяет, сколько информации модель сможет «запомнить» за один раз
8. И последний момент, который, безусловно, интересует всех: Token — это основная единица ценообразования в генеративных AI, и наши расходы на использование AI считаются по количеству Tokenов

Вышеописанное — лишь вершина айсберга, а внутренняя логика Token гораздо интереснее, чем кажется.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить