Ро Фли: Большие модели вступают в эпоху пост-обучения, соотношение вычислительных мощностей для предобучения и пост-обучения у ведущих команд достигает 1:1

robot
Генерация тезисов в процессе

币界网消息,罗福莉表示,大模型竞争已从预训练主导的chat时代,全面转向后训练主导的agent时代。
Телекоммуникационный сайт сообщает, что Ло Фули заявила, что конкуренция в области больших моделей полностью перешла от эпохи чатов, доминируемой предварительным обучением, к эпохе агентов, доминируемой пост-обучением.

当前的核心赛点是如何在agent上做好强化学习的scaling。
Текущий ключевой вопрос — как правильно масштабировать обучение с усилением на агентском этапе.

她透露,在chat时代,用于研究、预训练和后训练的算力比例约为3:5:1而在如今的agent时代,合理的算力分配比例变为3:1:1,即预训练与后训练的算力投入已基本相当,目前顶尖模型团队在这两项的投入比例已达到1:1。
Она раскрыла, что в эпоху чатов соотношение вычислительных ресурсов для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1, а в нынешней эпохе агентов разумное распределение ресурсов стало 3:1:1, то есть вложения в предварительное и пост-обучение практически равны, и в ведущих командах по моделям соотношение инвестиций в эти два этапа достигло 1:1.

同时,系统架构的要求也发生巨变,过去的强化学习基础设施主要以模型推理引擎为核心,处理纯文本演算现在的基建必须以agent为核心,支持异构集群调度,并能容忍agent在复杂工作流中因各类不可控因素中断的模糊性。
Одновременно требования к системной архитектуре значительно изменились: ранее инфраструктура для обучения с усилением основывалась на движках моделирования для вывода, а сейчас инфраструктура должна быть сосредоточена на агенте, поддерживать диспетчеризацию гетерогичных кластеров и быть способной терпеть неопределенность, вызванную прерываниями агентов в сложных рабочих потоках из-за различных неконтролируемых факторов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить