币界网消息，罗福莉表示，大模型竞争已从预训练主导的chat时代，全面转向后训练主导的agent时代。
Телекоммуникационный сайт сообщает, что Ло Фули заявила, что конкуренция в области больших моделей полностью перешла от эпохи чатов, доминируемой предварительным обучением, к эпохе агентов, доминируемой пост-обучением.

当前的核心赛点是如何在agent上做好强化学习的scaling。
Текущий ключевой вопрос — как правильно масштабировать обучение с усилением на агентском этапе.

她透露，在chat时代，用于研究、预训练和后训练的算力比例约为3:5:1而在如今的agent时代，合理的算力分配比例变为3:1:1，即预训练与后训练的算力投入已基本相当，目前顶尖模型团队在这两项的投入比例已达到1:1。
Она раскрыла, что в эпоху чатов соотношение вычислительных ресурсов для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1, а в нынешней эпохе агентов разумное распределение ресурсов стало 3:1:1, то есть вложения в предварительное и пост-обучение практически равны, и в ведущих командах по моделям соотношение инвестиций в эти два этапа достигло 1:1.

同时，系统架构的要求也发生巨变，过去的强化学习基础设施主要以模型推理引擎为核心，处理纯文本演算现在的基建必须以agent为核心，支持异构集群调度，并能容忍agent在复杂工作流中因各类不可控因素中断的模糊性。
Одновременно требования к системной архитектуре значительно изменились: ранее инфраструктура для обучения с усилением основывалась на движках моделирования для вывода, а сейчас инфраструктура должна быть сосредоточена на агенте, поддерживать диспетчеризацию гетерогичных кластеров и быть способной терпеть неопределенность, вызванную прерываниями агентов в сложных рабочих потоках из-за различных неконтролируемых факторов.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
175.45K Популярность
#
CryptoMarketSeesVolatility
237.52K Популярность
#
IsraelStrikesIranBTCPlunges
32.06K Популярность
#
rsETHAttackUpdate
77.6K Популярность
#
US-IranTalksStall
190.07K Популярность

Закрепить

Карта сайта

Ро Фли: Большие модели вступают в эпоху пост-обучения, соотношение вычислительных мощностей для предобучения и пост-обучения у ведущих команд достигает 1:1

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить