Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
DeepSeek发布梁文锋署名新论文:提出mHC新架构提升大模型训练稳定性
PANews 1月1日消息,据金十报道,DeepSeek发布新论文,提出了一种名为流形约束超连接(mHC)的新架构,旨在解决超连接网络(HC)技术因破坏恒等映射特性而导致的训练不稳定和可扩展性受限等问题。该架构通过将HC的残差连接空间映射至特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率,实现了显著的性能改进和优越的可扩展性。DeepSeek预计,mHC作为HC的一种灵活实用拓展,将有助于更深入地理解拓扑架构设计,并为基座模型的演进指明有前景的方向。该论文由Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao共同担任第一作者,梁文锋也在作者名单之中。