火星财经ニュース 4月16日発表、 『ネイチャー』に掲載された研究によると、大規模言語モデル(LLM)は、一部の自分の偏好を「私的に持ち込む」ことがあり、他のアルゴリズムに伝授される可能性がある。訓練データから元の特徴を除去しても、これらの不要な特徴は引き続き存在し得る。あるケースでは、モデルがデータ内の潜在的な信号を通じて、自身のフクロウに対する偏好を他のモデルに伝達しているようだ。この研究結果は、LLMの開発において、より徹底した安全性の検査が必要であることを示唆している。(科技日報)
大規模言語モデルは蒸留過程で「自分の偏り」を持ち込むことがある
火星财经ニュース 4月16日発表、 『ネイチャー』に掲載された研究によると、大規模言語モデル(LLM)は、一部の自分の偏好を「私的に持ち込む」ことがあり、他のアルゴリズムに伝授される可能性がある。訓練データから元の特徴を除去しても、これらの不要な特徴は引き続き存在し得る。あるケースでは、モデルがデータ内の潜在的な信号を通じて、自身のフクロウに対する偏好を他のモデルに伝達しているようだ。この研究結果は、LLMの開発において、より徹底した安全性の検査が必要であることを示唆している。(科技日報)