Netflix、VOIDを発表:物理的に一貫性のある動画オブジェクト除去のためのオープンソースフレームワーク

概要

Netflixは、オブジェクトを動画から削除しつつ、現実的な物理的相互作用を維持するオープンソースAIフレームワーク「VOID」をリリースしました。これは、プロの動画制作向けに、従来のインペインティング(領域補完)ツールに代わるより高度な選択肢を提供します。

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object Removal大手ストリーミングサービスのNetflixは、VOIDを導入しました。これはオープンソースのフレームワークで、作成される物理的な相互作用を保持しながら、動画からオブジェクトを削除することを目的としています。従来のインペインティングおよびオブジェクト消去ツールで見られていた制限に対処します。

歴史的に、シーンからオブジェクトを削除することは簡単でしたが、その後に環境が現実的に振る舞うようにすることは、大きな課題でした。たとえば、ギターを持った人物を消すと楽器が不自然に宙に浮いたままになり、プールからダイバーを消すと水が動かない状態が残ることがあります。映像効果チームは、こうした問題を従来、手作業で修正してきましたが、手間のかかるプロセスであり、1つのシーンにつき数日から数週間に及ぶこともあります。

VOID(Video Object and Interaction Deletionの略)は、こうした複雑さを解消することを意図しています。欠けたピクセルを埋めるだけの従来の手法とは異なり、システムはオブジェクトが削除された後のシーンについて、物理的に整合した結果を予測します

これを実現するために、複数の技術を組み合わせて活用します。GoogleのGeminiは、削除の影響を受ける領域を特定するためにシーンを分析し、MetaのSAM2は、削除対象のオブジェクトをセグメント化します。これらの出力はクアッドマスク(quadmask)にエンコードされます。これは4つの値からなるマップで、どの領域を消去するか、どの領域が重なり合うか、どの領域が物理的に影響を受けるか、そしてどの領域がそのまま残るかを示します。AlibabaのCogVideoXをベースにしたビデオ拡散モデルが、物理的にもっともらしい方法でシーンを再構築します。オプションとして2回目のパスでは、初期再構築による歪みを補正するためにオプティカルフローを適用します。

動画制作における物理的に整合したオブジェクト除去の実演

VOIDのデモでは説得力のある結果が示されています。保持者を削除すると風船が自然に上昇し、無関係なブロックを削除してもブロックは安定性を維持し、人物を消した後でもプールの表面は影響を受けません。25人の被験者による嗜好調査では、VOIDが64.8%の頻度で選ばれ、主要な商用代替であるRunwayを上回りました。Runwayは18.4%にとどまりました。

今回のリリースは、Netflix Researchによる初の一般公開AIツールです。Apache 2.0のもとでライセンスされているVOIDは商用利用が可能で、Hugging Faceでホストされています。ハードウェア要件により現在はアクセスが制限されており、モデルを実行するには40GBのVRAMを搭載したGPUが必要です。ただし、今後の最適化やインフラコストの引き下げによって、利用可能性が広がる可能性があります。VOIDは、動画制作技術の転換を示すもので、単なる消去ツールから、シーンを理解し現実的に再構築できるシステムへと移行します。これは、プロのワークフローに大きな影響をもたらす開発です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.24K保有者数:0
    0.00%
  • 時価総額:$2.23K保有者数:1
    0.00%
  • 時価総額:$2.24K保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:0
    0.00%
  • 時価総額:$2.27K保有者数:2
    0.07%
  • ピン