サウンド生成モデルとは、入力された条件に応じて音を生成するモデルを指す。提示された文脈では、特に映像をインプットとして、その内容に合ったサウンドを時間的な同期を保ちながらリアルタイムで生成する仕組みとして説明されている。対象となる音は、環境音や背景音のような持続的なサウンドだけでなく、「グラスが落下し床に当たって割れる」といった瞬間的な出来事に対応する音も含まれる。こうしたモデルでは、映像の時間的な同期特徴量を入力することで、映像と生成音のタイミングを合わせる構造が採られている。

文脈中では、SpecMaskFoley1やSpecMaskGIT3がリアルタイムサウンド生成モデルの例として挙げられている。これらは、あらかじめ用意された音を単純に再生するのではなく、映像に応じてその場で音を生成する点が特徴である。制作では、モノレール車窓の実映像と車内で録音した環境音のペアデータを用いて学習が行われ、忠実度、同期精度、自然さのバランスが調整された。