2.5D video-audio generation from single image

We created a pipeline to generate stereo sound from silent videos and used it to generate a high-quality video dataset with stereo sound. We trained a model on this dataset that jointly generates video and stereo sound given an initial frame and text instruction.