Prabu Faizal
Prabu Faizal

Dipublikasikan 3 November 2025

LongCat-Video: Rahasia Generate Video AI 5 Menit yang Bikin Konten Viral!

LongCat-Video adalah model generasi video terdepan dengan 13,6 miliar parameter yang menawarkan kinerja unggul untuk berbagai tugas seperti Text-to-Video, Image-to-Video, dan Video-Continuation. Model ini khusus dirancang untuk menghasilkan video berdurasi panjang dengan kualitas tinggi dan efisiensi terbaik, menjadi langkah awal dalam pengembangan world models.

Keunggulan LongCat-Video

  • Arsitektur terpadu: LongCat-Video menyatukan tiga tugas utama pembuatan video dalam satu framework, yakni Text-to-Video, Image-to-Video, dan Video-Continuation, sehingga memudahkan proses generasi video dengan model tunggal.
  • Generasi video panjang: Dengan pra-pelatihan khusus pada tugas Video-Continuation, LongCat-Video mampu menciptakan video berdurasi menit tanpa mengalami drift warna atau penurunan kualitas.
  • Inference efisien: Model ini menghasilkan video 720p dengan 30fps dalam hitungan menit berkat strategi coarse-to-fine pada sumbu temporal dan spasial. Penggunaan Block Sparse Attention juga meningkatkan efisiensi terutama pada resolusi tinggi.
  • Kinerja unggul dengan multi-reward RLHF: Menggunakan Group Relative Policy Optimization (GRPO), LongCat-Video menunjukkan performa setara dengan model video open-source terdepan maupun solusi komersial terbaru pada berbagai benchmark.

Panduan Cepat Memulai LongCat-Video

Untuk mulai menggunakan LongCat-Video, ikuti langkah-langkah instalasi berikut ini di sistem Anda.

Clone Repositori dan Setup Lingkungan

  1. Clone repositori LongCat-Video dengan perintah:
  2. Buat lingkungan Conda dan aktifkan:
  3. Pasang PyTorch sesuai versi CUDA di sistem Anda:
  4. Install FlashAttention-2 dan dependensi lainnya:
  5. Pasang seluruh requirements dari proyek.

Plain Text

git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

conda create -n longcat-video python=3.10
conda activate longcat-video

pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

pip install ninja psutil packaging
pip install flash_attn==2.7.4.post1

pip install -r requirements.txt

Secara default, FlashAttention-2 sudah aktif di konfigurasi model, namun Anda dapat mengubah konfigurasi untuk menggunakan FlashAttention-3 atau xformers jika dibutuhkan.

Download Model

Unduh model LongCat-Video melalui Huggingface dengan perintah berikut:

Plain Text

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

Cara Menjalankan Berbagai Tugas Generasi Video

LongCat-Video mendukung berbagai mode inference pada Single-GPU maupun Multi-GPU. Berikut contoh perintah penggunaannya.

Text-to-Video

Plain Text

// Single-GPU
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

// Multi-GPU
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

Image-to-Video

Plain Text

// Single-GPU
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

// Multi-GPU
torchrun --nproc_per_node=2 run_demo_image_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

Video-Continuation

Plain Text

// Single-GPU
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

// Multi-GPU
torchrun --nproc_per_node=2 run_demo_video_continuation.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

Long-Video Generation

Plain Text

// Single-GPU
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

// Multi-GPU
torchrun --nproc_per_node=2 run_demo_long_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

Interactive Video Generation

Plain Text

// Single-GPU
torchrun run_demo_interactive_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

// Multi-GPU
torchrun --nproc_per_node=2 run_demo_interactive_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

Jalankan melalui Streamlit

Plain Text

streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false

Hasil Evaluasi LongCat-Video

Berikut hasil evaluasi MOS (Mean Opinion Score) dari LongCat-Video pada benchmark internal untuk tugas Text-to-Video dan Image-to-Video dibandingkan dengan model lainnya.

Text-to-Video

  • Text-Alignment: 3.76
  • Visual Quality: 3.25
  • Motion Quality: 3.74
  • Overall Quality: 3.38

Image-to-Video

  • Image-Alignment: 4.04
  • Text-Alignment: 3.49
  • Visual Quality: 3.27
  • Motion Quality: 3.59
  • Overall Quality: 3.17

LongCat-Video membuktikan kemampuannya dengan skor yang kompetitif dan kemampuan generasi video panjang yang stabil. Untuk informasi teknis secara mendalam, Anda dapat mengakses LongCat-Video Technical Report.