Dipublikasikan 3 November 2025
LongCat-Video adalah model generasi video terdepan dengan 13,6 miliar parameter yang menawarkan kinerja unggul untuk berbagai tugas seperti Text-to-Video, Image-to-Video, dan Video-Continuation. Model ini khusus dirancang untuk menghasilkan video berdurasi panjang dengan kualitas tinggi dan efisiensi terbaik, menjadi langkah awal dalam pengembangan world models.
Untuk mulai menggunakan LongCat-Video, ikuti langkah-langkah instalasi berikut ini di sistem Anda.
Plain Text
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging
pip install flash_attn==2.7.4.post1
pip install -r requirements.txtSecara default, FlashAttention-2 sudah aktif di konfigurasi model, namun Anda dapat mengubah konfigurasi untuk menggunakan FlashAttention-3 atau xformers jika dibutuhkan.
Unduh model LongCat-Video melalui Huggingface dengan perintah berikut:
Plain Text
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-VideoLongCat-Video mendukung berbagai mode inference pada Single-GPU maupun Multi-GPU. Berikut contoh perintah penggunaannya.
Plain Text
// Single-GPU
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
// Multi-GPU
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compilePlain Text
// Single-GPU
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
// Multi-GPU
torchrun --nproc_per_node=2 run_demo_image_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compilePlain Text
// Single-GPU
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
// Multi-GPU
torchrun --nproc_per_node=2 run_demo_video_continuation.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compilePlain Text
// Single-GPU
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
// Multi-GPU
torchrun --nproc_per_node=2 run_demo_long_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compilePlain Text
// Single-GPU
torchrun run_demo_interactive_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
// Multi-GPU
torchrun --nproc_per_node=2 run_demo_interactive_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compilePlain Text
streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=falseBerikut hasil evaluasi MOS (Mean Opinion Score) dari LongCat-Video pada benchmark internal untuk tugas Text-to-Video dan Image-to-Video dibandingkan dengan model lainnya.
LongCat-Video membuktikan kemampuannya dengan skor yang kompetitif dan kemampuan generasi video panjang yang stabil. Untuk informasi teknis secara mendalam, Anda dapat mengakses LongCat-Video Technical Report.