Hướng dẫn khớp Voice và Ảnh. Tìm huynh đệ hợp tác!
Xin chào, hữu duyên được gặp mọi người! Mình hiện tại đang tập tành làm YTB, tay ngang từ code dạo sang, đã tự động hóa 90% được quy trình sản xuất video, key hoạt hình kinh tế Hàn Quốc (không dùng G-Labs, tự động từ tạo kịch bản -> đóng gói video, thumbnail bán tự động, SEO thủ công), sử dụng VEO3, Elevenlabs, ffmpeg... tiết kiệm đáng kể thời gian và chi phí sản xuất. Tuy nhiên chưa đẩy được view, đang hướng xây kênh bền vững (dạo này YTB quét AI nhiều quá), cần tìm bro nào có kinh nghiệm hợp tác~ Tiện thấy trên forum có anh em hỏi cách để khớp voice và ảnh đơn giản, mình xin trích một phần mã nguồn hệ thống sản xuất của mình cho anh em tham khảo, anh em ném nó lên Gemini hoặc Antigravity để AI nó hướng dẫn chạy tool nhé! Mã nguồn python, anh em cứ yên tâm sử dụng không virut~ Nguyên lý: - Tách kịch bản (scripts) mỗi câu thoại 1 dòng, ví dụ kịch bản 100 dòng thì tạo 100 file audio bằng Elevenlabs API - Audio 5 giây thì tạo ảnh -> video 5 giây, audio 10 giây thì ảnh -> video 10 giây. Thế là khớp! Mã nguồn của mình cũng đã sử dụng các hiệu ứng Key Burns (Pan & Zoom) random để đa dạng hướng chuyển động của video ảnh. - Dùng ffmpeg (python) nối các video lại với nhau. Link github: bluuefin/img2video-mass-voice