Hola amigos. Aqui les doy una guía completa, paso a paso, usando solo herramientas gratis o de código abierto cuando sea posible, para crear desde cero un video "faceless" (sin mostrar tu cara) para YouTube. Incluiré flujos de trabajo, herramientas recomendadas, prompts listas para usar y consejos de SEO y publicación.
Pueden dejar su 👍🏻 si les sirvió.
1) Planificación (idea + formato)
Define el tema: nicho (curiosidades, explicación, top 10, reseñas, historias, meditación, recetas, hacks, resumen de libros, etc.).
Elige formato faceless: voz en off + imágenes/footage, texto en pantalla + música, animación de slides, grabación de pantalla (tutorial), o avatar animado (si quieres).
Duración objetivo: 6–12 min (educativos/explicativos) o 8–15 min si monetizas; para shorts <60s crea otra versión.
2) Escribir el guion (rápido, claro y optimizado)
Herramientas gratis sugeridas:
ChatGPT (versión gratuita) o Google Bard para brainstorm y redacción.
También puedes usar Local LLMs o Hugging Face Spaces si quieres offline.
Proceso:
Escribe un brief: tema + audiencia + objetivo (informar/entretener/convertir).
Pide al modelo un guion con timestamps y CTA (suscribirse, enlace).
Divide en secciones: Hook (0–15s), desarrollo, resumen, CTA final.
Ejemplo de prompt (para ChatGPT/Bard):
"Escribe un guion para YouTube de 8 minutos sobre '5 trucos para concentrarte y estudiar mejor' con hook de 15 segundos, lenguaje simple, frases cortas, y llamadas a la acción para suscribirse y descargar una guía gratuita."
Plantilla breve de guion:
Hook (15 s): problema + promesa.
Punto 1 (1:00) — ejemplo práctico.
Punto 2 (1:00) ...
Resumen (30 s).
CTA (suscribirse / like / enlace).
3) Generar la voz (voz en off) — opciones 100% gratis / open-source
Opciones:
Whisper + TTS en Google Colab: puedes usar Whisper para transcribir y Coqui TTS o el proyecto "TTS" de Hugging Face para generar audio desde el guion.
Hugging Face Spaces: hay demos de TTS gratuitas (voces limitadas).
Edge TTS (Microsoft): hay notebooks que usan la API gratuita localmente (requiere cuenta MS).
Balabolka (Windows) + voces SAPI gratuitas.
Recomendación práctica (sin programar mucho):
Usa un notebook de Colab (hay plantillas públicas) para:
Pegar el guion.
Ejecutar un TTS (Coqui TTS o Tacotron/Glow-tts disponibles).
Descargar MP3/WAV.
Ventaja: control total de velocidad, entonación y silabeo.
Prompt / ajuste de parámetros para TTS:
Velocidad: 0.95–1.05
Pausas: insertar “—” o marcadores de pausa en el texto.
Enfatizar frases clave con mayúsculas o etiquetas SSML si el TTS lo permite.
4) Visuales (sin mostrar tu cara)
Opciones combinadas (gratis):
A) Stock footage gratuito
Pexels, Pixabay, Unsplash (videos e imágenes libres).
B) Generar imágenes con IA
Stable Diffusion (en Hugging Face Spaces o Colab): genera ilustraciones, fondos, escenas.
Prompts de ejemplo para SD:
"Cinematic cityscape at dawn, ultra-detailed, 35mm, warm tones, depth of field, photorealistic"
Para personajes: usa “portrait, from the chest up, no face” — ten cuidado con contenido realista si buscas anonimato.
C) Animaciones / slides
Crea slides en Google Slides / PowerPoint y exporta como video.
D) Captura de pantalla / grabaciones
OBS Studio (gratis) para grabar tutoriales o demostraciones.
Consejo: mezcla stock footage + imágenes generadas + texto en pantalla para mayor dinamismo.
5) Generar subtítulos (mejorar SEO y accesibilidad)
Usa Whisper (open-source) en Colab para generar subtítulos automáticos desde tu voz en off. Exporta SRT.
YouTube genera subtítulos auto, pero usar SRT propio te da mejor control.
6) Edición (programas gratis)
DaVinci Resolve (versión gratuita) — profesional; curva media/alta.
Shotcut — más sencillo y open-source.
OpenShot — simple para principiantes.
Flujo de edición:
Importa audio (voz en off).
Coloca clips/footage por bloques según guion.
Añade texto en pantalla (puntos clave, timestamps).
Inserta transiciones suaves, zoom/Ken Burns en imágenes.
Inserta música de fondo baja (ver sección música).
Añade efectos sutiles (reverb leve a voz, compresión).
Parámetros recomendados:
Resolución: 1920×1080.
Frame rate: 30 fps.
Bitrate video: 8–12 Mbps (H.264).
Audio: 48 kHz, 192–320 kbps (MP3 o AAC).
7) Música y efectos — libres y gratis
YouTube Audio Library (gratis para creadores).
Free Music Archive, ccMixter.
Efectos: Freesound.org (comprueba licencias).
Consejo: volumen de música al 10–20% (ducking cuando habla la voz).
8) Miniatura (thumbnail), título y descripción (SEO)
Herramientas para miniatura:
Canva (versión gratis) o Photopea (open-source online).
Reglas miniatura:
Texto grande y legible (2–5 palabras).
Cara no necesaria: usa iconos, ilustración, color contrastante.
Tamaño: 1280×720, menos de 2 MB, formato JPG/PNG.
Título:
Incluye keywords: “[Keyword principal] — [beneficio o número]”
Ejemplo: “5 Trucos para Concentrarte Hoy — Estudia Mejor en 1 Hora”
Descripción:
1–2 párrafos explicativos + timestamps (si tienes).
Enlaces a recursos, redes sociales y llamado a la acción.
Tags:
10–15 tags relevantes (palabras clave y variaciones).
9) Subida y opciones de YouTube
Sube SRT para subtítulos.
Selecciona categoría, público (no para menores si no aplica), monetización (si corresponde).
Usa tarjeta final y pantallas finales (end screens) para retener audiencia.
10) Prompts prácticos que puedes copiar/pegar
Guion (prompt a ChatGPT):
"Escribe un guion para YouTube de 8 minutos sobre '5 trucos para concentrarte y estudiar mejor' con hook de 15 segundos, lenguaje simple y puntos numerados. Incluye una llamada a la acción para suscribirse."
Prompt para Stable Diffusion (fondo):
"peaceful study room, soft morning light, books on table, shallow depth of field, photorealistic, 4k"
Prompt para TTS (SSML breve, si tu TTS lo soporta):
<speak>
<p>¿Quieres concentrarte mejor?</p>
<break time="400ms" />
<p>Prueba estos cinco trucos simples que funcionan hoy.</p>
</speak>
Prompt para thumbnails (Canva idea en texto):
“Fondo azul vibrante + texto grande ‘CONCENTRA+AHORA’ + icono de reloj + imagen estilizada de escritorio.”
11) Herramientas concretas y gratuitas (resumen)
Guion / ideas: ChatGPT (gratuito) / Google Bard.
Voz: Coqui TTS (Hugging Face Spaces), TTS en Colab.
Transcripción/subtítulos: Whisper (Colab).
Imágenes AI: Stable Diffusion (Hugging Face Spaces / Colab).
Stock footage/imagenes: Pexels, Pixabay, Unsplash.
Edición video: DaVinci Resolve (gratuito), Shotcut, OpenShot.
Música: YouTube Audio Library, Free Music Archive.
Miniaturas: Canva (gratuito), Photopea.
Subida y gestión: YouTube Studio.
12) Ejemplo de flujo completo rápido (resumen operativo)
Idea + brief (10–20 min).
Generar guion con ChatGPT (10 min).
Generar voz con Coqui TTS en Colab (20–40 min).
Descargar B-roll / generar imágenes (30–60 min).
Editar en Shotcut / DaVinci (1–3 h según experiencia).
Exportar y subir a YouTube, añadir SRT y thumbnail (20–30 min).
13) Aspectos legales y buenas prácticas
Revisa licencias de música/footage.
Si usas voces clonadas o imágenes de personas reales, pide permiso.
Evita contenido protegido por copyright sin permiso.
Declara si hay contenido patrocinado.
14) Métricas y optimización (post-publicación)
Observa Retention (retención de audiencia) y CTR (click through rate) de miniatura.
Si la retención cae rápido en los primeros 15–30s, mejora el hook en futuros videos.
Itera títulos, thumbnails y descripciones
Espero les sirva 🔥🔥