La fórmula para escribir prompts de video con audio y diálogo
Haz que tus personajes hablen y que tu mundo suene vivo.
Hasta ahora, muchos creadores han aprendido a describir escenas visuales.
Pero cuando entramos al terreno del diálogo y el sonido, el nivel sube.
Aquí ya no solo diriges la imagen. Ahora diriges la voz, la emoción y la atmósfera sonora.
Esta fórmula no es exclusiva de una IA específica. Funciona como lenguaje universal para cualquier modelo de texto a video con audio nativo.
🟩 Por qué esta fórmula es diferente
Cuando una IA es capaz de generar audio junto con el video, el prompt cambia radicalmente.
Ya no basta con decir qué se ve.
Debes indicar con claridad:
▪️ Quién está hablando
▪️ Qué está diciendo
▪️ Cómo lo está diciendo
▪️ Qué sonidos existen alrededor
Exactamente igual que cuando diriges a un actor real: las palabras importan, pero la interpretación importa aún más.
🟪 Fórmula base para escenas con diálogo
Puedes usar cualquiera de estas dos estructuras:
🔸Opción A (fluida):
[PERSONAJE] + [ACCIÓN] + [ÁNGULO DE CÁMARA] + [ENTORNO / ILUMINACIÓN] + [DIÁLOGO] + [TONO DE VOZ] + [SONIDO AMBIENTAL o MÚSICA]
🔸Opción B (más directa):
[PERSONAJE] + [ACCIÓN] + [ÁNGULO DE CÁMARA] + [ENTORNO / ILUMINACIÓN].
[El personaje] dice en [TONO DE VOZ] + [DIÁLOGO]
Ambas funcionan. La diferencia está en qué tan complejo es tu escenario.
🟥 ¿Cómo pensar este tipo de prompt?
Un prompt con diálogo no es una descripción. Es una escena actuada.
Por eso debes pensar en:
▪️ Qué está haciendo el personaje mientras habla
▪️ A quién le habla (cámara, otro personaje, a sí mismo)
▪️ Qué emoción domina la escena
▪️ Qué sonidos refuerzan esa emoción
🟦 Ejemplo desglosado:
🔹PERSONAJE: Un ser reconocible y con carácter claro.
🔹ACCIÓN: No solo habla: se mueve, reacciona, respira.
🔹CÁMARA: Selfie, primer plano, plano medio… eso cambia totalmente la conexión emocional.
🔹ENTORNO / ILUMINACIÓN: El lugar y la luz influyen directamente en el tono de voz.
🔹DIÁLOGO: La línea exacta que quieres escuchar, clara y natural.
🔹TONO DE VOZ: Aquí vive la interpretación: nervioso, sarcástico, cansado, confiado.
🔹SONIDO AMBIENTAL: La capa invisible que hace creíble la escena.
✅ 1. DIÁLOGO
🔸¿Qué hace?
Le indica a la IA que el personaje hable, con sincronización de labios y expresión facial coherente.
🔸Buenas prácticas:
▪️ Frases naturales, como hablaría una persona real
▪️ No demasiado largas
▪️ Coherentes con la situación emocional
🔸Ejemplos:
▪️ Hoy… vamos a recuperar lo que nos quitaron
▪️ No había visto un amanecer así en años
▪️ Bienvenidos de nuevo al canal, hoy toca sobrevivir
▪️ ¿De verdad crees que esto va a funcionar?
Consejo clave: Evita comillas si notas que aparecen subtítulos automáticos. Usa texto directo.
✅ 2. TONO DE VOZ
🔸 ¿Qué hace?
Define cómo se dicen las palabras.
Muchas veces influye más que el propio diálogo.
🔸Puedes definir:
▪️ Emoción
▪️ Energía
▪️ Edad aparente
▪️ Actitud
▪️ Estilo de interpretación
🔸 Ejemplos:
▪️ Voz joven, nerviosa, tartamudeante
▪️ Voz grave, segura y autoritaria
▪️ Voz cansada, suave y protectora
▪️ Tono sarcástico y relajado
✅ 3. SONIDO AMBIENTAL / MÚSICA
🔸¿Qué hace?
Convierte una escena visual en una experiencia inmersiva.
🔸Tipos de sonido que puedes incluir:
▪️ Ambiente (viento, pasos, ciudad, naturaleza)
▪️ Música de fondo (suave, épica, tensa)
▪️ Eventos sonoros puntuales (truenos, puertas, motores)
🔸 Ejemplos:
▪️ Viento fuerte entre los árboles
▪️ Piano suave de fondo
▪️ Ruido de calle y bocinas lejanas
▪️ Murmullo de gente y tazas chocando
Regla de oro: 1 o 2 sonidos bien elegidos > muchos sonidos caóticos.
🧱 Ejemplo completo de prompt con diálogo y audio
"Un joven con un traje futurista está de pie sobre una plataforma de aterrizaje al atardecer. La cámara se acerca lentamente desde la altura del pecho. La luz cálida de un sol alienígena ilumina la escena. Estilo de drama de ciencia ficción. Él mira al cielo y dice, con un tono tranquilo pero decidido: "No sé qué hay allá afuera… pero estoy listo para averiguarlo". Se escucha el viento aullando y una música ambiental de sintetizador suave de fondo".
🎧 Consejos prácticos finales:
▪️ Coloca el diálogo cerca del centro del prompt
▪️ Define primero la escena, luego la voz
▪️ No satures con audio innecesario
▪️ Si algo suena raro, ajusta el tono, no solo las palabras
▪️ El diálogo funciona mejor en texto a video, no con imágenes de referencia
🟪 Reflexión
Cuando una escena habla y suena bien, deja de parecer generada.
Empieza a parecer interpretada.
Y eso solo ocurre cuando tú diriges la voz, no cuando la dejas al azar.
🟦 Conclusión
Dominar prompts con audio y diálogo no es aprender un truco. Es aprender a dirigir actores invisibles.
Cuando controlas lo que dicen, cómo lo dicen y qué se escucha alrededor… tus videos dejan de ser clips y se convierten en escenas.
🟩 Preguntas para ti:
▪️ ¿Qué te parece más difícil: escribir el diálogo o definir el tono de voz?
▪️ ¿En qué tipo de escenas usarías primero audio y diálogo: ficción, vlogs o anuncios?
▪️ ¿Sueles pensar en el sonido al mismo tiempo que en la imagen, o después?