Contacta con nosotros

Temario del curso

Introducción a la síntesis de voz y la clonación de voz

  • Descripción general de la síntesis de texto a voz (TTS) y la síntesis de voz neuronal.
  • Clonación de voz frente a generación de habla: casos de uso y límites.
  • Modelos clave: Tacotron, WaveNet, FastSpeech, VITS.

Trabajo con plataformas comerciales

  • Uso de ElevenLabs y Resemble AI.
  • Creación, clonación y edición de voces.
  • Acceso a APIs y flujos de trabajo de texto a voz.

Desarrollo con herramientas de código abierto

  • Instalación y configuración de Coqui TTS.
  • Entrenamiento de voces personalizadas y gestión de conjuntos de datos.
  • Generación de voz con control fino (tono, velocidad, emoción).

Preparación de datos y gestión de conjuntos de datos de voz

  • Recolección y limpieza de muestras de voz.
  • Segmentación, etiquetado y alineación de transcripciones.
  • Obtención ética de datos y consentimiento para el uso de la voz.

Integración en aplicaciones

  • Incrustación de TTS en sitios web y aplicaciones.
  • Creación de sistemas IVR y bots interactivos.
  • Generación de diálogos sintéticos para videojuegos y contenido audiovisual.

Evaluación de la calidad y el realismo

  • Pruebas MOS (Puntuación Media de Opinión) e inteligibilidad.
  • Control de la expresividad y la prosodia.
  • Comparación de latencia, fidelidad y realismo.

Consideraciones éticas, legales y de gobernanza

  • Riesgos relacionados con los deepfakes y el uso responsable.
  • Implicaciones relacionadas con el consentimiento, la atribución y los derechos de autor.
  • Regulaciones y políticas organizativas.

Resumen y próximos pasos

Requerimientos

  • Conocimiento de los fundamentos del aprendizaje automático.
  • Familiaridad con formatos de archivos de audio y herramientas de edición.
  • Habilidades básicas de programación en Python.

Público objetivo

  • Desarrolladores e ingenieros de IA interesados en la síntesis de voz.
  • Creadores de contenido y tecnólogos multimedia que exploran la generación de voz.
  • Equipos de I+D que desarrollan sistemas de audio personalizados o dinámicos.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas