Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Resumen de las tecnologías de reconocimiento de voz
- Historia y evolución del reconocimiento de voz.
- Modelos acústicos, modelos de lenguaje y decodificación.
- Arquitecturas modernas: RNN, transformadores y Whisper.
Conceptos básicos de preprocesamiento de audio y transcripción
- Manejo de formatos de audio y tasas de muestreo.
- Limpieza, recorte y segmentación del audio.
- Generación de texto a partir de audio: en tiempo real versus por lotes.
Práctica con Whisper y otras APIs
- Instalación y uso de OpenAI Whisper.
- Llamadas a APIs en la nube (Google, Azure) para transcripción.
- Comparación del rendimiento, latencia y costo.
Idioma, acentos y adaptación al dominio
- Trabajo con múltiples idiomas y acentos.
- Vocabularios personalizados y tolerancia al ruido.
- Manejo del lenguaje legal, médico o técnico.
Formato de salida e integración
- Adición de marcas de tiempo, puntuación e identificadores de hablante.
- Exportación a formatos de texto, SRT o JSON.
- Integración de transcripciones en aplicaciones o bases de datos.
Laboratorios de implementación de casos de uso
- Transcripción de reuniones, entrevistas o podcasts.
- Sistemas de comandos de voz a texto.
- Subtítulos en tiempo real para flujos de vídeo/auditivos.
Evaluación, limitaciones y ética
- Métricas de precisión y evaluación comparativa de modelos.
- Sesgo e imparcialidad en los modelos de voz.
- Consideraciones sobre privacidad y cumplimiento normativo.
Resumen y próximos pasos
Requerimientos
- Comprensión de conceptos generales de IA y aprendizaje automático
- Familiaridad con formatos de archivos de audio o multimedia y sus herramientas
Público objetivo
- Científicos de datos e ingenieros de IA que trabajan con datos de voz
- Desarrolladores de software que construyen aplicaciones basadas en transcripción
- Organizaciones que exploran el reconocimiento de voz para la automatización
14 Horas