ROCm para Windows
ROCm es una plataforma de código abierto para la programación de GPUs que admite GPUs de AMD y también proporciona compatibilidad con CUDA y OpenCL. ROCm expone al programador los detalles del hardware y otorga un control total sobre el proceso de paralelización. Sin embargo, esto también requiere un buen entendimiento de la arquitectura del dispositivo, el modelo de memoria, el modelo de ejecución y las técnicas de optimización.
ROCm para Windows es un desarrollo reciente que permite a los usuarios instalar y utilizar ROCm en el sistema operativo Windows, ampliamente utilizado para propósitos personales y profesionales. ROCm para Windows posibilita a los usuarios aprovechar el poder de las GPUs de AMD para diversas aplicaciones, como inteligencia artificial, juegos, gráficos y computación científica.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a desarrolladores de nivel principiante a intermedio que desean instalar y utilizar ROCm en Windows para programar GPUs de AMD y explotar su paralelismo.
Al final de esta formación, los participantes podrán:
- Configurar un entorno de desarrollo que incluya la plataforma ROCm, una GPU de AMD y Visual Studio Code en Windows.
- Crear un programa básico de ROCm que realice una suma de vectores en la GPU y recupere los resultados desde la memoria de la GPU.
- Utilizar la API de ROCm para consultar información del dispositivo, asignar y liberar memoria del dispositivo, copiar datos entre el anfitrión y el dispositivo, lanzar kernels y sincronizar hilos.
- Utilizar el lenguaje HIP para escribir kernels que se ejecuten en la GPU y manipulen datos.
- Utilizar las funciones integradas, variables y bibliotecas de HIP para realizar tareas y operaciones comunes.
- Utilizar los espacios de memoria de ROCm e HIP, como global, compartido, constante y local, para optimizar las transferencias de datos y los accesos a la memoria.
- Utilizar los modelos de ejecución de ROCm e HIP para controlar los hilos, bloques y cuadrículas que definen el paralelismo.
- Depurar y probar programas de ROCm e HIP utilizando herramientas como ROCm Debugger y ROCm Profiler.
- Optimizar programas de ROCm e HIP utilizando técnicas como la agrupación, el almacenamiento en caché, la prebúsqueda y el perfilado.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para organizarlo.
Temario del curso
Introducción
- ¿Qué es ROCm?
- ¿Qué es HIP?
- ROCm vs CUDA vs OpenCL
- Visión general de las características y arquitectura de ROCm e HIP
- ROCm para Windows vs ROCm para Linux
Instalación
- Instalación de ROCm en Windows
- Verificación de la instalación y comprobación de la compatibilidad del dispositivo
- Actualización o desinstalación de ROCm en Windows
- Solución de problemas comunes de instalación
Primeros pasos
- Creación de un nuevo proyecto de ROCm utilizando Visual Studio Code en Windows
- Exploración de la estructura del proyecto y los archivos
- Compilación y ejecución del programa
- Visualización de la salida mediante printf y fprintf
API de ROCm
- Uso de la API de ROCm en el programa anfitrión
- Consulta de información y capacidades del dispositivo
- Asignación y liberación de memoria del dispositivo
- Copia de datos entre el anfitrión y el dispositivo
- Lanzamiento de kernels y sincronización de hilos
- Gestión de errores y excepciones
Lenguaje HIP
- Uso del lenguaje HIP en el programa del dispositivo
- Escritura de kernels que se ejecutan en la GPU y manipulan datos
- Uso de tipos de datos, calificadores, operadores y expresiones
- Uso de funciones integradas, variables y bibliotecas
Modelo de memoria de ROCm e HIP
- Uso de diferentes espacios de memoria, como global, compartido, constante y local
- Uso de diferentes objetos de memoria, como punteros, matrices, texturas y superficies
- Uso de diferentes modos de acceso a la memoria, como solo lectura, solo escritura, lectura-escritura, etc.
- Uso del modelo de consistencia de memoria y mecanismos de sincronización
Modelo de ejecución de ROCm e HIP
- Uso de diferentes modelos de ejecución, como hilos, bloques y cuadrículas
- Uso de funciones de hilo, como hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x, etc.
- Uso de funciones de bloque, como __syncthreads, __threadfence_block, etc.
- Uso de funciones de cuadrícula, como hipGridDim_x, hipGridSync, grupos cooperativos, etc.
Depuración
- Depuración de programas ROCm e HIP en Windows
- Uso del depurador de Visual Studio Code para inspeccionar variables, puntos de interrupción, pila de llamadas, etc.
- Uso de ROCm Debugger para depurar programas ROCm e HIP en dispositivos AMD
- Uso de ROCm Profiler para analizar programas ROCm e HIP en dispositivos AMD
Optimización
- Optimización de programas ROCm e HIP en Windows
- Uso de técnicas de agrupación para mejorar el rendimiento de la memoria
- Uso de técnicas de almacenamiento en caché y prebúsqueda para reducir la latencia de la memoria
- Uso de memoria compartida y memoria local para optimizar los accesos a la memoria y el ancho de banda
- Uso del perfilado y las herramientas de perfilado para medir y mejorar el tiempo de ejecución y la utilización de recursos
Resumen y siguientes pasos
Requerimientos
- Comprensión del lenguaje C/C++ y conceptos de programación paralela
- Conocimientos básicos de arquitectura informática y jerarquía de memoria
- Experiencia con herramientas de línea de comandos y editores de código
- Familiaridad con el sistema operativo Windows y PowerShell
Público objetivo
- Desarrolladores que desean aprender a instalar y utilizar ROCm en Windows para programar GPUs de AMD y explotar su paralelismo
- Desarrolladores que desean escribir código de alto rendimiento y escalable que pueda ejecutarse en diferentes dispositivos de AMD
- Programadores que desean explorar los aspectos de bajo nivel de la programación de GPUs y optimizar el rendimiento de su código
Los cursos públicos requieren más de 5 participantes.
ROCm para Windows - Reserva
ROCm para Windows - Consulta
ROCm para Windows - Solicitud de consultoría
Próximos cursos
Cursos Relacionados
Desarrollo de aplicaciones de IA con Huawei Ascend y CANN
21 HorasHuawei Ascend es una familia de procesadores de IA diseñados para inferencia y entrenamiento de alto rendimiento.
Esta capacitación en vivo, impartida por instructores (en línea o presencial), está dirigida a ingenieros de IA y científicos de datos de nivel intermedio que desean desarrollar y optimizar modelos de redes neuronales utilizando la plataforma Ascend de Huawei y el kit de herramientas CANN.
Al finalizar esta capacitación, los participantes serán capaces de:
- Configurar y establecer el entorno de desarrollo de CANN.
- Desarrollar aplicaciones de IA utilizando flujos de trabajo con MindSpore y CloudMatrix.
- Optimizar el rendimiento en las NPUs de Ascend mediante operadores personalizados y tiling (fragmentación).
- Implementar modelos en entornos de borde o en la nube.
Formato del curso
- Clase interactiva y discusión.
- Uso práctico del kit de herramientas Huawei Ascend y CANN en aplicaciones de ejemplo.
- Ejercicios guiados centrados en la creación, entrenamiento e implementación de modelos.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso basada en su infraestructura o conjuntos de datos, póngase en contacto con nosotros para coordinarla.
Despliegue de Modelos de IA con CANN y Procesadores AI Ascend
14 HorasCANN (Compute Architecture for Neural Networks) es la pila de computación para IA de Huawei, diseñada para desplegar y optimizar modelos de IA en procesadores AI Ascend.
Esta formación dirigida por un instructor y impartida en directo (en línea o presencial) está dirigida a desarrolladores e ingenieros de nivel intermedio que deseen desplegar modelos de IA entrenados de manera eficiente en hardware Huawei Ascend, utilizando el kit de herramientas CANN y herramientas como MindSpore, TensorFlow o PyTorch.
Al finalizar esta formación, los participantes serán capaces de:
- Comprender la arquitectura de CANN y su papel en el flujo de trabajo de despliegue de IA.
- Convertir y adaptar modelos de frameworks populares a formatos compatibles con Ascend.
- Utilizar herramientas como ATC, la conversión de modelos OM y MindSpore para inferencia en bordes (edge) y en la nube.
- Diagnosticar problemas de despliegue y optimizar el rendimiento en hardware Ascend.
Formato del curso
- Clase interactiva con demostraciones prácticas.
- Práctica manual con herramientas CANN y simuladores o dispositivos Ascend.
- Escenarios de despliegue prácticos basados en modelos de IA del mundo real.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarla.
Inferencia y despliegue de IA con CloudMatrix
21 HorasCloudMatrix es la plataforma unificada de desarrollo y despliegue de inteligencia artificial de Huawei, diseñada para respaldar tuberías de inferencia escalables y orientadas a la producción.
Esta formación en vivo impartida por un instructor (en línea o en las instalaciones) está dirigida a profesionales de la IA de nivel principiante a intermedio que deseen desplegar y supervisar modelos de IA utilizando la plataforma CloudMatrix con integración de CANN y MindSpore.
Al final de esta formación, los participantes serán capaces de:
- Utilizar CloudMatrix para empaquetar, desplegar y servir modelos.
- Convertir y optimizar modelos para conjuntos de chips Ascend.
- Configurar tuberías para tareas de inferencia en tiempo real y por lotes.
- Supervisar despliegues y ajustar el rendimiento en entornos de producción.
Formato del curso
- Clase interactiva y discusión.
- Uso práctico de CloudMatrix con escenarios reales de despliegue.
- Ejercicios guiados centrados en la conversión, optimización y escalado.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su infraestructura de IA o entorno en la nube, póngase en contacto con nosotros para coordinarlo.
Programación de GPU en Aceleradores de IA de Biren
21 HorasLos aceleradores de IA de Biren son GPUs de alto rendimiento diseñadas para cargas de trabajo de IA y HPC, con soporte para entrenamiento e inferencia a gran escala.
Esta formación en vivo dirigida por un instructor (en línea o presencial) está dirigida a desarrolladores de nivel intermedio a avanzado que deseen programar y optimizar aplicaciones utilizando el stack propietario de GPU de Biren, con comparaciones prácticas frente a entornos basados en CUDA.
Al finalizar esta formación, los participantes serán capaces de:
- Comprender la arquitectura de la GPU de Biren y su jerarquía de memoria.
- Configurar el entorno de desarrollo y utilizar el modelo de programación de Biren.
- Traducir y optimizar código estilo CUDA para plataformas Biren.
- Aplicar técnicas de ajuste de rendimiento y depuración.
Formato del curso
- Conferencia interactiva y discusión.
- Uso práctico del SDK de Biren en cargas de trabajo de GPU de ejemplo.
- Ejercicios guiados centrados en la portabilidad y el ajuste de rendimiento.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en tu stack de aplicaciones o necesidades de integración, por favor contáctanos para coordinarlo.
Desarrollo de MLU con Cambricon usando BANGPy y Neuware
21 HorasLos MLUs (Unidades de Aprendizaje Automático) de Cambricon son chips de IA especializados, optimizados para tareas de inferencia y entrenamiento en entornos de borde y centros de datos.
Esta formación práctica, impartida por un instructor (en línea o presencial), está dirigida a desarrolladores de nivel intermedio que desean construir e implementar modelos de IA utilizando el framework BANGPy y el SDK de Neuware en hardware MLU de Cambricon.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar los entornos de desarrollo de BANGPy y Neuware.
- Desarrollar y optimizar modelos basados en Python y C++ para MLUs de Cambricon.
- Implementar modelos en dispositivos de borde y centros de datos que ejecuten el entorno runtime de Neuware.
- Integrar flujos de trabajo de aprendizaje automático (ML) con las funciones de aceleración específicas de MLU.
Formato del curso
- Clases interactivas y debates.
- Ejercicios prácticos con BANGPy y Neuware para desarrollo e implementación.
- Ejercicios guiados centrados en la optimización, integración y pruebas.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, basada en su modelo de dispositivo Cambricon o caso de uso, por favor contáctenos para coordinarlo.
Introducción a CANN para desarrolladores de frameworks de IA
7 HorasCANN (Compute Architecture for Neural Networks) es la suite de herramientas de computación para inteligencia artificial de Huawei, utilizada para compilar, optimizar y desplegar modelos de IA en procesadores de IA Ascend.
Esta formación presencial impartida por un instructor (en línea o in situ) está dirigida a desarrolladores de IA de nivel principiante que deseen comprender cómo CANN se integra en el ciclo de vida del modelo, desde el entrenamiento hasta el despliegue, y cómo interactúa con frameworks como MindSpore, TensorFlow y PyTorch.
Al finalizar esta formación, los participantes serán capaces de:
- Comprender el propósito y la arquitectura del toolkit CANN.
- Configurar un entorno de desarrollo con CANN y MindSpore.
- Convertir y desplegar un modelo de IA básico en hardware Ascend.
- Adquirir conocimientos fundamentales para futuros proyectos de optimización o integración con CANN.
Formato del curso
- Conferencia interactiva y debate.
- Prácticas con despliegue de modelos simples.
- Guía paso a paso de la cadena de herramientas CANN y los puntos de integración.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinarlo.
CANN para el despliegue de IA en el borde
14 HorasEl kit de herramientas Ascend CANN de Huawei permite una inferencia de IA potente en dispositivos del borde, como el Ascend 310. CANN proporciona las herramientas esenciales para compilar, optimizar y desplegar modelos en entornos con recursos de cómputo y memoria limitados.
Esta formación presencial impartida por un instructor (en línea o en sitio) está dirigida a desarrolladores e integradores de IA de nivel intermedio que deseen implementar y optimizar modelos en dispositivos del borde Ascend utilizando el conjunto de herramientas CANN.
Al finalizar esta formación, los participantes serán capaces de:
- Preparar y convertir modelos de IA para el Ascend 310 utilizando las herramientas CANN.
- Construir pipelines de inferencia ligeros usando MindSpore Lite y AscendCL.
- Optimizar el rendimiento del modelo para entornos con capacidad de cómputo y memoria limitadas.
- Desplegar y monitorear aplicaciones de IA en casos de uso reales en el borde.
Formato del curso
- Clase interactiva y demostración.
- Práctica de laboratorio con modelos y escenarios específicos para el borde.
- Ejemplos de despliegue en vivo en hardware del borde virtual o físico.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinar los detalles.
Comprendiendo la Pila de Cómputo con IA de Huawei: De CANN a MindSpore
14 HorasLa pila de IA de Huawei, desde el SDK de bajo nivel CANN hasta el framework de alto nivel MindSpore, ofrece un entorno de desarrollo y despliegue de IA estrechamente integrado, optimizado para hardware Ascend.
Esta formación en directo impartida por instructores (online o in situ) está dirigida a profesionales técnicos de nivel principiante e intermedio que desean comprender cómo los componentes CANN y MindSpore trabajan juntos para gestionar el ciclo de vida de la IA y tomar decisiones sobre la infraestructura.
Al finalizar esta formación, los participantes serán capaces de:
- Comprender la arquitectura en capas de la pila de cómputo con IA de Huawei.
- Identificar cómo CANN soporta la optimización de modelos y el despliegue a nivel de hardware.
- Evaluar el framework MindSpore y su conjunto de herramientas en relación con las alternativas del sector.
- Ubicar la pila de IA de Huawei dentro de entornos empresariales, en la nube o locales (on-prem).
Formato del Curso
- Clase interactiva y discusión.
- Demostraciones en directo del sistema y recorridos guiados basados en casos prácticos.
- Laboratorios opcionales guiados sobre el flujo de modelos desde MindSpore hasta CANN.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para organizarlo.
Optimización del Rendimiento de Redes Neuronales con el SDK CANN
14 HorasCANN SDK (Compute Architecture for Neural Networks) es la base de computación de IA de Huawei que permite a los desarrolladores ajustar y optimizar el rendimiento de las redes neuronales implementadas en procesadores de IA Ascend.
Esta formación presencial dirigida por instructores (en línea o in situ) está dirigida a desarrolladores de IA y ingenieros de sistemas de nivel avanzado que deseen optimizar el rendimiento de inferencia utilizando el conjunto avanzado de herramientas de CANN, incluido Graph Engine, TIK y el desarrollo de operadores personalizados.
Al final de esta formación, los participantes podrán:
- Comprender la arquitectura en tiempo de ejecución de CANN y su ciclo de vida de rendimiento.
- Utilizar herramientas de análisis perfiles y Graph Engine para el análisis y la optimización del rendimiento.
- Crear y optimizar operadores personalizados utilizando TIK y TVM.
- Resolver cuellos de botella de memoria y mejorar el throughput de los modelos.
Formato del Curso
- Clases interactivas y discusión.
- Laboratorios prácticos con análisis perfiles en tiempo real y ajuste de operadores.
- Ejercicios de optimización utilizando ejemplos de implementación de casos extremos.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, contáctenos para organizarlo.
CANN SDK para Pipelines de Visión por Computadora y PLN
14 HorasEl CANN SDK (Compute Architecture for Neural Networks) proporciona potentes herramientas de implementación y optimización para aplicaciones de IA en tiempo real de visión por computadora y PLN, especialmente en hardware Huawei Ascend.
Esta formación en vivo con instructores (en línea o presencial) está dirigida a profesionales de la IA de nivel intermedio que deseen construir, implementar y optimizar modelos de visión y lenguaje utilizando el CANN SDK para casos de uso en producción.
Al finalizar esta formación, los participantes serán capaces de:
- Implementar y optimizar modelos CV y NLP usando CANN y AscendCL.
- Utilizar herramientas CANN para convertir modelos e integrarlos en pipelines en tiempo real.
- Optimizar el rendimiento de inferencia para tareas como detección, clasificación y análisis de sentimiento.
- Construir pipelines CV/NLP en tiempo real para escenarios de implementación en edge o en la nube.
Formato del Curso
- Conferencia y demostración interactivas.
- Laboratorio práctico con implementación de modelos y perfilado de rendimiento.
- Diseño de pipelines en vivo usando casos de uso reales CV y NLP.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinarlo.
Construcción de operadores de IA personalizados con CANN TIK y TVM
14 HorasCANN TIK (Tensor Instruction Kernel) y Apache TVM permiten una optimización avanzada y la personalización de los operadores de modelos de IA para el hardware Huawei Ascend.
Esta formación en vivo y dirigida por instructores (en línea o presencial) está diseñada para desarrolladores de sistemas de nivel avanzado que deseen construir, implementar y optimizar operadores personalizados para modelos de IA utilizando el modelo de programación TIK de CANN y la integración del compilador TVM.
Al finalizar esta formación, los participantes serán capaces de:
- Escribir y probar operadores de IA personalizados utilizando el DSL de TIK para procesadores Ascend.
- Integrar operaciones personalizadas en el tiempo de ejecución y el grafo de ejecución de CANN.
- Utilizar TVM para la programación de operadores, la automatización del ajuste fino y la evaluación comparativa.
- Depurar y optimizar el rendimiento a nivel de instrucciones para patrones de cálculo personalizados.
Formato del curso
- Conferencia interactiva y demostración.
- Práctica de codificación de operadores utilizando los pipelines de TIK y TVM.
- Pruebas y ajuste fino en hardware Ascend o simuladores.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarla.
Migración de aplicaciones CUDA a arquitecturas GPU chinas
21 HorasLas arquitecturas GPU chinas, como Huawei Ascend, Biren y las MLU de Cambricon, ofrecen alternativas a CUDA adaptadas para los mercados locales de IA y HPC.
Esta formación en directo impartida por un instructor (en línea o presencial) está dirigida a programadores GPU avanzados y especialistas en infraestructura que deseen migrar y optimizar aplicaciones CUDA existentes para su despliegue en plataformas de hardware chinas.
Al finalizar esta formación, los participantes podrán:
- Evaluar la compatibilidad de las cargas de trabajo CUDA existentes con las alternativas de chips chinos.
- Transferir bases de código CUDA a entornos Huawei CANN, Biren SDK y Cambricon BANGPy.
- Comparar el rendimiento e identificar puntos de optimización en distintas plataformas.
- Dar solución a los desafíos prácticos del soporte entre arquitecturas y el despliegue.
Formato del curso
- Lección interactiva y discusión.
- Laboratorios prácticos de traducción de código y comparación de rendimiento.
- Ejercicios guiados centrados en estrategias de adaptación multi-GPU.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su plataforma o proyecto CUDA, por favor contáctenos para coordinarlo.
Optimización del Rendimiento en Ascend, Biren y Cambricon
21 HorasAscend, Biren y Cambricon son plataformas de hardware de IA líderes en China, cada una ofreciendo herramientas únicas de aceleración y perfilado para cargas de trabajo de IA a escala de producción.
Este entrenamiento en vivo con instructores (en línea o presencial) está dirigido a ingenieros avanzados de infraestructura y rendimiento de IA que desean optimizar los flujos de trabajo de inferencia y entrenamiento de modelos en múltiples plataformas de chips de IA chinos.
Al finalizar este entrenamiento, los participantes podrán:
- Ejecutar pruebas de rendimiento en las plataformas Ascend, Biren y Cambricon.
- Identificar cuellos de botella del sistema e ineficiencias de memoria/cómputo.
- Aplicar optimizaciones a nivel de gráfico, de kernel y de operador.
- Ajustar las tuberías de implementación para mejorar el rendimiento y la latencia.
Formato del Curso
- Clase interactiva y discusión.
- Uso práctico de herramientas de perfilado y optimización en cada plataforma.
- Ejercicios guiados centrados en escenarios prácticos de ajuste.
Opciones de Personalización del Curso
- Para solicitar un entrenamiento personalizado para este curso basado en su entorno de rendimiento o tipo de modelo, contáctenos para coordinar los detalles.