Instancias P3 de Amazon EC2

Acelere el aprendizaje automático y las aplicaciones de informática el alto desempeño con GPU poderosas

¿Por qué instancias P3 de Amazon EC2?

Las instancias P3 de Amazon EC2 ofrecen informática de alto rendimiento en la nube con hasta 8 GPU NVIDIA® V100 Tensor Core y hasta 100 Gbps de rendimiento de red para el aprendizaje automático y las aplicaciones HPC. Estas instancias ofrecen hasta un petaflop de rendimiento de precisión combinada por instancia para acelerar significativamente el aprendizaje automático y las aplicaciones de informática de alto rendimiento. Se ha probado que las instancias P3 de Amazon EC2 reducen los tiempos de entrenamiento de aprendizaje automático de días a minutos, además de aumentar entre tres y cuatro veces el número de simulaciones completadas para la informática de alto rendimiento.

Con un ancho de banda de red hasta cuatro veces mayor que el de las instancias P3.16xlarge, las instancias P3dn.24xlarge de Amazon EC2 son la última incorporación a la familia P3, optimizada para el machine learning distribuido y las aplicaciones HPC. Estas instancias proporcionan hasta 100 Gbps de rendimiento de redes, 96 vCPU escalables Intel® Xeon® Scalable (Skylake), 8 GPU NVIDIA® V100 Tensor Core con 32 GB de memoria cada una y 1,8 TB de almacenamiento SSD local basado en NVMe. Las instancias P3dn.24xlarge también admiten Elastic Fabric Adapter (EFA) que acelera las aplicaciones de machine learning distribuidas que utilizan la NVIDIA Collective Communications Library, (NCCL). EFA puede escalar a miles de GPU, lo que mejora significativamente el rendimiento y la escalabilidad de los modelos de entrenamiento de aprendizaje profundo, lo que permite obtener resultados más rápidos.

Información general de las instancias P3 de Amazon EC2

Beneficios

Para los científicos de datos, los investigadores y los desarrolladores que necesiten acelerar las aplicaciones de aprendizaje automático, las instancias P3 de Amazon EC2 son las más rápidas en la nube para el entrenamiento de aprendizaje automático. Las instancias P3 de Amazon EC2 incluyen ocho GPU NVIDIA V100 Tensor Core de última generación y ofrecen hasta un petaflop de rendimiento de precisión combinada para agilizar significativamente las cargas de trabajo de aprendizaje automático. El modelo de capacitación más rápida puede permitir que los científicos de datos y los ingenieros de aprendizaje automático iteren más rápido, capaciten más modelos e incrementen la precisión.

Una de las instancias de GPU más potentes en la nube, combinada con planes de precios flexibles, da como resultado una solución excepcionalmente rentable para el entrenamiento de aprendizaje automático. Al igual que sucede con las instancias Amazon EC2 en general, las instancias P3 están disponibles como instancias bajo demanda, reservadas o spot. Las instancias de spot aprovechan la capacidad no utilizada de instancias EC2 y pueden reducir significativamente los costos de Amazon EC2 con un descuento de hasta el 70 % sobre los precios bajo demanda.

A diferencia de los sistemas en las instalaciones, ejecutar tareas de informática de alto rendimiento en las instancias P3 de Amazon EC2 ofrece una capacidad prácticamente ilimitada para la escalabilidad horizontal de su infraestructura y la flexibilidad para cambiar los recursos con facilidad tan a menudo como lo requiera su carga de trabajo. Puede configurar sus recursos para cumplir con las demandas de su aplicación, lanzar un clúster de informática de alto rendimiento en cuestión de minutos y pagar solo por lo que usa.

Utilice imágenes de Docker preempaquetadas para implementar entornos de aprendizaje profundo en cuestión de minutos. Las imágenes contienen las herramientas y las bibliotecas de marcos de aprendizaje profundo (actualmente, TensorFlow y Apache MXNet) necesarias. Además, se sometieron a pruebas integrales. Puede añadir fácilmente bibliotecas y herramientas propias por encima de dichas imágenes para lograr un mayor nivel de control en las tareas de monitorización, conformidad y procesamiento de datos. Además, las instancias P3 de Amazon EC2 trabajan conjunta y continuamente con Amazon SageMaker para ofrecerle una plataforma de aprendizaje automático completa, eficiente e intuitiva. Amazon SageMaker es una plataforma de aprendizaje automático completamente administrada que le permite crear, entrenar e implementar modelos de aprendizaje automático rápida y fácilmente. Además, las instancias P3 de Amazon EC2 pueden integrarse con las imágenes de máquina de Amazon (AMI) de AWS Deep Learning que están preinstaladas con marcos de aprendizaje profundo populares. De este modo, resulta más rápido y fácil comenzar con el entrenamiento y la inferencia del aprendizaje automático.

Testimonios de clientes

Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias P3 de Amazon EC2.

  • Airbnb

    Airbnb actualmente utiliza el aprendizaje automático para optimizar las recomendaciones de búsqueda y para mejorar las indicaciones sobre precios dinámicos de los anfitriones, lo que se traduce en un mayor número de reservas concretadas. Con las instancias P3 de Amazon EC2, Airbnb puede ejecutar cargas de trabajo de entrenamiento con mayor rapidez, iterar más, crear mejores modelos de aprendizaje automático y reducir los costos.

  • Celgene

    Celgene es una empresa mundial de biotecnología que actualmente desarrolla terapias personalizadas que asocian los tratamientos con los pacientes. La empresa ejecuta sus cargas de trabajo de HPC para secuenciación genómica y simulación química de próxima generación en las instancias P3 de Amazon EC2. Gracias a esta potencia de cómputo, Celgene puede entrenar modelos de aprendizaje profundo para diferenciar células benignas de células malignas. Antes de utilizar las instancias P3, ejecutar trabajos informáticos a gran escala requería dos meses. Ahora, solo se necesitan cuatro horas. La tecnología de AWS permitió que Celgene acelere el desarrollo de terapias con medicamentos para tratar el cáncer y las enfermedades inflamatorias.

  • Hyperconnect

     

    Hyperconnect se especializa en la aplicación de nuevas tecnologías en función del aprendizaje automático para el procesamiento de video e imagen y fue la primera empresa en desarrollar webRTC para plataformas móviles.

    Lea el caso práctico completo

    Hyperconnect utiliza la clasificación de imágenes basadas en IA en la aplicación de comunicación por video a fin de reconocer el entorno actual en el que se encuentra un usuario. Redujimos el tiempo de entrenamiento de nuestro modelo de ML de más de una semana a menos de un día con la migración de estaciones de trabajo en las instalaciones a múltiples instancias P3 de Amazon EC2 con Horovod. Con el uso de PyTorch como nuestro marco de machine learning, podemos desarrollar modelos rápidamente y aprovechar las bibliotecas disponibles en la comunidad de código abierto.

    Sungjoo Ha, director del laboratorio de IA, Hyperconnect
  • NerdWallet

    NerdWallet es una empresa emergente financiera personal que ofrece herramientas y consejos que facilitan al cliente pagar una deuda, seleccionar los mejores servicios y productos financieros y enfrentar metas importantes, como la compra de una casa o los ahorros para la jubilación. La empresa se basa en gran medida en la ciencia de datos y el aprendizaje automático (ML) a fin de conectar a los clientes con productos financieros personalizados.

    Leer el caso práctico completo

    El uso de las instancias P3 de Amazon EC2 y Amazon SageMaker con las GPU NVIDIA V100 Tensor Core también mejoró el rendimiento y la flexibilidad de NerdWallet y redujo el tiempo requerido para que los científicos de datos entrenen los modelos de aprendizaje automático. “Solía tomarnos meses lanzar e iterar modelos, ahora solo nos lleva días”.

    Ryan Kirkman, gerente principal de ingeniería, NerdWallet
  • PathWise Solutions Group

    PathWise de Aon, un líder en soluciones de sistemas de calidad, es una aplicación SaaS basada en la nube orientada al modelo de gestión de riesgos empresariales que ofrece velocidad, fiabilidad, seguridad y servicio bajo demanda para una selección de clientes.

    Lea el caso práctico

    PathWise Solutions Group de Aon ofrece una solución de gestión de riesgos que permite a los clientes aprovechar las tecnologías más recientes para resolver de manera rápida los desafíos claves de seguros de hoy, como administración y prueba de estrategias de cobertura, previsión económica y normativa y elaboración de presupuestos. PathWise se ha ejecutado en AWS en producción desde 2011 y hoy utiliza instancias P-Series de Amazon EC2 a fin de acelerar los cómputos necesarios con el objetivo de resolver estos desafíos para nuestros clientes en todo el mundo en un mercado en constante avance y evolución.

    Van Beach, director global de Life Solutions, Aon Pathwise Strategy and Technology Group
  • Pinterest

    Pinterest utiliza un entrenamiento de precisión combinado en las instancias P3 de AWS para acelerar el entrenamiento de los modelos de aprendizaje profundo. También utiliza estas instancias para lograr la inferencia de estos modelos con mayor rapidez y permitir una experiencia de detección única y rápida para los usuarios. Pinterest utiliza PinSage, el cual se desarrolló con PyTorch en AWS. Estos grupos de modelos de inteligencia artificial juntan imágenes según determinados temas. Con 3 mil millones de imágenes en la plataforma, existen aproximadamente 18 mil millones de asociaciones diferentes que conectan imágenes. Estas asociaciones ayudan a Pinterest a contextualizar los temas y los estilos. Además, ayudan a crear experiencias más personalizadas para los usuarios.

  • Salesforce

     

    Salesforce utiliza el aprendizaje automático para respaldar Einstein Vision, lo que permite a los desarrolladores aprovechar el poder del reconocimiento de imágenes para casos de uso, como las búsquedas visuales, la detección de marcas y la identificación de productos. Las instancias P3 de Amazon EC2 permiten que los desarrolladores capaciten los modelos de aprendizaje automático mucho más rápido para que puedan alcanzar su objetivos de aprendizaje automático velozmente.

  • Schrodinger

    Schrödinger usa la informática de alto rendimiento (HPC) para desarrollar modelos predictivos a los fines de ampliar la escala de descubrimiento y optimización, y así brindar a sus clientes la capacidad de ofrecer medicamentos vitales en el mercado más rápidamente. Las instancias P3 de Amazon EC2 permiten que Schrödinger realice cuatro veces más simulaciones al día que con las instancias P2.  

  • Subtle Medical

    Subtle Medical es una empresa de tecnología de sanidad que trabaja para mejorar la eficiencia de las imágenes médicas y la experiencia del paciente con soluciones innovadoras de aprendizaje profundo. Su equipo está compuesto por científicos de imágenes, radiólogos y expertos en IA reconocidos de Stanford, MIT y MD Anderson, entre otros.

    Lea el caso práctico completo

    Los hospitales y los centros de imágenes desean adoptar esta solución sin agobiar a los departamentos de TI para adquirir experiencia en GPU y crear y mantener centros de datos costosos o nubes pequeñas. Desean llevar a cabo despliegues de manera correcta con la menor cantidad de esfuerzo e inversión… AWS lo hace posible.

    Enhao Gong, fundador y director ejecutivo, Subtle Medical
  • Western Digital

    Western Digital usa la informática de alto rendimiento para ejecutar decenas de miles de simulaciones para las ciencias de materiales, los flujos de calor, la magnética y la transferencia de datos, a fin de mejorar la calidad y el rendimiento de las soluciones de almacenamiento y las unidades de disco. Con base en las primeras evaluaciones, las instancias P3 permiten que los equipos de ingeniería ejecuten simulaciones al menos tres veces más rápido que con las soluciones implementadas anteriormente.  

Instancias P3 de Amazon EC2 y Amazon SageMaker

Amazon SageMaker facilita la creación, el entrenamiento y la implementación de modelos de aprendizaje automático y su preparación para el entrenamiento. Proporciona todo lo necesario para conectarse rápidamente a los datos de entrenamiento y para seleccionar y optimizar el mejor algoritmo y marco de trabajo para la aplicación. Amazon SageMaker incluye blocs de notas de Jupyter hospedados que facilitan el análisis y la visualización de los datos de entrenamiento almacenados en Amazon S3.  También puede usar una instancia de bloc de notas para escribir el código a los fines de crear trabajos de entrenamiento de modelos, implementar modelos para el alojamiento de Amazon SageMaker y evaluar o validar sus modelos.

Puede comenzar a entrenar su modelo con un solo clic en la consola o con una llamada a la API. Amazon SageMaker viene preconfigurado con las versiones más recientes de TensorFlow y Apache MXNet, y con compatibilidad para bibliotecas CUDA9 a los fines de lograr un nivel de rendimiento óptimo con las GPU NVIDIA. Además, la optimización de los hiperparámetros se puede adaptar automáticamente a su modelo al ajustar de manera inteligente diferentes combinaciones de parámetros de modelo para alcanzar rápidamente las predicciones más precisas. Para necesidades de mayor escala, puede escalar dieces de instancias para apoyar la creación de un modelo más rápido.

Después del entrenamiento, puede usar un solo clic para implementar su modelo en las instancias Amazon EC2 de escalado automático en varias zonas de disponibilidad. En producción, Amazon SageMaker administra la infraestructura informática por usted para realizar comprobaciones de estado, implementar parches de seguridad y realizar otras tareas de mantenimientos de rutina, todo con registro y monitoreo de Amazon CloudWatch integrados.

Instancias P3 de Amazon EC2 y AMI de aprendizaje profundo de AWS

Entornos de desarrollo preconfigurado para comenzar rápidamente a crear aplicaciones de aprendizaje profundo

Las AMI de aprendizaje profundo de AWS, una alternativa a Amazon SageMaker para los desarrolladores que tienen requisitos más personalizados, ofrecen a los profesionales de machine learning y a los investigadores la infraestructura y las herramientas para agilizar el aprendizaje profundo en la nube a cualquier escala. Puede lanzar rápidamente instancias P3 de Amazon EC2 con marcos de aprendizaje profundo conocidos que se instalaron con anterioridad, como TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon y Keras, para entrenar modelos de inteligencia artificial personalizados y sofisticados, probar algoritmos nuevos o aprender nuevas técnicas y habilidades. Más información

Instancias P3 de Amazon EC2 e informática de alto rendimiento

Resuelva problemas informáticos a gran escala y obtenga nueva información con la potencia de HPC en AWS

Las instancias P3 de Amazon EC2 son una plataforma ideal para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo informáticas con GPU. La informática de alto rendimiento (HPC) permite a los científicos e ingenieros resolver estos problemas complejos que exigen una gran capacidad informática. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas, o todas estas características juntas. AWS permite agilizar las investigaciones y disminuir los plazos de obtención de resultados mediante la ejecución de HPC en la nube y el escalado de un mayor número de tareas paralelas del que sería posible en la mayoría de los entornos en las instalaciones. Por ejemplo, las instancias P3dn.24xlarge admiten Elastic Fabric Adapter (EFA) que permite que las aplicaciones HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS ayuda a reducir costos al ofrecer soluciones optimizadas para las aplicaciones específicas y sin la necesidad de realizar grandes inversiones de capital. Más información

Compatibilidad con NVIDIA RTX Virtual Workstation

Las AMI de NVIDIA RTX Virtual Workstation entregan un alto rendimiento de gráficos por medio de potentes instancias P3 con GPU NVIDIA Volta V100 que se ejecutan en la nube de AWS. Estas AMI tienen el último software de gráficos de las GPU NVIDIA preinstalado junto con los últimos controladores RTX y las certificaciones NVIDIA ISV que admiten hasta cuatro resoluciones de escritorio 4K. Las instancias P3 con GPU NVIDIA V100 combinadas con las RTX vWS entregan una estación de trabajo de alto rendimiento en la nube con hasta 32 GiB de memoria de GPU, rápido trazado de rayos y renderizado con tecnología de IA.

Las nuevas AMI están disponibles en AWS Marketplace y son compatibles con Windows Server 2016 y Windows Server 2019.

Instancias P3dn.24xlarge de Amazon EC2

Las instancias P3dn.24xlarge de Amazon EC2 son el tamaño de instancia P3 más rápido, potente y grande disponible. Cuentan con una capacidad de rendimiento de redes de hasta 100 Gbps, 8 GPU NVIDIA® V100 Tensor Core con 32 GiB de memoria cada una, 96 CPU virtuales escalables Intel® Xeon® Scalable (Skylake) y 1,8 TB de almacenamiento SSD local basado en NVMe. La mayor agilidad de redes, los procesadores nuevos, la duplicación de la memoria para GPU y las vCPU adicionales permiten a los desarrolladores disminuir el tiempo necesario para entrenar sus modelos de ML o ejecutar más simulaciones de informática de alto rendimiento mediante el escalado horizontal de sus trabajos en varias instancias (p. ej., 16, 32 o 64 instancias). Los modelos de aprendizaje automático requieren una gran cantidad de datos para el entrenamiento y, además de aumentar el rendimiento de la transmisión de datos entre instancias, el rendimiento de red adicional de las instancias P3dn.24xlarge también se puede utilizar para acelerar el acceso a grandes cantidades de datos de entrenamiento mediante la conexión a Simple Storage Service (Amazon S3) o a soluciones de sistemas de archivos compartidos, como Amazon EFS.

Con un rendimiento de redes de 100 Gbps, los desarrolladores pueden utilizar eficientemente un gran número de instancias P3dn.24xlarge para el entrenamiento distribuido y reducir de manera significativa el tiempo de entrenamiento de sus modelos. Las 96 vCPU de los procesadores Intel Skylake personalizados para AWS con instrucciones AVX-512 que funcionan a 2,5 GHz ayudan a optimizar el preprocesamiento de datos. Además, las instancias P3dn.24xlarge usan el AWS Nitro System, una combinación de hardware dedicado e hipervisor ligero que proporciona prácticamente todos los recursos de computación y de memoria del hardware del host a sus instancias. Las instancias P3dn.24xlarge también admiten Elastic Fabric Adapter que permite que las aplicaciones de ML que usan NVIDIA Collective Communications Library (NCCL) escalen a miles de GPU.

La red mejorada con la última versión de Elastic Network Adapter con hasta 100 Gbps de ancho de banda de red agregado se puede utilizar no solo para compartir datos en varias instancias P3dn.24xlarge, sino también para el acceso a datos de alto rendimiento a través de Amazon S3 o una solución de sistemas de archivos compartidos como Amazon EFS. El acceso a datos de alto rendimiento es esencial para optimizar la utilización de las GPU y obtener el máximo rendimiento de las instancias de computación.

Las instancias P3dn.24xlarge ofrecen las GPU NVIDIA V100 Tensor Core con 32 GiB de memoria que proporcionan la flexibilidad necesaria para entrenar modelos de machine learning más avanzados y grandes, así como para procesar lotes de datos más grandes, como imágenes 4K para sistemas de clasificación de imágenes y detección de objetos.

Detalles de producto de la instancia P3 de Amazon EC2

Tamaño de instancia GPU – Tesla V100 GPU de pares Memoria de GPU (GB) vCPU Memoria (GB) Ancho de banda de la red Ancho de banda de EBS Precio de la instancia bajo demanda por hora* Por hora real en una instancia reservada por 1 año* Por hora real en una instancia reservada por 3 años.*
p3.2xlarge 1 N/D 16 8 61 Hasta 10 Gbps 1,5 Gbps 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Gbps 7 Gbps 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Gbps 14 Gbps 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Gbps 19 Gbps 31,218 USD 18,30 USD 9,64 USD

* Los precios mostrados corresponden a Linux/Unix en la región de AWS EE.UU. Este (Norte de Virginia) y se redondean al céntimo más bajo. Para ver la información sobre precios completa, consulte la página de precios de Amazon EC2.

Los clientes pueden adquirir instancias P3 como instancias bajo demanda, instancias reservadas, instancias de spot o hosts dedicados.

Facturación por segundo

Una de las numerosas ventajas de la informática en la nube es la naturaleza elástica del aprovisionamiento o el desaprovisionamiento de recursos, según los requiera. Con la facturación del uso por segundo, los clientes pueden mejorar su elasticidad, ahorrar dinero y optimizar la asignación de los recursos para alcanzar sus objetivos de aprendizaje automático.

Precios de las instancias reservadas

Las instancias reservadas ofrecen un descuento importante (hasta del 75 %) en comparación con los precios de las instancias bajo demanda. Además, cuando se asignan instancias reservadas a una zona de disponibilidad específica, se proporciona una reserva de capacidad, lo que le aporta más tranquilidad en relación con la posibilidad de lanzar instancias cuando las necesite.

Precios de las instancias de spot

Con las instancias de spot, paga el precio de spot vigente durante el periodo en que sus instancias se ejecuten. Amazon EC2 define los precios de las instancias de spot y estos se ajustan gradualmente en función de las tendencias a largo plazo de la oferta y la demanda de capacidad de este tipo de instancia. Las instancias de spot están disponibles con un descuento de hasta el 90 % en comparación con los precios de las instancias bajo demanda.

La más amplia disponibilidad en el mundo

Disponibilidad mundial de las instancias P3

Las instancias P3.2xlarge, P3.8xlarge y P3.16xlarge de Amazon EC2 están disponibles en 14 regiones de AWS para que los clientes tengan la flexibilidad de entrenar e implementar sus modelos de aprendizaje automático donde los datos estén almacenados. Las regiones de AWS disponibles para P3 son EE. UU. Este (Norte de Virginia), EE. UU. Este (Ohio), EE. UU. Oeste (Oregón), Canadá (Central), Europa (Irlanda), Europa (Frankfurt), Europa (Londres), Asia Pacífico (Tokio), Asia Pacífico (Seúl), Asia Pacífico (Sídney), Asia Pacífico (Singapur), China (Pekín), China (Ningxia) y GovCloud (EE. UU.).

Las instancias P3dn.24xlarge están disponibles en las regiones de AWS Asia-Pacífico (Tokio), Europa (Irlanda), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), GovCloud (EE. UU. Oeste) y GovCloud (EE. UU. Este).

Comience a utilizar las instancias P3 de Amazon EC2 para el aprendizaje automático

Para poder comenzar en minutos, obtenga más información sobre Amazon SageMaker o use la AMI de aprendizaje profundo de AWS, instalada previamente con marcos de aprendizaje profundo conocidos, como Caffe2 y MXNet. Opcionalmente, también puede utilizar la AMI de NVIDIA con un controlador de GPU y un conjunto de herramientas CUDA instalados previamente.