Red Hat libera la IA generativa para cualquier modelo y acelerador en toda la nube híbrida con Red Hat AI Inference Server

RH-hall.jpg

Red Hat AI Inference Server, impulsado por vLLM y mejorado con tecnologías Neural Magic, ofrece una inferencia de IA en la nube híbrida más veloz, de mayor rendimiento y a bajo costo.

Red Hat, el proveedor líder mundial de soluciones open source, presentó hoy Red Hat AI Inference Server, que constituye un gran avance hacia la democratización de la IA generativa (gen AI) en la nube híbrida. Este servidor de inferencia para la empresa es una nueva oferta dentro de Red Hat AI, que nace a partir del potente proyecto comunitario vLLM y está optimizado por la integración de las tecnologías Neural Magic de Red Hat. Esto hace posible ejecutar cualquier modelo de IA generativa en cualquier acelerador de IA, en cualquier entorno de nube, más rápido, con mayor eficiencia del acelerador y a bajo costo y ayudar a cumplir con la visión de Red Hat. Ya sea que se la implemente de forma autónoma o como componente integrado de Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI, esta plataforma revolucionaria permite a las organizaciones implementar y escalar la IA generativa en modo de producción con mayor confianza. 

La inferencia es el motor de ejecución crítico de la IA, en el que los modelos preentrenados traducen los datos en un impacto tangible. Es el punto clave de la interacción con el usuario, que exige respuestas rápidas y precisas. A medida que los modelos de IA generativa se vuelven cada vez más complejos y las implementaciones de producción aumentan, la inferencia puede convertirse en un importante cuello de botella que acapara recursos de hardware y amenaza con reducir la capacidad de respuesta e inflar los costos operativos. Para liberar el verdadero potencial de la IA a gran escala, los servidores de inferencia potentes ya no son un lujo, sino una necesidad, dado que sortean las complejidades subyacentes con mayor facilidad.

Red Hat hace frente a estos desafíos en forma directa con Red Hat AI Inference Server, una solución de inferencia abierta diseñada para lograr un alto rendimiento y equipada con herramientas líderes en compresión y optimización de modelos. Esta innovación facilita que las organizaciones aprovechen al máximo el poder transformador de la IA generativa al ofrecer experiencias de usuario significativamente más eficaces y una libertad inigualable para elegir aceleradores de IA, modelos y entornos de TI.

vLLM: mayor innovación en inferencia

Red Hat AI Inference Server se basa en el proyecto vLLM, líder del sector, iniciado por UC Berkeley a mediados de 2023. Este proyecto comunitario ofrece una inferencia de IA generativa de alto rendimiento, admite contextos de entrada de gran tamaño, aceleración de modelos de múltiples GPU y compatibilidad con el procesamiento continuo por lotes, entre muchas otras características.

El amplio soporte de vLLM para modelos open source, sumado a la integración de Día 0 de los modelos de vanguardia líderes, como DeepSeek, Gemma, Llama, Llama Nemotron, Mistal y Phi, entre otros, así como modelos de razonamiento de nivel empresarial y de código abierto como Llama Nemotron, lo posiciona como un estándar de facto para la innovación futura en inferencia de IA. Los principales proveedores de modelos de vanguardia están adoptando los vLLM cada vez más, consolidando así la función clave que desempeñan en el futuro de la IA generativa.

Presentación de Red Hat AI Inference Server

Red Hat AI Inference Server reúne la innovación líder de los vLLM y la transforma en las capacidades de Red Hat AI Inference Server de grado empresarial. Red Hat AI Inference Server está disponible como una solución en contenedores independiente o como parte de RHEL AI y Red Hat OpenShift AI.

Red Hat AI Inference Server proporciona a los usuarios una distribución de vLLM compatible y más segura, además de:

  • Herramientas de compresión de LLM inteligentes, que reducen considerablemente el tamaño de los modelos de IA, tanto los de base como los ajustados, lo cual minimiza el consumo de recursos informáticos y preserva y mejora potencialmente la precisión del modelo. 
  • Repositorio optimizado de modelos, alojado en Hugging Face, dentro de la organización de Red Hat AI, que ofrece acceso instantáneo a una colección validada y optimizada de modelos de IA líderes listos para la implementación de inferencia, lo que ayuda a duplicar o cuadruplicar la aceleración de la eficiencia sin comprometer la precisión del modelo.
  • Soporte empresarial de Red Hat y décadas de experiencia en llevar proyectos comunitarios a entornos de producción.
  • Soporte de terceros, para una mayor flexibilidad de implementación, lo que permite implementar Red Hat AI Inference Server en plataformas que no sean Red Hat Linux y Kubernetes de conformidad con la Política de soporte de componentes de terceros de Red Hat.

La visión de Red Hat: Cualquier modelo, acelerador o nube

El futuro de la IA debe definirse por oportunidades ilimitadas, sin silos de infraestructura que la restrinjan. Red Hat visualiza un horizonte en el que las empresas puedan implementar cualquier modelo, en cualquier acelerador y en cualquier nube, al mismo tiempo que ofrecen una experiencia de usuario excepcional y más uniforme sin costos exorbitantes. Para aprovechar al máximo el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal, un estándar para lograr una innovación en IA más fluida y de alto rendimiento, tanto hoy como en el futuro.

Así como Red Hat fue precursora de la empresa abierta al transformar Linux en el cimiento de la TI moderna, hoy la compañía está en condiciones de moldear el futuro de la inferencia de IA. El potencial de los vLLM radica en ser una pieza clave de la inferencia de la IA generativa estandarizada y Red Hat tiene el compromiso de construir un ecosistema próspero no solo en torno a la comunidad de vLLM, sino también de llm-d para la inferencia distribuida a gran escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene como meta convertir a vLLM en el estándar abierto por excelencia para la inferencia en la nueva nube híbrida. 

Red Hat Summit

Participe de las presentaciones del Red Hat Summit para escuchar las últimas novedades de los ejecutivos, clientes y partners de Red Hat:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

scroll to top