Almacenamiento en caché de peticiones de Amazon Bedrock
Información general
Muchos casos de uso del modelo fundacional (FM) reutilizarán ciertas partes de las peticiones (prefijos) en las llamadas a la API. Con el almacenamiento en caché de peticiones, los modelos compatibles le permitirán almacenar en caché estos prefijos de mensajes repetidos entre solicitudes. Esta caché permite al modelo omitir el recálculo de los prefijos coincidentes. Como resultado, el almacenamiento en caché de peticiones en Amazon Bedrock puede reducir los costos hasta en un 90 % y la latencia hasta en un 85 % para los modelos compatibles.
Mejorar el rendimiento para múltiples casos de uso
Muchas aplicaciones requieren o se benefician de peticiones largas, como las preguntas y respuestas sobre documentos, los asistentes de código, la búsqueda de agentes o el chat de formato largo. Incluso con los modelos fundaciones más inteligentes, a menudo es necesario utilizar peticiones extensas con instrucciones detalladas con muchos ejemplos para lograr los resultados correctos para su caso de uso. Sin embargo, las peticiones largas, que se reutilizan en las llamadas a la API, pueden provocar un aumento de la latencia media. Con el almacenamiento en caché de las peticiones, no es necesario volver a calcular el estado del modelo interno si el prefijo de la petición ya está en caché. Esto ahorra tiempo de procesamiento y reduce las latencias de respuesta.
Reduzca los costos asociados con las peticiones largas y repetidas
Con el almacenamiento en caché de peticiones, puede almacenar en caché las partes relevantes de su mensaje para ahorrar en los costos de los tokens de entrada. Su caché es específica de su cuenta y comprende el estado del modelo interno que representa sus peticiones. Como el modelo puede omitir el recálculo de los prefijos almacenados en caché, los recursos de computación necesarios para procesar las solicitudes disminuyen. Como resultado, sus costos se reducen.
Se integra sin problemas con otras características de Amazon Bedrock
El almacenamiento en caché de peticiones se integra con las características de Amazon Bedrock, como los agentes, lo que le permite acelerar las tareas de varios pasos e incluso aprovechar las peticiones más largas del sistema para ayudar a refinar el comportamiento de los agentes sin ralentizar sus respuestas.