Evaluaciones de Amazon Bedrock

Evalúe modelos fundacionales, incluidos los modelos personalizados e importados, para encontrar modelos que se ajusten a sus necesidades. También puede evaluar su flujo de trabajo de RAG integral o de recuperación en las bases de conocimiento de Amazon Bedrock.

Información general

Amazon Bedrock proporciona herramientas de evaluación para acelerar la adopción de aplicaciones de IA generativa. Evalúe, compare y seleccione el modelo base para su caso de uso con la evaluación del modelo. Prepare sus aplicaciones RAG creadas en las bases de conocimiento de Amazon Bedrock para la producción mediante la evaluación de las funciones de recuperación o recuperación y generación.

Captura de pantalla de la UI

Tipos de evaluación

Utilice un LLM como juez para evaluar los resultados del modelo utilizando sus conjuntos de datos de solicitudes personalizadas con métricas como la exactitud, la integridad y la nocividad.

Evalúe los resultados del modelo utilizando algoritmos y métricas tradicionales del lenguaje natural, como BERT Score, F1 y otras técnicas de coincidencia exacta, mediante conjuntos de datos de mensajes integrados o traiga los suyos propios.

Evalúe los resultados del modelo con su propio personal o haga que AWS gestione las evaluaciones de las respuestas a sus conjuntos de datos de solicitudes personalizadas con métricas integradas o personalizadas.

Evalúe la calidad de recuperación de sus bases de conocimiento de Amazon Bedrock con sus solicitudes y métricas personalizadas, como la relevancia y la cobertura del contexto.

Evalúe el contenido generado de su flujo de trabajo RAG de extremo a extremo con las bases de conocimiento de Amazon Bedrock a partir de sus solicitudes y métricas personalizadas, como la fidelidad, la corrección y la integridad.

Evalúe su flujo de trabajo RAG de extremo a extremo en las bases de conocimiento de Amazon Bedrock

Utilice las evaluaciones de recuperación y generación para evaluar la capacidad de recuperación y generación aumentada (RAG) de extremo a extremo de su aplicación. Asegúrese de que el contenido generado sea correcto, completo, limite las alucinaciones y respete los principios de la IA responsable. Simplemente seleccione un modelo de generación de contenido y un LLM para usarlos como juez en sus bases de conocimiento de Amazon Bedrock, cargue su conjunto de datos de solicitudes personalizadas y seleccione las métricas más importantes para su evaluación.

Captura de pantalla de la UI

Garantice la recuperación completa y relevante de las bases de conocimiento de Amazon Bedrock

Utilice las evaluaciones de recuperación en las evaluaciones de las bases de conocimiento de Amazon Bedrock para evaluar la configuración de almacenamiento y recuperación de sus bases de conocimiento de Amazon Bedrock. Asegúrese de que el contenido recuperado sea relevante y cubra toda la consulta del usuario. Simplemente seleccione una base de conocimientos y un LLM para utilizarlos como juez, cargue su conjunto de datos de solicitudes personalizado y seleccione las métricas más importantes para su evaluación.

Captura de pantalla de la UI

Evalúe los FM para seleccionar el que mejor se adapte a su caso de uso

La evaluación del modelo de Amazon Bedrock permite utilizar evaluaciones automáticas y humanas para seleccionar los FM para un caso de uso específico. La evaluación automática del modelo utiliza conjuntos de datos seleccionados y proporciona métricas predefinidas que incluyen la precisión, la solidez y la toxicidad. En el caso de las métricas subjetivas, puede utilizar Amazon Bedrock para configurar un flujo de trabajo de evaluación humana en unos pocos pasos. Con las evaluaciones humanas, puede traer sus propios conjuntos de datos y definir métricas personalizadas, como la relevancia, el estilo y la alineación con la voz de la marca. Los flujos de trabajo de evaluación humana pueden aprovechar a sus propios empleados como revisores o puede contratar a un equipo administrado por AWS para que lleve a cabo la evaluación humana, donde AWS contrata a evaluadores cualificados y administra todo el flujo de trabajo en su nombre. También puede usar una LLM como juez para proporcionar evaluaciones de alta calidad sobre su conjunto de datos con métricas como la corrección, la integridad y la fidelidad (alucinaciones), así como métricas de IA responsable, como el rechazo a la respuesta y la nocividad.

Captura de pantalla de la UI

Compare los resultados de varios trabajos de evaluación para tomar decisiones con mayor rapidez

Utilice la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya realizado en las solicitudes, los modelos que se están evaluando o las bases de conocimiento de su sistema RAG.

Captura de pantalla de la UI