Evaluaciones de Amazon Bedrock
Evalúe modelos fundacionales, incluidos los modelos personalizados e importados, para encontrar modelos que se ajusten a sus necesidades. También puede evaluar su flujo de trabajo de RAG integral o de recuperación en las bases de conocimiento de Amazon Bedrock.Información general
Amazon Bedrock proporciona herramientas de evaluación para acelerar la adopción de aplicaciones de IA generativa. Evalúe, compare y seleccione el modelo base para su caso de uso con la evaluación del modelo. Prepare sus aplicaciones RAG creadas en las bases de conocimiento de Amazon Bedrock para la producción mediante la evaluación de las funciones de recuperación o recuperación y generación.
Tipos de evaluación
Evalúe su flujo de trabajo RAG de extremo a extremo en las bases de conocimiento de Amazon Bedrock
Utilice las evaluaciones de recuperación y generación para evaluar la capacidad de recuperación y generación aumentada (RAG) de extremo a extremo de su aplicación. Asegúrese de que el contenido generado sea correcto, completo, limite las alucinaciones y respete los principios de la IA responsable. Simplemente seleccione un modelo de generación de contenido y un LLM para usarlos como juez en sus bases de conocimiento de Amazon Bedrock, cargue su conjunto de datos de solicitudes personalizadas y seleccione las métricas más importantes para su evaluación.
Garantice la recuperación completa y relevante de las bases de conocimiento de Amazon Bedrock
Utilice las evaluaciones de recuperación en las evaluaciones de las bases de conocimiento de Amazon Bedrock para evaluar la configuración de almacenamiento y recuperación de sus bases de conocimiento de Amazon Bedrock. Asegúrese de que el contenido recuperado sea relevante y cubra toda la consulta del usuario. Simplemente seleccione una base de conocimientos y un LLM para utilizarlos como juez, cargue su conjunto de datos de solicitudes personalizado y seleccione las métricas más importantes para su evaluación.
Evalúe los FM para seleccionar el que mejor se adapte a su caso de uso
La evaluación del modelo de Amazon Bedrock permite utilizar evaluaciones automáticas y humanas para seleccionar los FM para un caso de uso específico. La evaluación automática del modelo utiliza conjuntos de datos seleccionados y proporciona métricas predefinidas que incluyen la precisión, la solidez y la toxicidad. En el caso de las métricas subjetivas, puede utilizar Amazon Bedrock para configurar un flujo de trabajo de evaluación humana en unos pocos pasos. Con las evaluaciones humanas, puede traer sus propios conjuntos de datos y definir métricas personalizadas, como la relevancia, el estilo y la alineación con la voz de la marca. Los flujos de trabajo de evaluación humana pueden aprovechar a sus propios empleados como revisores o puede contratar a un equipo administrado por AWS para que lleve a cabo la evaluación humana, donde AWS contrata a evaluadores cualificados y administra todo el flujo de trabajo en su nombre. También puede usar una LLM como juez para proporcionar evaluaciones de alta calidad sobre su conjunto de datos con métricas como la corrección, la integridad y la fidelidad (alucinaciones), así como métricas de IA responsable, como el rechazo a la respuesta y la nocividad.
Compare los resultados de varios trabajos de evaluación para tomar decisiones con mayor rapidez
Utilice la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya realizado en las solicitudes, los modelos que se están evaluando o las bases de conocimiento de su sistema RAG.