Valutazioni di Amazon Bedrock
Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare i modelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o completo nelle Knowledge Base di Amazon Bedrock.Panoramica
Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di base per il tuo caso d'uso con la valutazione del modello. Prepara le tue applicazioni RAG basate sulle basi di conoscenza Amazon Bedrock per la produzione valutando le funzioni di recupero o recupero e generazione.
![Schermata dell'interfaccia utente](https://d1.awsstatic.com/rusmadei/bedrock-evaluations/Bedrock-Evaluations_Overview_Screenshot.dfdfdf51726b116f30a5a6613d74708a14afc133.png)
Tipi di valutazione
Valuta il tuo flusso di lavoro RAG end-to-end nelle basi di conoscenza di Amazon Bedrock
Usa il recupero e genera di valutazioni per valutare la capacità di generazione aumentata di recupero (RAG) end-to-end della tua applicazione. Assicurati che il contenuto generato sia corretto, completo, limiti le allucinazioni e aderisca ai principi dell'IA responsabile. Seleziona semplicemente un modello di generazione di contenuti e un LLM da utilizzare come giudice con le tue basi di conoscenza Amazon Bedrock, carica il tuo set di dati di prompt personalizzato e seleziona le metriche più importanti per la valutazione.
![Schermata dell'interfaccia utente](https://d1.awsstatic.com/rusmadei/bedrock-evaluations/Bedrock-Evaluations_RAG-Workflow_Screenshot.ce3357835ab8d984298bc3f16c9e8d77804cac3a.png)
Garantisci un recupero completo e pertinente dalle basi di conoscenza di Amazon Bedrock
Usa le valutazioni di recupero nelle valutazioni delle basi di conoscenza di Amazon Bedrock per valutare le impostazioni di archiviazione e recupero delle tue basi di conoscenza di Amazon Bedrock. Assicurati che il contenuto recuperato sia pertinente e copra l'intera query dell'utente. Basta selezionare una Knowledge Base e un LLM da utilizzare come giudice, caricare il set di dati di prompt personalizzato e selezionare le metriche più importanti per la valutazione.
![Schermata dell'interfaccia utente](https://d1.awsstatic.com/rusmadei/bedrock-evaluations/Bedrock-Evaluations_Knowledge-Bases_Screenshot.c3452bf6235001a3894f66da067bad284dd9da61.png)
Valuta gli FM per selezionare il modello migliore per il tuo caso d'uso
La valutazione di modelli di Amazon Bedrock consente di utilizzare valutazioni automatiche e umane per selezionare modelli di fondazione (FM) per un caso d'uso specifico. La valutazione automatica (programmatica) dei modelli utilizza set di dati selezionati e personalizzati e fornisce parametri predefiniti, tra cui accuratezza, solidità e rilevamento di contenuti inappropriati. Per adottare parametri soggettivi, è possibile utilizzare Amazon Bedrock per configurare un flusso di lavoro di valutazione umana in pochi passaggi. Con la valutazione umana, è possibile utilizzare il proprio set di dati e definire parametri personalizzati, come pertinenza, stile e conformità alla voce del marchio. Per l'esecuzione di flussi di lavoro di valutazione umana, puoi impiegare i tuoi dipendenti come revisori o affidarti a un team gestito da AWS. In questo caso, AWS assume valutatori esperti e gestisce il flusso di lavoro completo per tuo conto. Puoi anche utilizzare un LLM-as-a-Judge per fornire valutazioni di alta qualità sul tuo set di dati con metriche quali correttezza, completezza, fedeltà (allucinazione) e metriche di IA responsabile come il rifiuto della risposta e la dannosità.
![Schermata dell'interfaccia utente](https://d1.awsstatic.com/rusmadei/bedrock-evaluations/Bedrock-Evaluations_Accuracy_Screenshot.eb32d02e3227e250ba24d6bc19f651b5b243c905.png)
Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente
Usa la funzione di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt, ai modelli da valutare o alle Knowledge Base nel tuo sistema RAG.
![Schermata dell'interfaccia utente](https://d1.awsstatic.com/rusmadei/bedrock-evaluations/Bedrock-Evaluations_Compare-Results_Screenshot.d42cee1c7cfe4a831a9852bb79c1a63709914b71.png)