Оценки в Amazon Bedrock

Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.

Обзор

Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе свои приложения RAG, основанные на базах знаний Amazon Bedrock или собственных системах RAG, оценив функции извлечения либо извлечения и генерации данных.

Снимок экрана пользовательского интерфейса

Виды оценки

Модели: LLM-as-a-Judge

Используйте метод LLM-as-a-Judge для оценки выходных данных модели с использованием своих пользовательских наборов текстовых запросов с такими метриками, как правильность, полнота и вредоносность.

Модели: программные

Оценивайте выходные данные модели с помощью традиционных алгоритмов и метриках на естественном языке, такие как BERT Score, F1 и другие методы точного сопоставления. Используйте встроенные наборы данных с текстовыми запросами или свои собственные данные.

Модели: с участием человека

Оценивайте выходные данные модели вместе со своими сотрудниками или поручите AWS управлять оценкой ответов на пользовательские наборы текстовых запросов с помощью встроенных или пользовательских метрик.

RAG: извлечение

Оценивайте качество данных, извлекаемых из пользовательской системы RAG или баз знаний Amazon Bedrock с помощью текстовых запросов и метрик, таких как релевантность и охват контекста.

RAG: извлечение и генерация

Оценивайте содержимое, созданное в рамках комплексного рабочего процесса RAG с помощью пользовательского конвейера RAG или баз знаний Amazon Bedrock. Используйте собственные текстовые запросы и метрики, такие как достоверность (обнаружение галлюцинаций), правильность и полнота.

Оцените комплексный рабочий процесс RAG

Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Оцените эффективность базы знаний Bedrock или создайте собственные ответы на вывод из системы RAG. Просто выберите LLM в качестве системы оценки со своими базами знаний Amazon Bedrock или для пользовательских выводов RAG, загрузите собственный набор данных и выберите метрики, наиболее важные для оценки.

Обеспечьте полное и актуальное извлечение данных из своей системы RAG

Используйте оценки извлечения RAG для настроек хранения и извлечения данных в базах знаний Amazon Bedrock или собственной системе RAG. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите LLM в качестве системы оценки, укажите базу знаний Bedrock или включите в свой набор данных запросы системы RAG, а также выберите метрики.

Оцените базовые модели, чтобы выбрать оптимальный вариант

Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа. Вы можете оценивать модели Bedrock или любую другую модель в любом месте, вводя собственные ответы на вывод во входной набор данных.

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Во время оценки используйте функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели, собственные системы RAG, а также базы знаний для Bedrock.

Начало работы

Блог

Базы знаний Amazon Bedrock теперь поддерживают оценку RAG (предварительная версия)

Читать блог

Блог

Оценка модели Amazon Bedrock теперь включает функцию LLM-as-a-judge (предварительная версия)

Читать блог

Блог

Узнайте, как оценивать модели для вашего варианта использования

Читать блог

Оценки в Amazon Bedrock

Обзор

Виды оценки

Модели: LLM-as-a-Judge

Модели: программные

Модели: с участием человека

RAG: извлечение

RAG: извлечение и генерация

Оцените комплексный рабочий процесс RAG

Обеспечьте полное и актуальное извлечение данных из своей системы RAG

Оцените базовые модели, чтобы выбрать оптимальный вариант

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Начало работы

Базы знаний Amazon Bedrock теперь поддерживают оценку RAG (предварительная версия)

Оценка модели Amazon Bedrock теперь включает функцию LLM-as-a-judge (предварительная версия)

Узнайте, как оценивать модели для вашего варианта использования

Прекращение поддержки Internet Explorer