Оценки в Amazon Bedrock
Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.
Обзор
Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе свои приложения RAG, основанные на базах знаний Amazon Bedrock или собственных системах RAG, оценив функции извлечения либо извлечения и генерации данных.

Виды оценки
Оцените комплексный рабочий процесс RAG
Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Оцените эффективность базы знаний Bedrock или создайте собственные ответы на вывод из системы RAG. Просто выберите LLM в качестве системы оценки со своими базами знаний Amazon Bedrock или для пользовательских выводов RAG, загрузите собственный набор данных и выберите метрики, наиболее важные для оценки.

Обеспечьте полное и актуальное извлечение данных из своей системы RAG
Используйте оценки извлечения RAG для настроек хранения и извлечения данных в базах знаний Amazon Bedrock или собственной системе RAG. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите LLM в качестве системы оценки, укажите базу знаний Bedrock или включите в свой набор данных запросы системы RAG, а также выберите метрики.

Оцените базовые модели, чтобы выбрать оптимальный вариант
Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа. Вы можете оценивать модели Bedrock или любую другую модель в любом месте, вводя собственные ответы на вывод во входной набор данных.

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения
Во время оценки используйте функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели, собственные системы RAG, а также базы знаний для Bedrock.
