Оценки в Amazon Bedrock

Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.

Обзор

Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе свои приложения RAG, основанные на базах знаний Amazon Bedrock или собственных системах RAG, оценив функции извлечения либо извлечения и генерации данных.

Снимок экрана пользовательского интерфейса

Виды оценки

Используйте метод LLM-as-a-Judge для оценки выходных данных модели с использованием своих пользовательских наборов текстовых запросов с такими метриками, как правильность, полнота и вредоносность.

Оценивайте выходные данные модели с помощью традиционных алгоритмов и метриках на естественном языке, такие как BERT Score, F1 и другие методы точного сопоставления. Используйте встроенные наборы данных с текстовыми запросами или свои собственные данные.

Оценивайте выходные данные модели вместе со своими сотрудниками или поручите AWS управлять оценкой ответов на пользовательские наборы текстовых запросов с помощью встроенных или пользовательских метрик.

Оценивайте качество данных, извлекаемых из пользовательской системы RAG или баз знаний Amazon Bedrock с помощью текстовых запросов и метрик, таких как релевантность и охват контекста.

Оценивайте содержимое, созданное в рамках комплексного рабочего процесса RAG с помощью пользовательского конвейера RAG или баз знаний Amazon Bedrock. Используйте собственные текстовые запросы и метрики, такие как достоверность (обнаружение галлюцинаций), правильность и полнота.

Оцените комплексный рабочий процесс RAG

Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Оцените эффективность базы знаний Bedrock или создайте собственные ответы на вывод из системы RAG. Просто выберите LLM в качестве системы оценки со своими базами знаний Amazon Bedrock или для пользовательских выводов RAG, загрузите собственный набор данных и выберите метрики, наиболее важные для оценки.

Снимок экрана пользовательского интерфейса

Обеспечьте полное и актуальное извлечение данных из своей системы RAG

Используйте оценки извлечения RAG для настроек хранения и извлечения данных в базах знаний Amazon Bedrock или собственной системе RAG. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите LLM в качестве системы оценки, укажите базу знаний Bedrock или включите в свой набор данных запросы системы RAG, а также выберите метрики.

Снимок экрана пользовательского интерфейса

Оцените базовые модели, чтобы выбрать оптимальный вариант

Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа. Вы можете оценивать модели Bedrock или любую другую модель в любом месте, вводя собственные ответы на вывод во входной набор данных.

Снимок экрана пользовательского интерфейса

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Во время оценки используйте функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели, собственные системы RAG, а также базы знаний для Bedrock.

Снимок экрана пользовательского интерфейса