Amazon SageMaker Feature Store
Um serviço totalmente gerenciado para recursos de machine learning
Armazene, compartilhe e gerencie recursos de modelos de ML para treinamento e inferência a fim de promover a reutilização de recursos em aplicações de ML
Faça a ingestão de recursos de qualquer fonte de dados, incluindo streaming e lote, como logs de aplicações, logs de serviços, clickstreams, sensores e dados tabulares da AWS ou de fontes de dados de terceiros
Transforme dados em recursos de ML e crie pipelines de recursos que ofereçam suporte às práticas de MLOps e acelerar o tempo para a implantação do modelo
O Amazon SageMaker Feature Store é um repositório totalmente gerenciado e desenvolvido para armazenar, compartilhar e gerenciar recursos para modelos de machine learning (ML). Os recursos são insumos para os modelos de ML utilizados durante o treinamento e inferência. Por exemplo, em uma aplicação que recomenda uma playlist musical, os recursos poderiam incluir classificações de músicas, duração da audição e demografia do ouvinte. Os recursos são usados repetidamente por várias equipes e a qualidade deles é essencial para garantir um modelo altamente preciso. Além disso, quando os recursos usados para treinar modelos offline em lote são disponibilizados para inferência em tempo real, é difícil manter os dois armazenamentos de recursos sincronizados. O SageMaker Feature Store fornece um armazenamento seguro e unificado para processar, padronizar e usar recursos em grande escala em todo o ciclo de vida do ML.
Como funciona
Principais recursos
Processamento e ingestão de recursos
Você pode ingerir dados no SageMaker Feature Store de uma variedade de fontes, como logs de aplicações e serviços, clickstream, sensores e dados tabulares do fontes como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Usando o processamento de recursos, você pode especificar sua fonte de dados em lote e a função de transformação de recursos (por exemplo, contagem de visualizações de produtos ou agregações de janela de tempo) e o SageMaker Feature Store transforma os dados no momento da ingestão em recursos de ML. Com o Amazon SageMaker Data Wrangler, é possível publicar recursos diretamente no SageMaker Feature Store. Com o conector do Apache Spark, é possível ingerir em lote um alto volume de dados com uma única linha de código.
Recurso de armazenamento, catálogo, pesquisa e reutilização
O SageMaker Feature Store marca e indexa grupos de recursos para que sejam facilmente detectáveis por meio da interface visual do Amazon SageMaker Studio. A navegação no catálogo de recursos permite às equipes descobrir recursos existentes que podem reutilizar com confiança e evitar a duplicação de pipelines. O SageMaker Feature Store usa o Catálogo de dados do AWS Glue por padrão, mas permite usar um catálogo diferente se desejar. Também é possível consultar recursos usando o conhecido SQL com o Amazon Athena ou outra ferramenta de consulta de sua escolha.
Consistência dos recursos
O SageMaker Feature Store é compatível com armazenamento offline para treinamento e armazenamento online para inferência em tempo real. Treinamento e inferência são casos de uso muito diferentes e os requisitos de armazenamento são diferentes para cada um. Durante o treinamento, muitas vezes os modelos usam o conjunto de dados completo e podem levar horas para concluir, enquanto a inferência precisa acontecer em milissegundos e geralmente usa um subconjunto dos dados. Quando usados juntos, o SageMaker Feature Store garante que os conjuntos de dados offline e online permaneçam em sincronia, o que é essencial porque, se eles divergirem, poderão ter um impacto negativo na precisão do modelo.
Rastreamento de linhagem
Para permitir a reutilização dos recursos com confiança, os cientistas de dados precisam saber como os recursos foram construídos e quais modelos e pontos finais estão usando-os. O SageMaker Feature Store permite que cientistas de dados rastreiem seus recursos no Amazon SageMaker Studio com o SageMaker Lineage. O SageMaker Lineage permite que você acompanhe as execuções programadas do pipeline, visualize a linhagem upstream para rastrear os recursos até as fontes de dados e visualize o código de processamento de recursos, tudo em um único ambiente.
Viagem no tempo
Os cientistas de dados podem precisar treinar modelos com o conjunto exato de valores de recursos de um tempo específico no passado sem o risco de incluir dados além desse tempo (também denominado vazamento de dados), tais como dados médicos do paciente antes de um diagnóstico. O SageMaker Feature Store Offline API é compatível com consultas de ponto no tempo para recuperar o estado de cada recurso no momento histórico de interesse.
Operações de ML
As lojas de recursos são um componente importante no ciclo de vida das MLOps. Elas gerenciam conjuntos de dados e apresentam pipelines, acelerando as tarefas de ciência de dados e eliminando o trabalho duplicado de criar os mesmos recursos várias vezes. O SageMaker Feature Store pode ser usado como um serviço autônomo ou em conjunto com outros serviços do SageMaker de forma integrada durante todo o ciclo de vida das MLOps.
Segurança e conformidade
Para oferecer suporte às necessidades de segurança e conformidade, pode ser necessário um controle granular sobre como os recursos de ML compartilhados são acessados. Essas necessidades muitas vezes vão além do controle de acesso em nível de tabela e coluna para o controle de acesso individual em nível de linha. Por exemplo, para deixar os representantes de contas verem filas de uma tabela de vendas referentes apenas às contas deles e mascarar o prefixo de dados confidenciais, como números de cartão de crédito. O SageMaker Feature Store, junto com o AWS Lake Formation, pode ser usado para implementar controles de acesso detalhados para proteger dados da loja de recursos e conceder acesso baseado na função.
Clientes
“Na Climate, acreditamos em fornecer aos agricultores do mundo informações precisas para tomar decisões orientadas por dados e maximizar seu retorno em cada hectare. Para conseguir isso, investimos em tecnologias como ferramentas de machine learning para construir modelos usando entidades mensuráveis conhecidas como recursos, como a produtividade do campo de um produtor. Com o Amazon SageMaker Feature Store, podemos acelerar o desenvolvimento de modelos de ML com uma loja de recursos central para acessar e reutilizar recursos em várias equipes com facilidade. O SageMaker Feature Store facilita o acesso a recursos em tempo real usando a loja online ou a execução de recursos em uma programação usando a loja offline para diferentes casos de uso. Com o SageMaker Feature Store, podemos desenvolver modelos de ML mais rapidamente.”
Daniel McCaffrey, vice-presidente de dados e análises, Climate
“Escolhemos construir a nova plataforma de machine learning da Intuit na AWS em 2017, combinando os poderosos recursos do Amazon SageMaker para desenvolvimento de modelos, treinamento e hospedagem com os próprios recursos da Intuit em orquestração e engenharia de recursos. Como resultado, reduzimos drasticamente nosso ciclo de vida de desenvolvimento de modelos. Agora, o que costumava levar seis meses completos leva menos de uma semana, o que nos permite enviar os recursos de IA para nossos produtos TurboTax, QuickBooks e Mint a uma taxa muito acelerada. Trabalhamos em estreita colaboração com a AWS antes do lançamento do Amazon SageMaker Feature Store e estamos entusiasmados com a perspectiva de um repositório de recursos totalmente gerenciado para que não precisemos mais manter vários repositórios de recursos em nossa organização. Nossos cientistas de dados poderão usar os recursos existentes de uma loja central e impulsionar a padronização e a reutilização de recursos entre equipes e modelos.”
Mammad Zadeh, vice-presidente de engenharia da Intuit, plataforma de dados
“Na Experian, acreditamos que é nossa responsabilidade capacitar os consumidores a entender e usar o crédito em suas vidas financeiras e auxiliar os credores no gerenciamento do risco de crédito. À medida que continuamos a implementar práticas recomendadas para construir nossos modelos financeiros, buscamos soluções que acelerem a produção de produtos que aproveitem o machine learning. O Amazon SageMaker Feature Store nos oferece uma maneira segura de armazenar e reutilizar recursos para nossas aplicações de ML. A capacidade de manter a consistência das aplicações em tempo real e em lote em várias contas é um requisito fundamental para nossos negócios. O uso dos novos recursos do Amazon SageMaker Feature Store nos permite capacitar nossos clientes a assumir o controle de seu crédito e reduzir custos na nova economia.”
Geoff Dzhafarov, arquiteto-chefe de empresas, Experian Consumer Services
“Na DeNA, nossa missão é causar impacto e prazer usando a Internet e IA/ML. Fornecer serviços baseados em valor é nosso objetivo principal e queremos garantir que nossos negócios e serviços estejam prontos para atingir esse objetivo. Gostaríamos de descobrir e reutilizar recursos em toda a organização e o Amazon SageMaker Feature Store nos ajuda com uma maneira fácil e eficiente de reutilizar recursos para diferentes aplicações. O Amazon SageMaker Feature Store também nos ajuda a manter as definições de recursos padrão e nos ajuda com uma metodologia consistente à medida que treinamos modelos e os implantamos na produção. Com esses novos recursos do Amazon SageMaker, podemos treinar e implantar modelos de ML mais rapidamente, mantendo-nos no caminho para encantar nossos clientes com os melhores serviços.”
Kenshin Yamada, gerente geral da Unidade de sistemas do Departamento de Sistemas de IA, DeNA
“Um setor forte de cuidados, no qual a oferta satisfaça a demanda, é crucial para o crescimento econômico desde cada família até o PIB de uma nação. Estamos empolgados com o Amazon SageMaker Feature Store, pois acreditamos que ele nos ajudará a escalar melhor em nossas equipes de ciência de dados e desenvolvimento usando um conjunto consistente de dados selecionados. Com as capacidades recém-anunciadas do Amazon SageMaker, podemos acelerar o desenvolvimento e a implantação de nossos modelos de ML para diferentes aplicações, ajudando nossos clientes a tomar decisões mais bem informadas por meio de recomendações mais rápidas em tempo real.”
Clemens Tummeltshammer, gerente de ciência de dados, Care.com
“Usando ML, a 3M está aprimorando produtos testados e aprovados, como lixas, e promovendo inovação em vários outros espaços, inclusive na área de saúde. Conforme planejamos levar o machine learning para mais áreas da 3M, vemos um crescimento rápido na quantidade de dados e modelos, que dobra a cada ano. Estamos entusiasmados com os novos recursos do SageMaker, pois eles nos ajudarão nessa ampliação. O Amazon SageMaker Data Wrangler torna muito mais fácil preparar dados para treinamento de modelos, e o Amazon SageMaker Feature Store eliminará a necessidade de criar e recriar as mesmas características de modelos várias vezes. Por fim, o Amazon SageMaker Pipelines nos ajudará a automatizar a preparação de dados, a criação de modelos e a implantação de modelos em um fluxo de trabalho completo, permitindo acelerar o tempo de colocação no mercado para nossos modelos. Nossos pesquisadores estão ansiosos para aproveitar a nova velocidade da ciência na 3M.”
David Frazee, diretor técnico - 3M Corporate Systems Research Lab
Recursos
Crie conjuntos de dados de treinamento de ML precisos usando consultas de ponto no tempo
Automate feature engineering pipelines (Automatizar pipelines de engenharia de recursos)
Enable feature reuse across accounts and teams (Permitir a reutilização de recursos entre contas e equipes)
Understanding the key capabilities of SageMaker Feature Store (Noções básicas sobre os principais recursos do SageMaker Feature Store)
Streaming ingestion in SageMaker Feature Store (Ingestão de streaming no SageMaker Feature Store)
Store, discover, and share ML features (Armazenar, detectar e compartilhar os recursos de ML)
Streaming ingestion in SageMaker Feature Store (Ingestão de streaming no SageMaker Feature Store)
Store, discover, and share ML features (Armazenar, detectar e compartilhar os recursos de ML)
Amazon SageMaker Feature Store Deep Dive (Demonstração detalhada do Amazon SageMaker Feature Store) (21:54)
Novidades
- Data (do mais recente ao mais antigo)