Estas orientações ajudam os usuários a preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. Elas incluem automação de infraestrutura como código (IaC), integração e entrega contínuas (CI/CD) para rápida iteração, pipeline de ingestão para armazenar e transformar dados, além de blocos de anotações e painéis para análises interativas. Também demonstramos como os dados de anotações e variantes genômicas são armazenados e consultados com o AWS HealthOmics, Amazon Athena e blocos de anotações do Amazon SageMaker. Essas orientações foram elaboradas em colaboração com a Bioteam.
Diagrama de arquitetura
-
Arquitetura
-
CI/CD
-
Arquitetura
-
Etapa 1
Ingerir, formatar e catalogar dados do The Cancer Genome Atlas (TCGA). Os dados brutos são extraídos do Registry of Open Data on AWS (RODA) por meio da API TCGA. Os dados são transformados em um trabalho de extração, transformação e carregamento (ETL) do AWS Glue e catalogados por um crawler do AWS Glue. Isso torna os dados disponíveis para consulta no Athena.Etapa 2
Os dados do The Cancer Imaging Atlas (TCIA) são ingeridos, formatados e catalogados. Os dados brutos são trazidos do RODA pela API TCIA. Os dados são transformados em um trabalho de ETL do AWS Glue e catalogados por um crawler do AWS Glue. Locais de imagens podem ser consultados e exibidos usando blocos de anotações do SageMaker.
Etapa 3
Dados em VCF do projeto One Thousand Genomes, um VCF de exemplo e um VCF de anotação do ClinVar são ingeridos nos armazenamentos de variantes e de anotações do Amazon Omics, tornando-se públicos como tabelas no Lake Formation.
Etapa 4
Os cientistas pesquisadores analisam os dados multimodais por meio de uma interface visual no QuickSight. Os dados são armazenados em cache em um banco de dados Super-fast, Parallel, In-memory Calculation Engine (SPICE, Mecanismo de cálculo super-rápido, paralelo e na memória), otimizando a performance da consulta.
Etapa 5
Os cientistas de dados os analisam com código usando cadernos Jupyter fornecidos pelos ambientes de blocos de anotações do Amazon SageMaker.
-
CI/CD
-
Etapa 1
Criar um projeto do AWS CodeBuild contendo o script setup.sh. Esse script cria o restante das pilhas, os repositórios de código e o código do AWS CloudFormation.Etapa 2
A pilha da zona de pouso (zona) cria o repositório pipe do AWS CodeCommit. Depois que a configuração da pilha da zona de pouso (zone) for concluída, o script setup.sh enviará o código-fonte para o repositório pipe do CodeCommit.Etapa 3
A pilha do pipeline de implantação (pipe) cria o repositório de códigos do CodeCommit, um evento do Amazon CloudWatch, e o código do pipeline do AWS CodePipeline. Depois que a configuração da pilha de pipeline de implantação (pipe) for concluída, o script setup.sh enviará o código-fonte ao repositório de códigos do CodeCommit.
Etapa 4
O pipeline do CodePipeline (código) implanta as pilhas de base de código (genômicos, de imagens e ômicos) do CloudFormation. Quando as configurações dos pipelines do CodePipeline forem concluídas, os recursos implantados na sua conta incluirão buckets do Amazon Simple Storage Service (Amazon S3) para armazenar logs de acesso a objetos, artefatos de compilações e dados em seu data lake; repositórios do CodeCommit para código-fonte; um projeto do CodeBuild para compilar artefatos de código; um pipeline do CodePipeline para automatizar compilações e a implantação de recursos; trabalhos de exemplo do AWS Glue, crawlers e um catálogo de dados, além de uma instância de caderno Jupyter do Amazon SageMaker.Um armazenamento de referência do Amazon Omics, um armazenamento de variantes e um de anotações são provisionados. Além disso, um arquivo de exemplo de chamada de variante (VCF), um VCF de subconjunto de 1 mil genomas e um VCF de anotação do ClinVar são ingeridos para análise. Com o AWS Lake Formation, um administrador de data lake pode permitir o acesso de dados em armazenamentos de anotações e de variantes ômicas por meio do Amazon Athena e do SageMaker. Um armazenamento de referência do Amazon Omics, um de variantes e um de anotações são provisionados para armazenar dados publicamente disponíveis de variantes e de anotações e disponibilizá-los para consulta e análise.
Etapa 5
A pilha de imagens cria um hiperlink para um início rápido do CloudFormation, que pode ser iniciado para implantar a pilha do Amazon QuickSight. A pilha do QuickSight cria recursos do Identity and Access Management (IAM) e do QuickSight necessários para explorar interativamente o conjunto de dados multiômico.
Pilares do Well-Architected
O AWS Well-Architected Framework ajuda a entender as vantagens e as desvantagens das decisões tomadas durante a criação de sistemas na nuvem. Os seis pilares do Framework permitem que você aprenda as melhores práticas de arquitetura, a fim de projetar e operar sistemas confiáveis, seguros, eficientes, econômicos e sustentáveis. Com a Ferramenta AWS Well-Architected, disponível gratuitamente no Console de Gerenciamento da AWS, você pode avaliar suas workloads em relação às práticas recomendadas ao responder a uma série de questões para cada pilar.
O diagrama de arquitetura acima exemplifica a criação de uma solução pautada nas melhores práticas do Well-Architected. Para ser totalmente Well-Architected, é preciso respeitar a maior quantidade possível das melhores práticas desse framework.
-
Excelência operacional
Estas orientações utilizam o CodeBuild e o CodePipeline para compilar, empacotar e implantar tudo o que é necessário na solução a fim de ingerir e armazenar Variant Call Files (VCFs) e trabalhar com dados multimodais e multiômicos dos conjuntos de dados no The Cancer Genome Atlas (TCGA) e The Cancer Imaging Atlas (TCIA). A análise e ingestão de dados genômicos com tecnologia sem servidor são demonstradas com o uso de um serviço totalmente gerenciado: o Amazon Omics. Alterações de código feitas no repositório do CodeCommit da solução são implantadas por meio do pipeline de implantação do CodePipeline fornecido.
-
Segurança
Estas orientações usam acesso baseado em função com IAM. Todos os buckets têm criptografia habilitada, são privados e bloqueiam o acesso público. O catálogo de dados no AWS Glue tem criptografia habilitada e todos os metadados gravados pelo AWS Glue no Amazon S3 são criptografados. Todas as funções são definidas com privilégio mínimo e todas as comunicações entre os serviços permanecem na conta do cliente. Os administradores podem controlar o caderno Jupyter. O acesso aos dados de armazenamento de variantes do Amazon Omics e ao catálogo de dados do AWS Glue é totalmente gerenciado com o Lake Formation, e o acesso ao Athena, ao bloco de anotações do SageMaker e aos dados do QuickSight é gerenciado por perfis do IAM fornecidos.
-
Confiabilidade
O AWS Glue, o Amazon S3, o Amazon Omics e o Athena têm tecnologia sem servidor e escalarão a performance do acesso a dados à medida que o volume destes aumentar. O AWS Glue provisiona, configura e escala os recursos necessários para executar seus trabalhos de integração dos dados. O Athena usa tecnologia sem servidor, assim você pode consultar rapidamente os dados, sem necessidade de configurar e gerenciar servidores ou data warehouses. O armazenamento QuickSight SPICE na memória dimensionará sua exploração de dados para milhares de usuários.
-
Eficiência de performance
Ao usar tecnologias sem servidor, você provisiona apenas os recursos exatos que usa. Cada trabalho do AWS Glue provisionará um cluster Spark sob demanda para transformar dados e desprovisionará os recursos ao terminar. Se você optar por adicionar novos conjuntos de dados do TCGA, poderá adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue que também preveem recursos sob demanda. O Athena executa automaticamente as consultas em paralelo, disponibilizando a maioria dos resultados em segundos. O Amazon Omics otimiza a performance de consulta de variantes em escala ao transformar arquivos em Apache Parquet.
-
Otimização de custos
Ao usar tecnologias sem servidor que podem ser escaladas sob demanda, você paga apenas pelos recursos que usa. Para otimizar ainda mais os custos, você pode interromper os ambientes de cadernos no SageMaker quando não estão em uso. O painel do QuickSight também é implantado por meio de um modelo do CloudFormation, portanto, se você não pretende usar o painel de visualização, pode optar por não implantá-lo para economizar custos. O Amazon Omics otimiza o custo do armazenamento de dados de variantes em escala. Os custos de consultas são determinados pela quantidade de dados verificados pelo Athena e podem ser otimizados ao se gravar consultas de acordo com essa quantidade.
-
Sustentabilidade
Ao usar amplamente os serviços gerenciados e a escalabilidade dinâmica, você minimiza o impacto ambiental dos serviços de backend. Um componente essencial para a sustentabilidade é maximizar o uso de instâncias de servidor de blocos de anotações. Interrompa os ambientes de blocos de anotações quando não estiverem em uso.
Considerações adicionais
Transformação de dados
Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue para ingerir novos conjuntos de dados do The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.
Análise de dados
Essa arquitetura escolheu os blocos de anotações do Amazon SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos blocos de anotações ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de Jupyter, você pode usar o RStudio no Amazon SageMaker.
Visualização de dados
Essa arquitetura escolheu o QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é feita por meio de um modelo do CloudFormation, portanto, caso não pretenda usar o painel, não precisará provisioná-lo. No QuickSight, você pode criar sua própria análise, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com colegas.
Recursos de implementação
Este repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para realizar análises em grande escala e consultas interativas em um data lake. A solução demonstra como 1) usar os armazenamentos de variantes e de anotações do HealthOmics para armazenar dados de anotações e de variantes genômicas, 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparar e catalogar dados multimodais, 3) visualizar e explorar dados clínicos por meio de uma interface interativa e 4 ) executar consultas analíticas interativas em um data lake multimodal com o Amazon Athena e o Amazon SageMaker.
Com sua conta da AWS, um guia detalhado é fornecido para experimentação e uso. Cada etapa da criação das orientações, incluindo implantação, uso e limpeza, é examinada para prepará-las para a implantação.
O código de exemplo é um ponto de partida. Ele é validado para o setor, é prescritivo, mas não definitivo, e mostra o que há por trás de tudo para ajudar você a começar.
Conteúdo relacionado
Guidance for Multi-Modal Data Analysis with Health AI and ML Services on AWS
Colaboradores
A BioTeam é uma empresa de consultoria de TI em ciências biológicas apaixonada por acelerar a descoberta científica, fechando a lacuna entre o que os cientistas querem fazer com os dados e o que eles podem fazer. Trabalhando na interseção de ciência, dados e tecnologia desde 2002, a BioTeam possui recursos interdisciplinares para aplicar estratégias, tecnologias avançadas e serviços de TI que solucionam os problemas de pesquisa, técnicos e operacionais mais desafiadores. Com a habilidade para transformar necessidades científicas em poderosos ecossistemas de dados científicos, temos orgulho de nossa capacidade de fazer parceria com uma ampla gama de líderes em pesquisa em ciências biológicas, de startups de biotecnologia às maiores empresas farmacêuticas globais, de agências do governo federal a instituições de pesquisa acadêmica.
Aviso de isenção de responsabilidade
O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.
As referências a serviços ou organizações terceirizadas nesta orientação não implicam em endosso, patrocínio ou afiliação entre a Amazon ou a AWS e terceiros. A orientação da AWS é um ponto de partida técnico, e você pode personalizar sua integração com serviços de terceiros ao implantar a arquitetura.