IA ajuda a Duolingo a personalizar o aprendizado de idiomas

Utilização da IA para ensinar 300 milhões de pessoas

Aprender um idioma estrangeiro provavelmente foi uma de suas metas no ano passado. Também em vários anos anteriores. Como as matrículas em academias, muitas vezes nossas melhores intenções não sobrevivem por muito tempo. Além do tempo necessário para alcançar a proficiência em um novo idioma, a maioria das pessoas tem dificuldades com as abordagens tradicionais de aprendizado. Até mesmo muitas ferramentas de idioma baseadas na Web podem ser monótonas e complicadas.

A startup Duolingo, com sede em Pittsburgh, está mudando tudo isso com sua plataforma de aprendizado de idiomas baseada em IA. A empresa alcança mais de 300 milhões de usuários com mais de 32 cursos de idiomas, de francês e tâmil a idiomas ameaçados de extinção, como havaiano e navajo.

O que diferencia a Duolingo é sua abordagem de aprendizado personalizada, que transforma a experiência de aprendizado em um jogo por meio de um sistema de recompensa baseado em pontos para manter os usuários engajados e progredindo em direção à proficiência. O Departamento de Estado dos EUA estima que são necessárias 600 horas para aprender um idioma de categoria um, como francês ou italiano. A Duolingo espera que você possa fazer isso em apenas 15 minutos por dia.

Os usuários começam com o teste de nivelamento adaptável baseado em IA da Duolingo, que aplica exercícios reais como ocorreria no curso. Portanto, se você estudou francês no ensino médio por quatro anos, não precisa começar do início do curso mais básico. Cada pergunta ou desafio do teste é escolhido de forma adaptativa com base na pergunta anterior e se você acertou ou errou.

“A dificuldade das palavras, a gramática e a forma como as apresentamos no teste contribuem na escolha a configuração exata para que, em menos de cinco minutos, tenhamos uma boa noção de onde você vai começar o curso”, explica Burr Settles, diretor de pesquisa da Duolingo.

Usando um conceito chamado repetição espaçada, as aulas de idiomas são projetadas para que os usuários pratiquem tarefas personalizadas em intervalos cada vez maiores, o que provou ser mais eficaz do que estudar em um curto período de tempo.

À medida que o usuário se torna mais proficiente, ele interage com o conteúdo de maneiras diferentes. Por exemplo, para cada palavra no currículo, a Duolingo monitora quantas vezes você a viu, quantas vezes a acertou, os modos em que a acertou e quanto tempo passou desde que você a praticou.

“Usando a IA, podemos prever a qualquer momento a probabilidade de você conseguir se lembrar dessa palavra em determinado contexto”, explica Burr. “Podemos injetar o que você precisa para continuar praticando, exatamente quando precisar”.

“Podemos injetar o que você precisa para continuar praticando, exatamente quando precisar.”

Burr Settles
Diretor de pesquisa
Duolingo

“Podemos injetar o que você precisa para continuar praticando, exatamente quando precisar.”

Burr Settles
Diretor de pesquisa
Duolingo

O aprendizado por trás da língua

Para habilitar essa IA, a Duolingo usa aprendizado profundo, um subconjunto de IA e machine learning que usa redes neurais a fim de imitar o comportamento do cérebro para analisar dados rapidamente e fazer previsões inteligentes. Usando algoritmos de aprendizado profundo para processamento de linguagem natural, a empresa pode analisar dados de log do usuário a fim de prever a probabilidade de os usuários obterem uma resposta correta. Essas previsões são a base para personalizar o teste de aprendizado adaptativo e o conteúdo da aplicação de aprendizado.

Mas isso não começou assim. A empresa surgiu em 2009 com um projeto de tradução na Carnegie Mellon University (CMU) chamado Monolingo. O objetivo era ensinar aos usuários um idioma estrangeiro fazendo com que eles traduzissem documentos como artigos da Wikipédia ou sites de notícias. Na época, o Monolingo (e até mesmo o Duolingo antigo) usavam os algoritmos de ciência cognitiva mais tradicionais. Por exemplo, os algoritmos de linha de base usavam parâmetros escolhidos manualmente, o que significa que eles não estavam necessariamente aprendendo com dados reais. Quando os pesquisadores da Duolingo fizerem testes A/B em várias abordagens com os usuários, ficou claro que, para o nível de personalização que eles almejavam, eram necessários modelos de machine learning mais sofisticados e personalizados.

“Esses são problemas muito específicos, então tivemos que inventar tudo do zero”, diz Burr. “Faz parte desses casos de uso tentar uma abordagem cognitiva rudimentar primeiro para começar a coletar dados e, depois de ter esses dados, começar a refiná-los com aprendizado profundo”.

Para desenvolver esses algoritmos personalizados (desde reconhecimento de fala não nativo até classificação para pontuação automatizada), a Duolingo usa a estrutura de aprendizado profundo PyTorch na Amazon Web Services (AWS). Esses modelos de aprendizado profundo são treinados e, em seguida, implantados na produção usando instâncias de GPU de alta performance do Amazon EC2 P3. Velocidade e escalabilidade são essenciais para o treinamento, pois os modelos podem usar de 100 mil a 30 milhões de pontos de dados por vez, dependendo do problema, para fazer mais de 300 milhões de previsões todos os dias.

“Usaremos uma janela deslizante porque apenas duas semanas de dados são suficientes, considerando o número de usuários, o número de testes e o número de idiomas, para treinar nossos modelos”, diz Burr. Com a finalidade de gerenciar pipelines de dados para machine learning, a empresa usa o Amazon DynamoDB para gerenciamento de dados, o Amazon EMR com o Amazon EBS como armazenamento temporário, o Amazon S3 para armazenamento permanente e o Spark para realizar cálculos para previsões periódicas em lote.

Além disso, para dar vida a suas aplicações, a Duolingo usa o Amazon Polly, uma ferramenta de conversão de texto em fala baseada em aprendizado profundo que se integra facilmente às aplicações da plataforma, a fim de dar voz ao teste e a vários cursos.

Ao usar essas ferramentas de aprendizado profundo, a empresa viu uma melhoria na precisão da previsão e no engajamento do usuário. O número de usuários que usaram o Duolingo e voltaram no segundo dia melhorou imediatamente em 12%.

Burr e a equipe da Duolingo continuam testando novas possibilidades com o aprendizado profundo, explorando modelos para segurança de testes, detecção de fraudes, biometria e compreensão do contexto. Por exemplo, você pode errar em uma pergunta, mas o motivo pelo qual errou pode não ficar tão claro. Você errou porque esqueceu a palavra? Ou talvez você a tenha conjugado incorretamente.

“O sinal de que recebemos de volta nem sempre esclarece qual foi a causa”, diz Burr. “Há muita coisa para a IA fazer ainda”.

À medida que a Duolingo aprimora suas ofertas de idiomas usando aprendizado profundo, talvez você consiga cumprir pelo menos uma das promessas de Ano Novo.

Kia usa ML para reduzir fatalidades em acidentes automobilísticos

Saiba mais »

TuSimple usa a ML para treinar semis com piloto automático

Saiba mais »

GE Healthcare impulsiona melhores resultados de saúde com ML

Saiba mais »

Zocdoc usa IA para aumentar a confiança do paciente

Saiba mais »