Em 2016, o Ipea publicou uma pesquisa denominada “Sobrenomes e Ancestralidade no Brasil” [1], que buscava determinar a ancestralidade dos sobrenomes dos brasileiros.
Na primeira fase do trabalho, foram obtidos 71.404 pares de sobrenomes-ancestralidade a partir de diversas fontes históricas. Em uma segunda fase, usando nomes de 46,8 milhões de brasileiros encontrados na Relação Anual de Informações Sociais (RAIS) Migra de 2013, foram obtidos dois sobrenomes para cada indivíduo, resultando em uma base com 530 mil sobrenomes únicos.
Nesse ponto, ficou claro que muitos sobrenomes únicos não estavam na base criada a partir da fonte histórica. O motivo principal eram erros de digitação. Então, foi aplicado um algoritmo de fuzzy matching que permitiu criar a correspondência entre a maioria (96,4%) desses sobrenomes aos sobrenomes da base. Os sobrenomes restantes, que não tinham correspondência com os da base, foram então tratados com um algoritmo de aprendizado de máquina.
O algoritmo de fuzzy matching escolhido usou o critério “optimal string alignment” (OSA), exigindo uma distância entre duas strings de, no máximo, 1 (um).
[1] MONASTÉRIO, L. Sobrenomes e Ancestralidade no Brasil. Rio de Janeiro: Ipea, 2016. (Texto para Discussão, n. 2229).
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a ideia básica das técnicas de fuzzy matching aplicadas a strings;
• a explicação do que é o critério OSA, mencionando quais mudanças na string são consideradas por esse critério;
• a justificativa de o OSA ser considerado um bom critério nesse contexto;
• a indicação e a explicação de um outro algoritmo, ou critério, alternativo ao OSA que poderia ser utilizado nesse contexto, mencionando a diferença entre o algoritmo alternativo e o OSA;
• a justificativa de a distância máxima de 1 poder, nesse contexto, ser considerada um bom limite, indicando também os impactos da escolha de distâncias maiores.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
A rápida evolução da Tecnologia da Informação (TI) e o crescimento da demanda por recursos computacionais obrigam as empresas a buscarem formas eficientes de implementar, gerir e escalar as suas aplicações e a sua infraestrutura. Nesse contexto, surge o conceito de DevOps (Desenvolvimento e Operações), que, de acordo com a RedHat[1], é “uma abordagem de cultura, automação e design de plataforma que tem como objetivo agregar mais valor aos negócios e aumentar a capacidade de resposta às mudanças por meio de entregas de serviços rápidas e de alta qualidade”.
A conteinerização, em conjunto com o Kubernetes como plataforma de orquestração, surgiu como uma tecnologia transformadora que permite às…
A linguagem Python tornou-se uma das principais ferramentas para análise de dados devido à sua simplicidade, versatilidade e vasto ecossistema de bibliotecas especializadas em manipulação, visualização e modelagem de dados. A seguir, estão mostradas as primeiras linhas do arquivo processos.cvs, que contém informações relacionadas a processos judiciais em tramitação no judiciário de certa unidade da federação.
“id”,”numero”,”data_ajuizamento”,”id_classe”,”id_assunto”,”ano”
638633058,”00000103020166070038″,2016-04-20 15:03:40.000,{12554},{11778},2012
405287812,”06000824620216070030″,2021-07-01 16:33…
Vetores
Em linguagens de programação, os vetores são úteis para situações que se deseja armazenar múltiplos valores do mesmo tipo em uma única variável e acessá-los de forma eficiente usando um índice. Normalmente, os índices em um vetor começam em zero (como Python, C, Java, etc.), mas em algumas linguagens de programação, os índices podem começar em um.
A seguir, é apresentada a declaração de um vetor em Python:
lista = [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Considerando o vetor acima e utilizando a sintaxe da linguagem Python, redija texto acerca da manipulação de vetores em Python. Ao elaborar seu texto, aborde, necessariamente, os seguintes aspectos:
- Implemente, em Python, uma função p…



