Em 2016, o Ipea publicou uma pesquisa denominada “Sobrenomes e Ancestralidade no Brasil” [1], que buscava determinar a ancestralidade dos sobrenomes dos brasileiros.
Na primeira fase do trabalho, foram obtidos 71.404 pares de sobrenomes-ancestralidade a partir de diversas fontes históricas. Em uma segunda fase, usando nomes de 46,8 milhões de brasileiros encontrados na Relação Anual de Informações Sociais (RAIS) Migra de 2013, foram obtidos dois sobrenomes para cada indivíduo, resultando em uma base com 530 mil sobrenomes únicos.
Nesse ponto, ficou claro que muitos sobrenomes únicos não estavam na base criada a partir da fonte histórica. O motivo principal eram erros de digitação. Então, foi aplicado um algoritmo de fuzzy matching que permitiu criar a correspondência entre a maioria (96,4%) desses sobrenomes aos sobrenomes da base. Os sobrenomes restantes, que não tinham correspondência com os da base, foram então tratados com um algoritmo de aprendizado de máquina.
O algoritmo de fuzzy matching escolhido usou o critério “optimal string alignment” (OSA), exigindo uma distância entre duas strings de, no máximo, 1 (um).
[1] MONASTÉRIO, L. Sobrenomes e Ancestralidade no Brasil. Rio de Janeiro: Ipea, 2016. (Texto para Discussão, n. 2229).
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a ideia básica das técnicas de fuzzy matching aplicadas a strings;
• a explicação do que é o critério OSA, mencionando quais mudanças na string são consideradas por esse critério;
• a justificativa de o OSA ser considerado um bom critério nesse contexto;
• a indicação e a explicação de um outro algoritmo, ou critério, alternativo ao OSA que poderia ser utilizado nesse contexto, mencionando a diferença entre o algoritmo alternativo e o OSA;
• a justificativa de a distância máxima de 1 poder, nesse contexto, ser considerada um bom limite, indicando também os impactos da escolha de distâncias maiores.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
Plano de Dados Abertos do Banco Central do Brasil
Maio/2023 – Abril/2025
A Política de Dados Abertos do Poder Executivo Federal foi instituída pelo Decreto nº 8.777, de 11 de maio de 2016, e tem por objetivo a disponibilização na internet – por parte de órgãos e entidades da administração pública federal direta, autárquica e fundacional – de dados e informações acessíveis ao público que possam ser livremente lidos por máquina, usados, cruzados e reutilizados, fomentando-se o controle social, o desenvolvimento tecnológico, o aprimoramento da cultura de transparência pública e a inovação nos diversos setores da sociedade. Atendendo ao disposto no referido Decreto, o Ouvidor, na qualidade de au…
A rápida evolução da Tecnologia da Informação (TI) e o crescimento da demanda por recursos computacionais obrigam as empresas a buscarem formas eficientes de implementar, gerir e escalar as suas aplicações e a sua infraestrutura. Nesse contexto, surge o conceito de DevOps (Desenvolvimento e Operações), que, de acordo com a RedHat[1], é “uma abordagem de cultura, automação e design de plataforma que tem como objetivo agregar mais valor aos negócios e aumentar a capacidade de resposta às mudanças por meio de entregas de serviços rápidas e de alta qualidade”.
A conteinerização, em conjunto com o Kubernetes como plataforma de orquestração, surgiu como uma tecnologia transformadora que permite às…
A necessidade de grandes quantidades de memória e o alto custo da memória principal têm levado ao modelo de sistemas de armazenamento em dois níveis. O compromisso entre velocidade e custo é encontrado por meio do uso de uma pequena quantidade de memória principal (inicialmente até 640 kbytes em microcomputadores do tipo IBM-PC usando sistema operacional DOS) e de uma memória secundária muito maior (vários milhões de bytes).
Como apenas a informação que está na memória principal pode ser acessada diretamente, a organização do fluxo de informação entre as memórias primária e secundária é extremamente importante. A organização desse fluxo pode ser realizada utilizando-se um mecanismo simples e…



