Em 2016, o Ipea publicou uma pesquisa denominada “Sobrenomes e Ancestralidade no Brasil” [1], que buscava determinar a ancestralidade dos sobrenomes dos brasileiros.
Na primeira fase do trabalho, foram obtidos 71.404 pares de sobrenomes-ancestralidade a partir de diversas fontes históricas. Em uma segunda fase, usando nomes de 46,8 milhões de brasileiros encontrados na Relação Anual de Informações Sociais (RAIS) Migra de 2013, foram obtidos dois sobrenomes para cada indivíduo, resultando em uma base com 530 mil sobrenomes únicos.
Nesse ponto, ficou claro que muitos sobrenomes únicos não estavam na base criada a partir da fonte histórica. O motivo principal eram erros de digitação. Então, foi aplicado um algoritmo de fuzzy matching que permitiu criar a correspondência entre a maioria (96,4%) desses sobrenomes aos sobrenomes da base. Os sobrenomes restantes, que não tinham correspondência com os da base, foram então tratados com um algoritmo de aprendizado de máquina.
O algoritmo de fuzzy matching escolhido usou o critério “optimal string alignment” (OSA), exigindo uma distância entre duas strings de, no máximo, 1 (um).
[1] MONASTÉRIO, L. Sobrenomes e Ancestralidade no Brasil. Rio de Janeiro: Ipea, 2016. (Texto para Discussão, n. 2229).
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a ideia básica das técnicas de fuzzy matching aplicadas a strings;
• a explicação do que é o critério OSA, mencionando quais mudanças na string são consideradas por esse critério;
• a justificativa de o OSA ser considerado um bom critério nesse contexto;
• a indicação e a explicação de um outro algoritmo, ou critério, alternativo ao OSA que poderia ser utilizado nesse contexto, mencionando a diferença entre o algoritmo alternativo e o OSA;
• a justificativa de a distância máxima de 1 poder, nesse contexto, ser considerada um bom limite, indicando também os impactos da escolha de distâncias maiores.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
O avanço das tecnologias de computação em nuvem e a ascensão de containers, como o Docker, transformaram significativamente o cenário de streaming de vídeos. Empresas como Netflix, Amazon Prime Video, e Hulu lideram a adoção dessas tecnologias para entregar conteúdo de alta qualidade a milhões de usuários em todo o mundo, de forma eficiente e escalável.
Tendo o texto acima caráter motivador, redija texto dissertativo contínuo sobre
A convergência da computação em nuvem e docker
no streaming de vídeos
abordando, necessariamente, (a) os conceitos de SaaS, IaaS e PaaS; (b) o conceito de docker; e (C) a sinergia desse conceito com comutação em nuvem.
A rápida evolução da Tecnologia da Informação (TI) e o crescimento da demanda por recursos computacionais obrigam as empresas a buscarem formas eficientes de implementar, gerir e escalar as suas aplicações e a sua infraestrutura. Nesse contexto, surge o conceito de DevOps (Desenvolvimento e Operações), que, de acordo com a RedHat[1], é “uma abordagem de cultura, automação e design de plataforma que tem como objetivo agregar mais valor aos negócios e aumentar a capacidade de resposta às mudanças por meio de entregas de serviços rápidas e de alta qualidade”.
A conteinerização, em conjunto com o Kubernetes como plataforma de orquestração, surgiu como uma tecnologia transformadora que permite às…
A linguagem Python tornou-se uma das principais ferramentas para análise de dados devido à sua simplicidade, versatilidade e vasto ecossistema de bibliotecas especializadas em manipulação, visualização e modelagem de dados. A seguir, estão mostradas as primeiras linhas do arquivo processos.cvs, que contém informações relacionadas a processos judiciais em tramitação no judiciário de certa unidade da federação.
“id”,”numero”,”data_ajuizamento”,”id_classe”,”id_assunto”,”ano”
638633058,”00000103020166070038″,2016-04-20 15:03:40.000,{12554},{11778},2012
405287812,”06000824620216070030″,2021-07-01 16:33…



