Um cientista de dados recebeu uma grande massa de dados, retirada de uma pesquisa periódica sobre o mercado de trabalho brasileiro, que continha colunas que descreviam atributos de indivíduos e ainda uma única coluna que continha uma classificação quanto a estar em situação de desemprego involuntário ou não.
Sua missão era desenvolver, por meio de aprendizado de máquina, um modelo capaz de classificar automaticamente os indivíduos como estando na situação de desemprego involuntário ou não, em função das mesmas características.
Sua escolha inicial, em relação aos dados e ao algoritmo, foi usar todos os dados disponíveis para treinar um modelo usando um algoritmo de árvore de decisão (ID3). Como estratégia de adoção do modelo após obtê-lo, ele decidiu usar todos os nós gerados pela árvore.
Ao fazer o treinamento com todos os dados, conseguiu uma acurácia de 99,9%. Porém, ao colocar o modelo em produção, sua acurácia baixou para 65%, quando comparada com a situação real dos indivíduos.
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a explicação da diferença de desempenho entre o treinamento e a produção e a denominação dessa diferença;
• uma estratégia, com sua respectiva explicação, que o cientista de dados deveria adotar em relação ao uso adequado dos dados disponíveis, de modo a obter melhor previsão do comportamento do modelo quando em produção;
• a explicação do que é acurácia e a sugestão de duas outras medidas, acompanhadas de suas respectivas explicações, que o cientista de dados poderia ter usado para avaliar o modelo em função dos seguintes termos: Verdadeiro Positivo, Verdadeiro Negativo, Falso Positivo e Falso Negativo;
• a denominação e a explicação do modo de funcionamento de uma estratégia que o cientista de dados poderia ter adotado em relação à criação ou ao uso do modelo gerado, obtido a partir do treinamento de árvores de decisão com algoritmo ID3, para tratar o problema de diferença de acurácia detectado.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
O quadro a seguir apresenta as principais colunas das tabelas Turmas e PreInscricoes, bem como o domínio de dados dessas colunas.
| Tabela | Coluna | Domínio de Dados | Participa em chave primária ou estrangeira? |
| Turmas | IDTurma | Inteir… |
Em 2018, o Banco Central do Brasil (BCB), órgão regulador e supervisor do sistema financeiro nacional, iniciou uma série de mudanças regulatórias que permitiram a abertura do mercado para as fintechs. Destacam-se duas recentes e impactantes mudanças no setor, que incluíam o PIX, um novo meio de pagamento no mercado financeiro nacional, que permite transferências bancárias instantâneas a qualquer hora do dia, inclusive aos finais de semana. A entrada desse sistema de pagamentos reduziu significativamente os custos de transferências bancárias quando comparado com o Transferência Eletrônica Disponível (TED) e Documento de Ordem de Crédito (DOC), fontes relevantes de receitas para as instituiçõe…
Normalização
A tabela Filmes armazenas os usuários de uma plataforma de streaming de filmes escolhendo seus filmes favoritos.
| UsrID | UsrNome | FilmeID | FilmeNome | GenID | GenNome | DTFavorito |
| 1 | Sander | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 2 | Pedro | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 1 | Sander | 325 | O Protetor | 6 | Policial | 28/09/2023 |
| 2 | Vithor | 457 | Mine | 8 | Drama | 27/09/2023 |
| 2 | Vithor | 658 | Lucy | 9 | Suspense | 30/09/2023 |
Sabe-se que:
- As colunas UsrID e FilmeID compõe a chave primária da tabela.
- Cada usuário possui um identificador único UsrID e um nome UsrNome.
- Cada filme possui um identificador único FilmeID e um nome FilmeNome.
- Cada gênero possui um identificador único GenID e um nome GenNome.
O dia em que o usuá…



