Um cientista de dados recebeu uma grande massa de dados, retirada de uma pesquisa periódica sobre o mercado de trabalho brasileiro, que continha colunas que descreviam atributos de indivíduos e ainda uma única coluna que continha uma classificação quanto a estar em situação de desemprego involuntário ou não.
Sua missão era desenvolver, por meio de aprendizado de máquina, um modelo capaz de classificar automaticamente os indivíduos como estando na situação de desemprego involuntário ou não, em função das mesmas características.
Sua escolha inicial, em relação aos dados e ao algoritmo, foi usar todos os dados disponíveis para treinar um modelo usando um algoritmo de árvore de decisão (ID3). Como estratégia de adoção do modelo após obtê-lo, ele decidiu usar todos os nós gerados pela árvore.
Ao fazer o treinamento com todos os dados, conseguiu uma acurácia de 99,9%. Porém, ao colocar o modelo em produção, sua acurácia baixou para 65%, quando comparada com a situação real dos indivíduos.
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a explicação da diferença de desempenho entre o treinamento e a produção e a denominação dessa diferença;
• uma estratégia, com sua respectiva explicação, que o cientista de dados deveria adotar em relação ao uso adequado dos dados disponíveis, de modo a obter melhor previsão do comportamento do modelo quando em produção;
• a explicação do que é acurácia e a sugestão de duas outras medidas, acompanhadas de suas respectivas explicações, que o cientista de dados poderia ter usado para avaliar o modelo em função dos seguintes termos: Verdadeiro Positivo, Verdadeiro Negativo, Falso Positivo e Falso Negativo;
• a denominação e a explicação do modo de funcionamento de uma estratégia que o cientista de dados poderia ter adotado em relação à criação ou ao uso do modelo gerado, obtido a partir do treinamento de árvores de decisão com algoritmo ID3, para tratar o problema de diferença de acurácia detectado.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
Normalização
A tabela Filmes armazenas os usuários de uma plataforma de streaming de filmes escolhendo seus filmes favoritos.
| UsrID | UsrNome | FilmeID | FilmeNome | GenID | GenNome | DTFavorito |
| 1 | Sander | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 2 | Pedro | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 1 | Sander | 325 | O Protetor | 6 | Policial | 28/09/2023 |
| 2 | Vithor | 457 | Mine | 8 | Drama | 27/09/2023 |
| 2 | Vithor | 658 | Lucy | 9 | Suspense | 30/09/2023 |
Sabe-se que:
- As colunas UsrID e FilmeID compõe a chave primária da tabela.
- Cada usuário possui um identificador único UsrID e um nome UsrNome.
- Cada filme possui um identificador único FilmeID e um nome FilmeNome.
- Cada gênero possui um identificador único GenID e um nome GenNome.
O dia em que o usuá…
Em 2018, o Banco Central do Brasil (BCB), órgão regulador e supervisor do sistema financeiro nacional, iniciou uma série de mudanças regulatórias que permitiram a abertura do mercado para as fintechs. Destacam-se duas recentes e impactantes mudanças no setor, que incluíam o PIX, um novo meio de pagamento no mercado financeiro nacional, que permite transferências bancárias instantâneas a qualquer hora do dia, inclusive aos finais de semana. A entrada desse sistema de pagamentos reduziu significativamente os custos de transferências bancárias quando comparado com o Transferência Eletrônica Disponível (TED) e Documento de Ordem de Crédito (DOC), fontes relevantes de receitas para as instituiçõe…
Brasil é o terceiro maior consumidor de redes sociais
em todo o mundo
O estudo mostra que esses canais são a preferência dos brasileiros frente a outras categorias online, elevando o país à terceira posição entre as nações que mais consomem redes sociais em todo o mundo – atrás de Índia e Indonésia, e à frente de Estados Unidos, México e Argentina.
A análise “Tendências de Social Media 2023” mostra que os 131,5 milhões de usuários conectados no Brasil têm passado cada vez mais tempo na internet, em especial nessas plataformas. A categoria foi a mais consumida em dezembro de 2022, somando 356 bilhões de minutos, o que equivale a 46 horas de conexão por usuário no mês, e representa um aumento…



