Um cientista de dados recebeu uma grande massa de dados, retirada de uma pesquisa periódica sobre o mercado de trabalho brasileiro, que continha colunas que descreviam atributos de indivíduos e ainda uma única coluna que continha uma classificação quanto a estar em situação de desemprego involuntário ou não.
Sua missão era desenvolver, por meio de aprendizado de máquina, um modelo capaz de classificar automaticamente os indivíduos como estando na situação de desemprego involuntário ou não, em função das mesmas características.
Sua escolha inicial, em relação aos dados e ao algoritmo, foi usar todos os dados disponíveis para treinar um modelo usando um algoritmo de árvore de decisão (ID3). Como estratégia de adoção do modelo após obtê-lo, ele decidiu usar todos os nós gerados pela árvore.
Ao fazer o treinamento com todos os dados, conseguiu uma acurácia de 99,9%. Porém, ao colocar o modelo em produção, sua acurácia baixou para 65%, quando comparada com a situação real dos indivíduos.
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a explicação da diferença de desempenho entre o treinamento e a produção e a denominação dessa diferença;
• uma estratégia, com sua respectiva explicação, que o cientista de dados deveria adotar em relação ao uso adequado dos dados disponíveis, de modo a obter melhor previsão do comportamento do modelo quando em produção;
• a explicação do que é acurácia e a sugestão de duas outras medidas, acompanhadas de suas respectivas explicações, que o cientista de dados poderia ter usado para avaliar o modelo em função dos seguintes termos: Verdadeiro Positivo, Verdadeiro Negativo, Falso Positivo e Falso Negativo;
• a denominação e a explicação do modo de funcionamento de uma estratégia que o cientista de dados poderia ter adotado em relação à criação ou ao uso do modelo gerado, obtido a partir do treinamento de árvores de decisão com algoritmo ID3, para tratar o problema de diferença de acurácia detectado.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
Em 2018, o Banco Central do Brasil (BCB), órgão regulador e supervisor do sistema financeiro nacional, iniciou uma série de mudanças regulatórias que permitiram a abertura do mercado para as fintechs. Destacam-se duas recentes e impactantes mudanças no setor, que incluíam o PIX, um novo meio de pagamento no mercado financeiro nacional, que permite transferências bancárias instantâneas a qualquer hora do dia, inclusive aos finais de semana. A entrada desse sistema de pagamentos reduziu significativamente os custos de transferências bancárias quando comparado com o Transferência Eletrônica Disponível (TED) e Documento de Ordem de Crédito (DOC), fontes relevantes de receitas para as instituiçõe…
O OWASP Top 10 aponta os principais riscos de segurança encontrados em aplicações Web durante um período específico. Na publicação OWASP – 2021, a categoria de risco de injeção aparece na terceira posição do ranking, depois de vários anos na primeira posição. Mesmo assim, por causa das suas consequências nocivas para o sistema de informação, ainda é considerado um risco bastante pertinente para os dias atuais. De acordo com OWASP – 2021, “94% dos aplicativos foram testados para alguma forma de injeção, e os 33 CWEs mapeados para esta categoria têm a segunda maior ocorrência em aplicativos”.
Para minimizar os riscos de segurança da categoria de injeção, é importante adotar boas …
O quadro a seguir apresenta as principais colunas das tabelas Turmas e PreInscricoes, bem como o domínio de dados dessas colunas.
| Tabela | Coluna | Domínio de Dados | Participa em chave primária ou estrangeira? |
| Turmas | IDTurma | Inteir… |




