Um cientista de dados recebeu uma grande massa de dados, retirada de uma pesquisa periódica sobre o mercado de trabalho brasileiro, que continha colunas que descreviam atributos de indivíduos e ainda uma única coluna que continha uma classificação quanto a estar em situação de desemprego involuntário ou não.
Sua missão era desenvolver, por meio de aprendizado de máquina, um modelo capaz de classificar automaticamente os indivíduos como estando na situação de desemprego involuntário ou não, em função das mesmas características.
Sua escolha inicial, em relação aos dados e ao algoritmo, foi usar todos os dados disponíveis para treinar um modelo usando um algoritmo de árvore de decisão (ID3). Como estratégia de adoção do modelo após obtê-lo, ele decidiu usar todos os nós gerados pela árvore.
Ao fazer o treinamento com todos os dados, conseguiu uma acurácia de 99,9%. Porém, ao colocar o modelo em produção, sua acurácia baixou para 65%, quando comparada com a situação real dos indivíduos.
Considere esse contexto e redija um texto dissertativo contínuo de 35 a 45 linhas em que, de forma fundamentada, apresente:
• a explicação da diferença de desempenho entre o treinamento e a produção e a denominação dessa diferença;
• uma estratégia, com sua respectiva explicação, que o cientista de dados deveria adotar em relação ao uso adequado dos dados disponíveis, de modo a obter melhor previsão do comportamento do modelo quando em produção;
• a explicação do que é acurácia e a sugestão de duas outras medidas, acompanhadas de suas respectivas explicações, que o cientista de dados poderia ter usado para avaliar o modelo em função dos seguintes termos: Verdadeiro Positivo, Verdadeiro Negativo, Falso Positivo e Falso Negativo;
• a denominação e a explicação do modo de funcionamento de uma estratégia que o cientista de dados poderia ter adotado em relação à criação ou ao uso do modelo gerado, obtido a partir do treinamento de árvores de decisão com algoritmo ID3, para tratar o problema de diferença de acurácia detectado.
CONTEÚDO EXCLUSIVO
Confira nossos planos especiais de assinatura e desbloqueie agora!
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
Ecossistema de dados
Ecossistema de Dados pode ser conceituado como um conjunto de relações complexas que se formam entre os atores ou entidades que interagem e direta ou indiretamente consomem, produzem, fornecem dados e outros recursos relacionados.
Segundo o Relatório Dados para uma vida melhor, publicado em 2021 pelo Banco Mundial, o Ecossistema de Governança de Dados de uma nação é a definição da abordagem de Governança de Dados que tem um papel central para o governo (órgãos, entidades, autarquias e fundações do poder executivo federal, órgãos dos poderes legislativo e judiciário, órgãos públicos dos estados e municípios), mas que pressupõe a atuação de entidades da sociedade civil e …
Normalização
A tabela Filmes armazenas os usuários de uma plataforma de streaming de filmes escolhendo seus filmes favoritos.
| UsrID | UsrNome | FilmeID | FilmeNome | GenID | GenNome | DTFavorito |
| 1 | Sander | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 2 | Pedro | 211 | 1917 | 4 | Guerra | 27/09/2023 |
| 1 | Sander | 325 | O Protetor | 6 | Policial | 28/09/2024 |
| 2 | Vithor | 457 | Mine | 8 | Drama | 27/09/2024 |
| 2 | Vithor | 658 | Lucy | 9 | Suspense | 30/09/2023 |
Sabe-se que:
- As colunas UsrID e FilmeID compõe a chave primária da tabela.
- Cada usuário possui um identificador único UsrID e um nome UsrNome.
- Cada filme possui um identificador único FilmeID e um nome FilmeNome.
- Cada gênero possui um identificador único GenID e um nome GenNome.
O dia em que o us…
O OWASP Top 10 aponta os principais riscos de segurança encontrados em aplicações Web durante um período específico. Na publicação OWASP – 2021, a categoria de risco de injeção aparece na terceira posição do ranking, depois de vários anos na primeira posição. Mesmo assim, por causa das suas consequências nocivas para o sistema de informação, ainda é considerado um risco bastante pertinente para os dias atuais. De acordo com OWASP – 2021, “94% dos aplicativos foram testados para alguma forma de injeção, e os 33 CWEs mapeados para esta categoria têm a segunda maior ocorrência em aplicativos”.
Para minimizar os riscos de segurança da categoria de injeção, é importante adotar boas …



