Um tribunal está projetando um Data Lakehouse para consolidar dados de múltiplos sistemas legados. A arquitetura prevê três camadas: Bronze (dados brutos), Silver (dados limpos e conformados) e Gold (dados agregados para consumo). O arquiteto de dados precisa definir estratégias de modelagem, particionamento e governança considerando os requisitos a seguir.
• Volume: 500 GB/dia de novos dados (processos, documentos, audiências)
• Consultas: Analistas consultam principalmente por UF, ano e tipo de processo
• Retenção: Bronze (2 anos), Silver (5 anos), Gold (10 anos)
• SLA: Consultas analíticas devem retornar em < 3 segundos
• Compliance: LGPD exige anonimização de dados pessoais na camada Gold
A tabela dimensional de processos na camada Gold está sendo projetada conforme o esquema abaixo:
CREATE TABLE Dim_Processo (
processo_id INT PRIMARY KEY,
numero_processo VARCHAR(25),
tipo_processo VARCHAR(50),
uf CHAR(2),
vara VARCHAR(100),
data_distribuicao DATE,
valor_causa DECIMAL(15,2),
cpf_autor VARCHAR(11),
nome_autor VARCHAR(200),
situacao VARCHAR(30)
);
Pede-se:
a) Para cada uma das três camadas (Bronze, Silver e Gold), indique, justificando sua escolha, a estratégia de particionamento adequada: partição por data, partição por UF, partição composta ou sem particionamento.
b) Na camada Gold, identifique duas colunas que violam a LGPD e explicite a técnica de anonimização apropriada para cada uma delas.
c) A tabela Dim_Processo armazena dados de vara que se repetem para milhares de processos.
c.1) Em um modelo normalizado (3FN), como armazenar dados repetidos de “tipo_processo”?
c.2) Por que Data Warehouses tipicamente não normalizam essa situação?
d) Para cada um dos casos de uso a seguir, indique o tipo de banco de dados mais adequado (relacional, colunar, documentos, grafos, chave-valor).
i. PDFs de petições com metadados JSON
ii. Agregações em bilhões de registros
iii. Relacionamentos advogados-clientes-processos
iv. Cache de sessões de usuários
Ops! Esta questão ainda não tem padrão de resposta.
Ops! Esta questão ainda não tem resolução em texto.
Ops! Esta questão ainda não tem resolução em vídeo.
Questões Relacionadas
Para ser capaz de gerenciar e operacionalizar adequadamente políticas públicas, o Governo Federal faz uso intensivo de sistemas informatizados, cujos dados são essenciais para que a gestão governamental seja cada vez mais eficiente, possibilitando melhores tomadas de decisão pelos gestores públicos.
No entanto, muitas políticas públicas são transversais, ou seja, sua implementação e avaliação dependem de mais de uma organização governamental, sendo necessário que um órgão ou entidade tenha acesso a dados que estão sob gestão de outras instituições.
Nesse contexto, o Tribunal de Contas da União (TCU) – com a experiência desenvolvida em auditorias baseadas em análise de dados e inspirado em i…
Definição
Segundo a Resolução 3.380 do Conselho Monetário Nacional, considera-se risco operacional “a possibilidade de ocorrência de perdas resultantes de falha, deficiência ou inadequação de processos internos, pessoas e sistemas, ou de eventos externos“. Esta definição inclui o risco legal, que é o risco associado à inadequação ou deficiência em contratos firmados pela instituição, bem como a sanções em razão do descumprimento de dispositivos legais e a indenizações por danos a terceiros decorrentes das atividades desenvolvidas pela instituição.
Auditoria
Para se prevenir de perdas futuras decorrentes de risco operacional, a equipe de auditoria e controle interno de uma instituição finance…
Texto I – Normalização
Normalização é um processo focado na prevenção de problemas com repetição e atualização de dados, assim como o cuidado com a integridade dos dados. Este conceito foi apresentado originalmente em um artigo científico publicado pela IBM de autoria do matemático Edgar F. Codd, intitulado “Um modelo de dados relacionais para grandes bancos de dados compartilhados” (1970). Nesse artigo, Codd se concentrou nos valores dos elementos relacionados no banco de dados, não em ligações ou agrupamentos específicos.
Texto II – Modelagem de uma Tabela
Ao desenvolver um sistema de comércio eletrônico, um analista de banco de dados considerou a implementação da tabela CEPs (




