Caio Jacintho, Gabriel Gazola, Judite Cypreste
14
July
2022
Neste momento, você já deve ter ouvido falar do nosso Datalake, dos projetos que o utilizam e, possivelmente, já tenha acessado o sistema para conferir os dados existentes.
No entanto, para chegar na sua publicação, um grande processo de planejamento, prototipagens e validações foi realizado.
Neste primeiro texto, nossa equipe técnica compartilha alguns dos desafios técnicos que foram encontrados nesta jornada. Nas próximas publicações, o Escritório de Dados (ED) contará como estes obstáculos foram superados.
A privacidade e segurança dos dados
Quando falamos de computação em nuvem, uma das maiores preocupações diz respeito à tutela e proteção dos dados armazenados.
Isso torna-se ainda mais delicado quando pensamos na quantidade de dados sensíveis que uma entidade governamental possui de seus cidadãos.
E essa foi uma das questões avaliadas, incansavelmente, pelo ED na decisão de disponibilizar tantas informações, antes inacessíveis, para o público. Além do filtro daquilo que deveria estar exposto, muitas reuniões foram feitas para discutir qual empresa seria a escolhida para hospedar nosso datalake.
Escolhendo componentes
Quanto maior o número de componentes de um sistema, mais tempo será consumido em integrações e manutenções.
Desta forma, uma de nossas prioridades era manter nosso sistema o mais enxuto possível, na lógica do “menos é mais”. Com menos tempo investido em manutenções, a atenção da equipe pode ser direcionada a outros assuntos, aumentando a produtividade do time.
A escolha destes componentes não foi uma tarefa fácil, e o caminho para chegar nas escolhas que fizemos também foi árduo. Um assunto que será abordado em um próximo texto.
Gestão centralizada, custos distribuídos
Para facilitar a governança dos dados, é preciso manter esse gerenciamento centralizado, garantindo um bom monitoramento das informações.
Por outro lado, a concentração de todos os custos em um único órgão governamental não é uma tarefa fácil. Seja para futura divisão ou não dos gastos, a ideia de centralização pode não ser uma boa saída (todos já tivemos essa experiência dividindo uma conta de bar e sabemos que isso pode não funcionar tão bem…).
Nesse sentido, a melhor opção é a distribuição de custos, mesmo que isto não seja de fácil implementação. Afinal, como contabilizar quanto cada órgão consumiu e separar esses valores para faturamentos diferentes?
Garantir o legado
Criar novos projetos, seja na esfera pública ou privada, é um movimento arriscado. Sempre há a possibilidade de que, em algum momento, por qualquer motivo que seja, esses projetos possam ser descontinuados. Dado isso, tudo foi pensado, inclusive a escolha dos componentes.
Como fazer com que o projeto “não se apague” mesmo que seja descontinuado? Como garantir que cada órgão possa administrar seus dados caso alguém decida interromper o Datalake?
Com grandes iniciativas, vêm grandes responsabilidades…