Manual de Estilo
Nessa seção são listados os padrões do manual de estilo e diretrizes de dados que estão sendo construídas para o INCT-LABPLAN. Seguir estes padrões é de grande importância para garantir a qualidade dos metadados e, em última instância, dos dados. O objetivo é alimentar a plataforma de forma consistente, segura e padronizada, garantindo que os dados sejam fáceis de encontrar, acessar e reutilizar.
Nomeação de Conjuntos de Dados e Tabelas
A nomeação padronizada é o primeiro passo para a organização do nosso catálogo. O Dataset no CKAN é o contêiner que agrupa informações sobre um mesmo tema. Os Recursos são os arquivos dentro de um Dataset.
-
Padrão para Título do Dataset (CKAN): O título deve ser claro, descritivo e seguir o formato:
<Tema Principal> - <Escala Geográfica> - <Período>- Exemplo:
Desigualdade de Renda - Municípios - 2010-2020
- Exemplo:
-
Padrão para Nomes de Arquivos (Recursos): Os nomes dos arquivos devem ser concisos, em letras minúsculas, sem espaços ou caracteres especiais, e incluir um indicador de versão.
v<versao>_<tema>_<detalhe>.<extensao>- Exemplo:
v1.1_renda_media_municipios.csv - Justificativa: O versionamento no nome do arquivo é crucial para o rastreamento de correções e atualizações, como demonstrado no caso de uso sobre o histórico de mudanças.
- Exemplo:
Tipagem dos Dados
A consistência na tipagem dos dados é fundamental para permitir a integração e análise de diferentes fontes de dados.
- Datas: Devem seguir o padrão internacional ISO 8601:
AAAA-MM-DD. - Códigos Geográficos: Códigos do IBGE para municípios, estados, etc., devem ser tratados como texto (
string) para preservar zeros à esquerda, ou como numérico (integer) quando não houver esse risco. A escolha deve ser documentada. - Valores Numéricos: O separador decimal deve ser sempre o ponto (
.). - Dados Geoespaciais: O sistema de coordenadas de referência deve ser sempre explicitado nos metadados. O padrão para o projeto é SIRGAS2000 (EPSG:4674).
Padrão de Nomenclatura de Colunas
A padronização dos nomes das colunas (variáveis) nos arquivos de dados evita erros de programação e facilita a compreensão.
- Formato: Utilizar
snake_case, ou seja, todas as letras minúsculas, com palavras separadas por underscore (_). - Regras: Não utilizar espaços, acentos, cedilha ou caracteres especiais (e.g.,
ç,~,^). - Exemplos:
- Correto:
populacao_total_2022,renda_media_domiciliar - Incorreto:
População Total 2022,Renda Média/Domicílio
- Correto:
Padrão de Descrição das Colunas
Cada Recurso de dados tabulares (ex: CSV, Excel) deve ser acompanhado de um dicionário de variáveis. O dicionário de variáveis é uma tabela que contém informações necessárias para o uso dos dados:
O dicionário deve conter, no mínimo:
* nome_coluna: O nome exato da coluna no arquivo.
* descricao_coluna: Explicação clara do que a variável representa e de procedimentos metodológicos realizados para criar os dados.
* tipo_dado: O tipo de dado (ex: String, Float, Integer, Data).
* unidade_medida: Se aplicável (ex: Metros, Reais, Porcentagem), unidade de medida da variável.
Formatos de arquivos
- TODO: Definir formatos
Padrão de Documentação da Metodologia
A reprodutibilidade é um pilar da governança. A documentação da metodologia garante que os resultados possam ser validados e replicados.
- A documentação primária da metodologia é o próprio script R utilizado para o tratamento dos dados.
- O link para o script R ou para o repositório GitHub correspondente deve ser um campo de metadado obrigatório no Dataset do CKAN.
- O repositório no GitHub deve conter um arquivo
README.mdque descreva o objetivo do script, as fontes de dados brutas utilizadas e o Dataset resultante no CKAN.
Padrão de Estrutura do Script R
Para facilitar a revisão por pares e a compreensão, todo script R deve seguir uma estrutura mínima:
# ===================================================================
# CABEÇALHO
# Título: Script para tratamento de dados de população municipal
# Autor: [Nome do Pesquisador]
# Eixo: Eixo 4
# Data: 2025-09-12
# Link do Dataset no CKAN: [https://ai-scholar.tech/en/articles/dataset/personalized_image_aesthetics_assessment_dataset](https://ai-scholar.tech/en/articles/dataset/personalized_image_aesthetics_assessment_dataset)
# ===================================================================
# 1. CARREGAMENTO DE PACOTES
library(dplyr)
library(readr)
# 2. DEFINIÇÃO DE CONSTANTES E PARÂMETROS
ANO_CENSO <- 2022
CAMINHO_DADOS_BRUTOS <- "dados/brutos/pop_bruta.csv"
CAMINHO_DADOS_TRATADOS <- "dados/tratados/v1_populacao_municipios_2022.csv"
# 3. CARGA DE DADOS
dados_brutos <- readr::read_csv(CAMINHO_DADOS_BRUTOS)
# 4. TRATAMENTO E LIMPEZA DOS DADOS
# [Código de manipulação dos dados]
# 5. EXPORTAÇÃO DOS DADOS TRATADOS
readr::write_csv(dados_tratados, CAMINHO_DADOS_TRATADOS)