dataCleaning
english
Essa ferramenta tem a finalidade de identificar possíveis erros e facilitar a padronização dos dados. Geralmente são erros pequenos e simples, onde uma letra é adicionada, trocada ou omitida. São erros difíceis de serem encontrados em um grande conjunto de dados pela pequena diferença da ortografia.
Uma premissa do trabalho é não interferir na informação. Nenhum dado é modificado, o sistema apenas indica os registros "suspeitos", recomendando ao autor que confira e escolha entre corrigir ou não a informação.
A ferramenta ainda está em desenvolvimento e todas as sugestões serão bem vindas.

Selecione uma coleção 
coleção:    IAN
total de registros indexados 197738 
- sem coordenadas geográficas 170652 
- georreferenciados 27086 
- georreferenciados bloqueados
- no mar 641 
- número do catálogo em branco 7692 
  [ susp ]
registros repetidos
número do catálogo 25140 
registros duplicados 15830 
nome + número do coletor 31082 
última atualização  -  logs de erro
da coleção:  18-12-2019 do dataCleaning:  19-12-2019
distribuição geográfica das coletas da coleção

perfil da coleção
estatísticas do dataCleaning
análise da dispersão das coordenadas geográficas

dados taxonômicos
inventário nome científico - coletor - determinador - tipos
reino não encontrado
família 1203 suspeito(s)
genero 647 suspeito(s)
espécie 823 suspeito(s)
subespécie 12 suspeito(s)
autor 1565 suspeito(s)
duplicata 12017 suspeito(s)
outras inconsistências 756 suspeito(s)
comentários 21 comentários
dados geográficos
inventário país - estado - município
nome do país/estado 3393 suspeito(s)
outlier 87 suspeito(s)
long/lat fora do limite mundial não encontrado
long/lat iguais 27 suspeito(s)
long ou lat com zero 152 suspeito(s)
long/lat mar (Brasil) 491 suspeito(s)
nome do município (Brasil) 4820 suspeito(s)
análise da coordenada (Brasil) 23 suspeito(s)
outras inconsistências 207 suspeito(s)

data da coleta
data da coleta menor que 1800 8 suspeito(s)
ano da coleta maior que identificação 562 suspeito(s)
sugestões para campos em branco
long/lat (Brasil) 71234 sugestões  
nome país/estado 2138 sugestões
nome município (Brasil) 5217 sugestões

busca
dataCleaning
email
Centro de Referência em Informação Ambiental, CRIA