4.1. Regras de Padronização
Processo que identifica, remove e ou corrige registros de dados imprecisos para garantir qualidade e consistência. É um processo fundamental para o gerenciamento de dados mestre (MDM).
O produto possui uma extensa biblioteca, contendo regras de padronização visando a adequação dos registros oriundos dos legados, reduzindo possíveis inconsistências que impactem nos processos de formação do golden record.
A solução também aplica a metodologia de padronização de dados da plataforma IBM, contemplando bibliotecas padrão para diversos países, inclusive o Brasil.
A MD2 enriqueceu estas rotinas com experiência de atuação de mais de 1 década implantando a solução de MDM em grandes empresas do mercado nacional e traz estes artefatos como aceleradores de projetos, além de rotinas regionalizadas e preparadas para tratar diversos tipos de dado.
Abaixo temos a tabela com algumas Regras de Padronização disponíveis:
Nome de Recurso | Nome | Descrição Detalhada |
Padronização Acentuação | Padronização Acentuação | Define a forma padrão de armazenamento de strings dentro do MDM, onde os caracteres devem ser persistidos sem acentuação. Os caracteres acentuados devem ser substituídos pelo caractere correspondente sem acento |
Padronização Adequação Gênero | Padronização Adequação Gênero | Adequação dos valores de gênero para M ou F. Se os valores de gênero estiverem descritivos ou numéricos, os mesmos deverão ser convertido para M ou F |
Padronização Agência Bancária | Padronização Agência Bancária | São retirados dígitos não numéricos. Se necessário, complementa-se o registro com zeros à esquerda até completar 4 caracteres. Caso o registro contenha 5 dígitos, tratam-se os 4 primeiros dígitos como código da agência e o 5º dígito como verificador |
Padronização Banco | Padronização Banco | O processo insere zeros a esquerda até se atingir 3 dígitos |
Padronização Caracteres Consecutivos | Padronização Caracteres Consecutivos | Não é permitido três ou mais caracteres iguais consecutivos conforme regra abaixo: . Não é permitido 2 caracteres iguais consecutivos no início de nomes ou sobrenomes, exceto para vogais, o excesso deve ser excluído, deixando apenas um caractere. Exemplo: Rroberto => Roberto Ssônia => Sônia Jjosé => José Ddenilson => Denilson . Não é permitido 3 ou mais caracteres iguais consecutivos no meio dos nomes ou sobrenomes, o excesso deve ser excluído, deixando apenas dois caracteres Exemplo: Barrrros => Barros Annna => Anna |
Padronização Caracteres Consecutivos Endereço | Padronização Caracteres Consecutivos Endereço | Não é permitido três ou mais caracteres iguais consecutivos, exceto números romanos e sequência numérica . Não é permitido 2 caracteres iguais consecutivos no início de nomes ou sobrenomes, exceto para vogais, o excesso deve ser excluído, deixando apenas um caractere. Exemplo: Rroberto => Roberto Ssônia => Sônia Jjosé => José Ddenilson => Denilson . Não é permitido 3 ou mais caracteres iguais consecutivos no meio dos nomes ou sobrenomes, o excesso deve ser excluído, deixando apenas dois caracteres Exemplo: Barrrros => Barros Annna => Anna |
Padronização Caracteres Permitidos Bairro e Cidade | Padronização Caracteres Permitidos Bairro e Cidade | Todos os caracteres devem respeitar a relação de caracteres permitidos para nome do bairro e cidade Caracteres diferentes da lista abaixo devem ser removidos: 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWZYXáàâãäÁÀÂÃÄéèêëÉÈÊËíìîïÍÌÎÏóòôõöÒÓÔÕÖúùûüÙÚÛÜýÿÝñÑçÇ" |
Padronização Caracteres Permitidos CEP | Padronização Caracteres Permitidos CEP | Todos os caracteres devem respeitar a relação de caracteres permitidos para CEP São permitidos os caracteres numéricos 0123456789. Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos CPF | Padronização Caracteres Permitidos CPF | Todos os caracteres devem respeitar a relação de caracteres permitidos para CPF São permitidos os caracteres numéricos 0123456789. Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos Latitude e Longitude | Padronização Caracteres Permitidos Latitude e Longitude | Todos os caracteres devem respeitar a relação de caracteres permitidos para Latitude e Longitude Lista de caracteres permitidos 0123456789 .- Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos Logradouro | Padronização Caracteres Permitidos Logradouro | Todos os caracteres devem respeitar a relação de caracteres permitidos para Logradouro (Nome, Número e Complemento) Caracteres diferentes da lista abaixo devem ser removidos: 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWZYXáàâãäÁÀÂÃÄéèêëÉÈÊËíìîïÍÌÎÏóòôõöÒÓÔÕÖúùûüÙÚÛÜýÿÝñÑçÇ/-°ª,.º |
Padronização Caracteres Permitidos Munícipio e UF IBGE | Padronização Caracteres Permitidos Munícipio e UF IBGE | Todos os caracteres devem respeitar a relação de caracteres permitidos para município e UF IBGE São permitidos os caracteres numéricos 0123456789. Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos para E-mail | Padronização Caracteres Permitidos para E-mail | Todos os caracteres devem respeitar a relação de caracteres permitidos para E-mail São permitidos os caracteres alfabéticos abcdefghijklmnopqrstuvwxyz , numéricos 0123456789 e também os especiais . _ - @ Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos para Nome do País | Padronização Caracteres Permitidos para Nome do País | Todos os caracteres devem respeitar a relação de caracteres permitidos para nome do país Caracteres diferentes da lista abaixo devem ser removidos: " 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWZYXáàâãäÁÀÂÃÄéèêëÉÈÊËíìîïÍÌÎÏóòôõöÒÓÔÕÖúùûüÙÚÛÜýÿÝñÑçÇ" |
Padronização Caracteres Permitidos para Nome Pessoa Física | Padronização Caracteres Permitidos para Nome Pessoa Física | Todos os caracteres devem respeitar a relação de caracteres permitidos para nome de Pessoa Física Caracteres diferentes da lista abaixo devem ser removidos: " ABCDEFGHIJKLMNOPQRSTUVWXYZ" |
Padronização Caracteres Permitidos para Telefone | Padronização Caracteres Permitidos para Telefone | Todos os caracteres devem respeitar a relação de caracteres permitidos para Telefone (DDI, DDD, Telefone e Ramal) São permitidos os caracteres numéricos 0123456789. Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos RG e Passaporte | Padronização Caracteres Permitidos RG e Passaporte | Todos os caracteres devem respeitar a relação de caracteres permitidos para RG e Passaporte São permitidos os caracteres numéricos 0123456789 e alfabéticos ABCDEFGHIJKLMNOPQRSTUVXWYZ Caracteres diferentes desta lista devem ser removidos. |
Padronização Caracteres Permitidos UF | Padronização Caracteres Permitidos UF | Todos os caracteres devem respeitar a relação de caracteres permitidos para UF Caracteres diferentes da lista abaixo devem ser removidos: ABCDEFGHIJKLMNOPQRSTUVWXYZ |
Padronização Case Sensitive | Padronização Case Sensitive | Define a forma padrão de armazenamento de strings dentro do MDM, onde os caracteres devem ser persistidos em caixa alta (maiúsculas) |
Padronização Case Sensitive E-mail | Padronização Case Sensitive E-mail | Define a forma padrão de armazenamento de strings de e-mail dentro do MDM, onde os caracteres devem ser persistidos em caixa baixa (minúsculas) |
Padronização CEP Genéricos | Padronização CEP Genéricos | Não é permitido a existência de conteúdo genérico de CEP. Se conteúdo genérico, inferir nulo Ex: 00000000, 11111111 ... 99999999 |
Padronização Complemento CEP de São Paulo | Padronização Complemento CEP de São Paulo | Complemento com zero a esquerda para CEP de São Paulo. Concatenar um zero a esquerda quando a UF='SP' e o CEP contiver 7 dígitos |
Padronização Complemento Logradouro | Padronização Complemento Logradouro | Padronização informações de complemento de logradouro escritas de formas distintas ou inválidas Quando iniciar com SL e logo após a letra possuir espaço, substituir por "SALA" Quando iniciar com S e após o espaço a direita houver um caracter diferente da letra N , substituir por "SALA" Quando campos possuir SN, S/N, S N, remover da string |
Padronização Complemento Zero a Esquerda CPF | Padronização Complemento Zero a Esquerda CPF | Complementar com zero a esquerda do CPF quando conteúdo for inferior a 11 dígitos. Quando o CPF possuir quantidade inferior a 11 dígitos, incluir zeros a esquerda completando o número em 11 dígitos |
Padronização Completude Sufixo e Prefixo Nome Pessoa Física | Padronização Completude Sufixo e Prefixo Nome Pessoa Física | Aplicar rotina QualityStage de padronização de nomes para completude de sufixo e prefixo do nome, corrigindo as principais abreviaturas e movendo o prefixo do nome para nome de tratamento Exemplo: "DR. JOAO DA SILVA JR" -> "JOAO DA SILVA JUNIOR" , o prefixo DR. será movido para o campo de nome de tratamento |
Padronização Conteúdo SN | Padronização Conteúdo SN | Padronização informação "Sem Número" escrita de formas distintas. Quando conteúdo contiver “SNUMERO, SN, S N,S/NUMERO, SN, S/N, S N, S/NR, SNR” entre espaços, substituir a string por "S/N" |
Padronização Correção Abreviações Bairro | Padronização Correção Abreviações Bairro | Correção de abreviações comuns para nome do bairro. Substituir: . Z. ou Z por Zona . VL V.L. VL. V.L maiúsculas ou minúsculas por VILA . STA STA. STª Sta maiúsculas ou minúsculas por SANTA . RS RES RES. Res. Res por RESIDENCIAL . PRQ PQUE Pque PQ PQ. Pq Pq. por PARQUE . JD. JD Jdim JDIM Jd Jd. por Jardim . Dist. Dist Distr. DISTR DIS DIS. Dis Dis. por DISTRITO . CPO por CAMPO . COND COND. por CONDOMINIO Aplicar rotina QualityStage para completude e padronização da informação do nome do bairro |
Padronização Correção Provedores de E-mail | Padronização Correção Provedores de E-mail | Completude e padronização da informação de e-mail para tradução de erros comuns de provedores de e-mail Exemplo gmael -> gmail gmai -> gmail hgotmail -> hotmail hhotmail -> hotmail Acerto no final do e-mail onde após o provedor não existir ".com",".com.br", "br" |
Padronização Corrreção Erros Comuns Final E-mail | Padronização Corrreção Erros Comuns Final E-mail | Correção dos erros comuns no final da string de E-mail Exemplo: "com.ltda" -> ".com.br" "comm.br" -> ".com.br" ".cvom.br" -> ".com.br" |
Padronização Data Nascimento Inconsistente | Padronização Data Nascimento Inconsistente | Os valores contidos na data de nascimento devem ser consistentes, ou seja, devem possuir um intervalo de valores mínimo e máximo. Valores superiores a data atual e inferiores a 1900-01-01 devem ser anulados |
Padronização Data Óbito Inconsistente | Padronização Data Óbito Inconsistente | Os valores contidos na data de óbito devem ser consistentes, ou seja, devem possuir um intervalo de valores mínimo e máximo. Valores superiores a data atual , inferiores a 1900-01-01 ou inferiores a data de nascimento devem ser anulados |
Padronização Espaçamento de Strings | Padronização Espaçamento de Strings | Define a forma padrão de espaçamento de strings. O excesso de espaçamento deve ser removido. Espaço no início ou no final da string também deve ser removido, exemplo: " JOAO DA SILVA SOARES " -> "JOAO DA SILVA SOARES" |
Padronização Formato de Data | Padronização Formato de Data | As datas devem ser armazenadas seguindo um formato padrão. Armazenar no HUB MDM as datas no formato: YYYY-MM-DD HH:MM:SS |
Padronização Inclusão de Dígitos | Padronização Inclusão de Dígitos | Inclusão do nono dígito para telefone celular e dígito três para telefone fixo Se possuir oito dígitos e Iniciado por 6, 7, 8 ou 9: . Incluir o 9 a esquerda do número do telefone para telefones que não sejam NEXTEL conforme tabela ANATEL Se possuir sete dígitos e o campo tiver data de alteração/inclusão anterior ao ano de 2006, incluir o número 3 no início do número |
Padronização Quantidade Máxima de Caracteres Número Logradouro | Padronização Quantidade Máxima de Caracteres Número Logradouro | O número de logradouro não deve ser maior que 14 caracteres. Caso ultrapasse o valor máximo, o conteúdo do número do logradouro deverá ser anulado |
Padronização Quantidade Máxima de Números Ramal | Padronização Quantidade Máxima de Números Ramal | O número do ramal deve respeitar a quantidade máxima de caracteres. Os valores que não respeitarem essa restrição deverão ser anulados |
Padronização Quantidade Mínima de Caracteres Bairro | Padronização Quantidade Mínima de Caracteres Bairro | O nome do bairro não deve ser menor que 2 caracteres. Caso seja inferior ao valor mínimo, o conteúdo do nome do bairro deverá ser anulado |
Padronização Quantidade Mínima de Caracteres Complemento Logradouro | Padronização Quantidade Mínima de Caracteres Complemento Logradouro | O complemento de logradouro não deve ser menor que 2 caracteres. Caso seja inferior ao valor mínimo, o conteúdo do complemento do logradouro deverá ser anulado |
Padronização Remoção Caracteres Indesejados E-mail | Padronização Remoção Caracteres Indesejados E-mail | Não é permitido a existência de determinados caracteres antes e após o @ e caracteres especiais em sequencia. Conforme relação abaixo, devemos substituir : @@ por @ -@ por @ @- por @ .@ por @ @. por @ _@ por @ @_ por @ -- por - .. por . |
Padronização Remoção de Dígitos | Padronização Remoção de Dígitos | Remover zeros a esquerda do Telefone, DDD e DDI |
Padronização Remoção Espaço E-mail | Padronização Remoção Espaço E-mail | Não é permitido espaços em branco na string de e-mail. Os espaços entre strings, no início e no final da string devem ser removidos |
Padronização Remoção Palavra Indesejada para Nome Cidade | Padronização Remoção Palavra Indesejada para Nome Cidade | Palavras indesejadas devem ser removidas do conteúdo Nome Cidade Possuindo a palavra Capital no final da string, a mesma deverá ser excluída. Exemplo: Rio de Janeiro Capital - > Rio de Janeiro Possuindo a string 'N D' , substituir por nulo |
Padronização Remoção Pontuação no Início e Final da String | Padronização Remoção Pontuação no Início e Final da String | A string de e-mail não pode iniciar ou terminar com caractere .(ponto). Os pontos no início e no final da string devem ser removidos, caso existam |
Padronização Remoção String Indesejada E-mail | Padronização Remoção String Indesejada E-mail | Remover do conteúdo a string "e-mail:" Exemplo: "e-mail: joaodasilva@email.com.br" -> "joaodasilva@email.com.br" |
Padronização Remoção String Indesejada Nome Logradouro | Padronização Remoção String Indesejada Nome Logradouro | Strings indesejadas devem ser removidas do conteúdo Nome Logradouro Quando conteúdo contiver “S/NUMERO, SN, S/N, S N, S/NR, SNR” entre espaços, remover da string |
Padronização Remoção Zero a Esquerda CEP | Padronização Remoção Zero a Esquerda CEP | Remoção zero a esquerda do CEP caso contenha 9 dígitos e o primeiro dígito for zero |
Padronização Separação Conteúdo Nome Logradouro | Padronização Separação Conteúdo Nome Logradouro | Separação Tipo, Número e Complemento Logradouro do Nome Logradouro Aplicar rotina QualityStage para completude e padronização da informação do nome do logradouro , tipo de logradouro, número do logradouro e complemento, separando as informações caso estejam presentes na string de Nome Logradouro |
Padronização Separação Conteúdo Número Logradouro | Padronização Separação Conteúdo Número Logradouro | Separação Complemento Logradouro do Número Logradouro. Quando número do logradouro iniciar com AP, APTO ou APT e houver números após esses caracteres, remover da string Quando número do logradouro iniciar com AP, APTO ou APT e houver números após esses caracteres, retirar do campo “número” e acrescentar ao campo complemento sem excluir o que já existe nesse campo. Se a informação retirada no campo “número” for igual a presente no campo “complemento”, descartar informação Quando número do logradouro iniciar com número da esquerda para a direita e após esses tiver AP, APTO, APT, CASA ou CS e houver números da esquerda para a direita após esses caracteres, remover todo o conteúdo da string após o primeiro número Ex: 123 AP 456 -> 123 permaneceria em número logradouro e AP 456 seria migrado para complemento logradouro |
Padronização Separação de E-mail | Padronização Separação de E-mail | Separa as ocorrências de vários e-mails em uma mesma string a partir dos caracteres delimitadores "/\ >< , ; # - ". Os dados entre eles devem ser quebrados em linhas para análise e tratamento unitário |
Padronização Separação de Telefone | Padronização Separação de Telefone | Separa as ocorrências de vários telefones em uma mesma string a partir das seguintes regras: Quando possuir os caracteres delimitadores " ; / OU ", eliminar o caractere delimitador, separando o conteúdo de telefone em linhas distintas. Exemplo: 32227856ou991913455 32227856;991913455 , ficará: 32227856 991913455 32227856 991913455, sendo cada número de telefone um novo registro Para campos com 15 caracteres, somente numéricos, dividi-los em duas partes (8 dígitos e 7 dígitos), separando em linhas distintas de telefone. Para campos com 16 caracteres, somente numéricos, dividi-los em duas partes iguais com 8 caracteres cada em linhas distintas de telefone. |
Padronização Separação Município da UF IBGE | Padronização Separação Município da UF IBGE | Separação Município da UF IBGE quando o conteúdo estiver em uma mesma string Realizar a separação do código da UF e do município nos casos em que o campo “código UF IBGE” contem 7 dígitos. E o "código município IBGE" não contenha conteúdo Recuperar os dois primeiros dígitos para código UF IBGE Recuperar os 5 últimos dígitos para código município IBGE |
Padronização Separação RG, UF e Órgão Emissor | Padronização Separação RG, UF e Órgão Emissor | Separa o número RG, UF e Órgão Emissor contidos em uma mesma string Exemplo: MG 102030 SSP -> MG (UF Emissor), 102030 (Número RG), SSP (Órgão Emissor) |
Padronização Separação UF do Nome Cidade | Padronização Separação UF do Nome Cidade | Separação da UF do Nome da Cidade quando o conteúdo contiver as duas informações A separação da UF deve ocorrer a partir da aplicação da regra abaixo: Se o terceiro caractere for traço “-“ ou barra “/”(desconsiderando os espaços) e a direita dele possuir dois caracteres alfabéticos, remover traço “-“ ou barra “/” . Os dois caracteres posteriores serão removidos do Nome da Cidade e movidos para UF Ex: São Paulo - SP -> Cidade ficaria com o conteúdo "São Paulo" e UF ficaria com o conteúdo "SP" |
Padronização Substituição Dígito Dois ou Caractere Asterico por Arroba | Padronização Substituição Dígito Dois ou Caractere Asterico por Arroba | Substituir o dígito 2 pelo caractere @ quando: O conteúdo do campo e-mail conter somente uma ocorrência do número 2 e o campo e-mail não possuir @ Substituir o caractere * pelo caractere @ quando: O conteúdo do campo e-mail conter somente uma ocorrência do * e o campo e-mail não possuir @ |
Padronização Tamanho Padrão de Caracteres CEP | Padronização Tamanho Padrão de Caracteres CEP | Os valores de CEP devem respeitar o tamanho padrão de 8 dígitos numéricos. Se quantidade de dígitos do CEP for diferente de 8, inferir Nulo |
Padronização Tamanho Padrão PIS/PASEP/NIT | Padronização Tamanho Padrão PIS/PASEP/NIT | Define o tamanho padrão de 11 dígitos para armazenamento das informações de PIS/PASEP/NIT Campos inferiores a 11 caracteres, completar com zero a esquerda |
Padronização Tradução Nome Cidade | Padronização Tradução Nome Cidade | Tradução das abreviações e correção de erros comuns de digitação do Nome Cidade Aplicar rotina QualityStage para tradução das abreviações e correção de erros comuns de digitação do Nome Cidade Exemplo: BH -> BELO HORIZONTE MOJIMIRIM -> MOGI MIRIM |
Padronização Validação Bairro DNE | Padronização Validação Bairro DNE | Efetuar validação conjunta da UF, CIDADE, BAIRRO com a tabela DNE_BAIRRO dos Correios. Para as informações que não forem consistentes, aplicar rotina QualityStage de matching para comparação aproximada do BAIRRO com a tabela DNE_BAIRRO dos Correios |
Padronização Validação Cidade DNE | Padronização Validação Cidade DNE | Efetuar validação da UF e CIDADE com a tabela DNE_CIDADE dos Correios. Para as informações que não forem consistentes, aplicar rotina QualityStage de matching para comparação aproximada da CIDADE com a tabela DNE_CIDADE dos Correios |
Padronização Validação DDD Anatel | Padronização Validação DDD Anatel | Verificar se o DDD é válido na Anatel. Caso os valores não sejam válidos, os mesmos deverão ser anulados |
Padronização Validação DDI Anatel | Padronização Validação DDI Anatel | Verificar se o DDI é válido na Anatel. Caso os valores não sejam válidos, os mesmos deverão ser anulados |
Padronização Validação Nome Logradouro DNE | Padronização Validação Nome Logradouro DNE | Efetuar validação conjunta da UF, CIDADE, BAIRRO e NOME LOGRADOURO com a tabela DNE_LOGRADOURO dos Correios. Para as informações que não forem consistentes, aplicar rotina QualityStage de matching para comparação aproximada do NOME LOGRADOURO com a tabela DNE_LOGRADOURO dos Correios |
Padronização Validação Nome País DNE | Padronização Validação Nome País DNE | Realizar a validação do Nome do País com a tabela DNE_PAIS. Informações que não forem consistentes deve-se inferir Nulo no campo |
Padronização Validação Prefixo Telefone e DDD Anatel | Padronização Validação Prefixo Telefone e DDD Anatel | Verificar se o prefixo do Telefone e DDD são válidos na Anatel a) Para telefones celulares (primeiro digito=9), devemos pegar os 5 primeiros dígitos como prefixo b) Para telefone fixo (primeiro digito 2, 3, 4 ou 5 ), pegar os 4 primeiros dígitos como prefixo Validar o DDD e PREFIXO com a tabela BCR_PREFIXO_ANATEL através dos campos NUMERO_DDD e NUMERO_PREFIXO. |
Padronização Validação Tipo Logradouro DNE | Padronização Validação Tipo Logradouro DNE | Efetuar validação do Tipo de Logradouro com o DNE dos Correios. Validar campo descritivo tipo logradouro na tabela de dominio DNE_TIPO_LOGRADOURO, inferir nulo caso não seja válido |
Padronização Validação UF DNE | Padronização Validação UF DNE | Efetuar validação do campo UF com a tabela DNE_UF dos Correios, as informações que não forem consistentes, inferir Nulo |
No Comments