Orientações sobre Erros de Mensuração


Introdução


Quando fazemos uma pesquisa científica na grande maioria das vezes utilizamos um instrumento de medição para obter observações objetivas das características de nosso elemento de pesquisa.
Ocorre que entre a verdadeira característica do elemento de estudo e o valor que obtemos pelo processo de medição ocorrem diferenças, e estas diferenças são os chamados “Erros de mensuração”.
Existem basicamente 3 fontes de erro de medição:
1. Natural do instrumento de medição
Por exemplo, a precisão de uma balança, um parquímetro ou uma régua. Se uma régua é demarcada em milímetros ela não é capaz de determinar medidas com precisão de décimos de milímetro, logo algo que realmente mede 47,4mm será medido como 47 ou 48mm, havendo assim uma diferença entre o real e o obtido pelo processo de mensuração. Para resolver este problema devemos utilizar instrumentos que atinjam a precisão necessária para nossa pesquisa. Por exemplo, se precisamos de precisão de décimos de milímetro vamos utilizar um paquímetro que tenha esta precisão. Embora ainda vá haver erro entre a verdadeira medida e o que obtemos esse erro estará em nível aceitável para a pesquisa.
2. Variabilidade do elemento a ser medido
Por exemplo, queremos medir a distância inter caninos de um paciente e para isso fazemos uma moldagem em gesso dos dentes do paciente. O modelo de gesso pode sofrer contração ou expansão pelas característica do material ou da temperatura, sendo que mesmo que utilizarmos um instrumento com a precisão necessária, a medida obtida será diferente da real dos dentes do paciente. Outro exemplo seria medir o grau de dor de um paciente, sendo que a dor pode variar dependendo do momento em que é medida.
3. Interferência do avaliador no processo de medição
Como exemplo podemos citar a medida entre dois pontos cefalométricos obtidos em uma telerradiografia. A localização dos pontos na radiografia depende da percepção visual do avaliador, e um avaliador pode localizar os pontos em locais ligeiramente diferentes de outro avaliador. Ou seja, o resultado da mensuração pode depender de que executou a medida.
Por haver estas possibilidades de erro de mensuração é que sempre devemos nos preocupar se o grau do erro envolvido na mensuração não é de tal grandeza que inviabiliza a qualidade de nossa pesquisa.
Uma pergunta que surge é se sempre haverá necessidade de avaliação do erro de medição.
Isto é dependente principalmente do processo de medição que utilizamos na pesquisa. Instrumentos que não permitem interferência subjetiva do avaliador não necessitam de avaliação do erro de mensuração. Basta o pesquisador escolher o instrumento com a precisão necessária para seus objetivos. Por exemplo, se o pesquisador vai pesar uma cobaia e necessita de precisão de 1g, basta ele escolher uma balança que tenha esta precisão, pois ele não terá nenhuma influência no resultado da medição. Basta que ele saiba utilizar o instrumento.
Já se o método de mensuração envolve possíveis erros introduzidos pelo avaliador é importante uma avaliação do erro introduzido pelo método. Podemos citar como exemplo o método de medição em radiografias onde a localização dos pontos é dependente do avaliador.
Para demonstrar a confiabilidade das mensurações podemos utilizar vários procedimentos estatísticos. A confiabilidade pode receber outras terminologias de acordo com o método estatístico utilizado, entre elas estão: reprodutibilidade, precisão, variabilidade, concordância, consistência, estabilidade e “erro de mensuração”.
A melhor maneira de se avaliar o “erro de mensuração” é executar repetições das medições nos mesmos elementos para verificar o grau de reprodutibilidade das mesmas. Quando o mesmo avaliador repete as mensurações calculamos o chamado “erro intra-avaliador”, já quando a repetição se dá por avaliadores diferentes chamamos “erro inter-avaliador”. A condição básica para a avaliação do erro é que a repetição da medida deve se dar nas mesmas condições, na repetição intra-avaliador deve-se aguardar um tempo entre as repetições para que não haja retenção na memória da medida anterior, e um avaliador não deve saber o resultado da mensuração do outro, na avaliação inter-examinador (MOKKINK at al, 2010).
Quanto os tipos de erros envolvidos devido a interferência do avaliador classificamos como “erro sistemático” e “erro casual”. O erro sistemático é o erro que ocorre quando se repete a mensuração de vários elementos e o valor obtido é sistematicamente maior, ou menor, do que a primeira mensuração. O erro casual é o quanto o valor mensurado varia aleatoriamente, para mais ou para menos, entre as repetições das mensurações.
Nesta etapa de desenvolvimento do sistema pretende-se proporcionar cálculo de erro de mensuração baseado nos procedimentos estatísticos para o tipo de variável quantitativa (VISWANATHAN, 2005):

Erro de Dahlberg

Este método faz uma estimativa do erro casual utilizando a fómula

Erro² = Σd²/2n

Onde d é a diferença entre duas repetições da mesma medida no mesmo elemento e n é o número de elementos utilizados para avaliar o erro. O valor obtido é na mesma unidade do instrumento de medição e é uma estimativa do erro usual ao medir um elemento pelo método de medição que está sendo avaliado. Não é um teste de significância estatística e, portanto, não existe valor padrão de tamanho de erro aceitável ou não. É o pesquisador que tem de avaliar se a grandeza do erro está em um nível aceitável ou não.


Teste t pareado

É um teste estatístico que avalia se há erro sistemático entre a primeira e a segunda medição dos elementos. Ele faz a comparação das médias da primeira e segunda avaliação. Se der estatisticamente significante (p<0,05) consideramos que há erro sistemático entre as repetições.


Coeficiente de correlação de Pearson

É uma medida de erro casual, mas não fornece a dimensão do erro. Por isso não tem sido muito utilizada, sendo preferível se utilizar o Coeficiente de Correlação Intraclasse (CCI).
O resultado varia de -1 a +1, sendo que quanto mais próximo de 1 menor o erro casual entre as repetições. Alguns autores fazem uma classificação do grau de correlação em função do valor obtido.

Correlação Interpretação
0,9 a 1,0 Correlação muito forte
0,7 a 0,9 Correlação forte
0,5 a 0,7 Correlação moderada
0,3 a 0,5 Correlação fraca
0,0 a 0,3 Correlação desprezível
Hinkle et al (2003)


CCI (Coeficiente do Correlação Intraclasse)

Também faz a correlação entre as repetições porém faz uma avaliação da combinação entre os erro casual e o erro sistemático. O resultado varia de 0 a 1 e quanto mais próximo de 1 menores sò os erros sistemáticos e casuais.
Aqui também alguns autores sugerem valores para interpretação dos resultado.

CCI Interpretação
0,75 a 1,00 Excelente
0,40 a 0,75 Moderado
0,00 a 0,40 Pobre
Fleiss (1986)


Método de Bland & Altman

Também chamado de limites de Bland & Altman fornece uma avaliação descritiva do erro casual e do erro sistemático. O chamado “viés” de medição é dados pela média das diferenças entre as repetições (avaliação do erro sistemático). Ainda são calculados os limites inferior e superior dos erro que delimitam uma faixa onde 95% das diferenças entre as repetições ocorrem.
Utiliza-se também fazer uma representação gráfica dos erros individuais de cada elemento repetido representados por um ponto,a linha do erro médio (viés), e as linhas dos limites inferior e superior.


ANOVA (Análise de Variância) para medidas repetidas

Utilizada para avaliar o erro sistemático
É um teste estatístico que avalia se há erro sistemático quando temos mais do que duas repetições. Ele faz a comparação das médias das repetições. Utilizado principalmente quando queremos avaliar o erro tendo vários avaliadores repetindo as medições. Se der estatisticamente significante (p<0,05) consideramos que há erro sistemático entre as repetições.


Porcentagem de concordância

A porcentagem de concordância é utilizada para determinar a concordância entre dois avaliadores quando a mensuração é em uma escala qualitativa. P.ex. a classificação da forma da face de uma pessoa em “Oval, Retangular, Redonda e Triangular”. O valor obtido é a proporção de vezes em que os dois avaliadores classificaram exatamente na mesma categoria os elementos avaliados. Varia de 0 a 100%.
A crítica a esse modelo de avaliação da concordância é que parte da concordância pode se dar por mero acaso. Se dois avaliadores “chutassem” a classificação de um dente como cariado, ou não cariado, eles teriam 50% de chance de concordarem por mero acaso. Por isso a utilização da porcentagem de concordância é uma referência, mas não uma boa medida da concordância entre avaliadores.


Kappa

Assim como a porcentagem de concordância a estatística kappa é utilizada para determinar a concordância entre dois avaliadores quando a mensuração é em uma escala qualitativa. Sua vantagem sobre a porcentagem de concordância é que, em seu cálculo, da concordância total obtida é subtraída a concordância que pode ocorrer por mero acaso.
Seu valor varia de -1 a +1, sendo que o valor zero é obtido quando a concordância total entre os avaliadores foi igual a concordância esperada por mero acaso. Valores negativos indicam que a concordância foi abaixo do esperado por mero acaso, e valores acima de zero expressam a concordância acima do mero acaso.
Existe sugestões de alguns autores para a interpretação dos valores obtidos.
Tabela para interpretação do valor de kappa segundo Landis & Koch (1977).

kappa Strength of Agreement
<0.00 poor
0.00–0.20 slight
0.21–0.40 fair
0.41–0.60 moderate
0.61–0.80 substantial
0.81–1.00 almost perfect


Kappa Ponderado

Quando se utiliza o kappa qualquer discordância tem o mesmo peso no cálculo. Assim, se um avaliador classificou uma face como Oval e um segundo avaliador como Triangular esta discordância tem o mesmo peso do que se o segundo avaliador tivesse classificado como Redonda. Nesse exemplo faz todo sentido qualquer discordância ter o mesmo peso.
Entretanto, quando se utiliza uma escala de classificação ordinal o tipo de discordância pode ter peso diferente. P.ex. se classificarmos a qualidade de uma restauração dentária em Ruim, Aceitável e Ótima quando um avaliador diz que uma restauração é Ruim e outro diz que é Aceitável essa discordância é menos grave do que se o segundo avaliador tivesse classificado como Ótima.
O kappa ponderado dá peso diferente de acordo com a “distância” da discordância em uma escala qualitativa ordinal. As formas de ponderar esse peso diferente mais utilizadas são a variação linear ou a quadrática. Na linear os pesos das discordâncias são igualmente distribuídos ao longo da escala, já na quadrática o peso é proporcional ao quadrado das distâncias.
Assim como o kappa não ponderado o kappa ponderado resulta em valores de -1 a +1, e sua interpretação segue a mesma lógica.


Coeficiente de correlação de Spearman

Assim como o coeficiente de correlação de Pearson, é uma medida de erro casual, que não fornece a dimensão do erro. Utiliza-se quando a mensuração é feita em uma escala qualitativa ordinal.
O resultado varia de -1 a +1, sendo que quanto mais próximo de 1 menor o erro casual entre as repetições. A interpretação dos valores segue a mesma lógica do coeficiente de correlação de Pearson.


Coeficiente de concordância de Kendall (W)

É uma medida para verificar o grau de associação entre mais de dois avaliadores quando se utiliza uma escala qualitativa ordinal. Seu resultado varia entre 0 e 1, sendo que quanto mais próximo de 1 mais perfeita é a associação entre os avaliadores.


Teste de Wilcoxon

É um teste estatístico que avalia se há erro sistemático entre a primeira e a segunda medição dos elementos, quando a mensuração é feita em uma escala qualitativa ordinal. Ele faz a comparação da distribuição de valores da primeira e segunda avaliação. Se der estatisticamente significante (p<0,05) consideramos que há erro sistemático entre as repetições.