Psychiatry on line Brazil

PSIQUIATRIA E ESTATÍSTICA V: VALIDAÇÃO DE PROCEDIMENTOS DIAGNÓSTICA PELA CURVA R.O.C.

O método da curva ROC foi originalmente desenvolvido para avaliar a capacidade de operadores de radar em decidir se uma mancha na tela representava um alvo inimigo (um avião ou um navio) ou uma nave aliada, ou se era um ruído. De fato, ROC é a sigla para “Receiver Operating Characteristic”, que pode ser traduzido livremente como “eficiência do operador de recepção de sinais”. Trata-se, portanto, de uma medida da capacidade de um observador classificar corretamente um dado dentro de uma chave dicotômica.

Esta capacidade de distinguir uma informação corretamente é de fundamental importância em muitos setores da atividade humana, incluindo aqui a medicina, que passa agora a ser assunto deste artigo. Podemos assim determinar se um método diagnóstico (um teste de laboratório, um questionário, uma equipe clínica, etc) é confiável ou não, e em que grau. A partir da década de 1970 ficou demonstrada a grande utilidade do método da curva ROC para as Ciências Médicas.

Nem sempre acertamos 100% um diagnóstico clínico, e o mesmo é verdade para um teste diagnóstico (bioquímico imunológico, imagem, questionário, etc), ou qualquer outro procedimento usado para triagem de doenças na população. O grau de acerto consiste na probabilidade de diagnosticar corretamente uma doença ou condição na população, parâmetro que se define como sensibilidade, quantificado como a razão entre o diagnóstico positivo verdadeiro para a condição, e o total de casos (positivo e negativos verdadeiros) diagnosticados. Associado a este parâmetro existe outro que serve de contra-prova, a especificidade, definida como a probabilidade de diagnosticar negativamente um caso que, de fato, não tenha a doença, ou seja, a razão entre os casos diagnosticados como não tendo a doença pelo total de todos os casos diagnosticados (positivos e negativos).

Percebe-se que a sensibilidade e a especificidade são probabilidades que medem a capacidade de acerto diagnostico de um classificador, portanto, um valor entre zero e um. Ambos integram o critério conhecido como validade, o grau em que o teste ou procedimento identifica aquilo que foi projetado para identificar. Claro está que a sensibilidade e a especificidade de um teste ou procedimento devem ser altos, embora não necessariamente iguais, para que tenha validade diagnóstica. Disto se conclui que qualquer teste ou procedimento devem ser validados para que possam ter confiabilidade, e isto se baseia em compará-lo com amostras previamente classificadas com grande precisão.

A validade de um diagnóstico está na capacidade do operador detectar o maior número possível de acertos (resultados positivos verdadeiros) e minimizar os erros (falsos resultados positivos). Em outras palavras, maximizando a sensibilidade e minimizando os falsos diagnósticos positivos. Isto é convenientemente avaliado pela curva ROC, registrando-se todos os valores de sensibilidade (a proporção de acertos verdadeiros) no eixo y, contra os valores correspondentes à proporção de falsos acertos (calculados como 1 - especificidade), no eixo x.

Considere o exemplo de um serviço de atenção primária à saúde com médicos capacitados para diagnosticar depressão maior na população de usuários do serviço. Estes médicos foram treinados por um psiquiatra experiente e acompanhados por algum tempo, e também aprenderam a usar um breve questionário para detectar depressão (ver, p. ex., Câmara, 2004). Para saber qual o método mais acurado, o psiquiatra os médicos em dois grupos: o grupo 1 diagnosticava depressão maior apenas clinicamente e o grupo 2 aplicava um questionário e o comparava com a entrevista. Um grupo de 100 pacientes foi examinado por ambos os grupos e os resultados eram avaliados pelo psiquiatra. O resultado foi registrado em uma curva ROC ilustrada abaixo, e os números entre parênteses indicam a área do gráfico sob a curva.

A área sob a curva ROC é um indicador importante porque nos fornece uma medida da precisão total independente de um limiar particular. O valor da área abaixo da diagonal (0,5 ou 50%) não tem validade, pois, os acertos e erros entram na mesma proporção e são devidos ao acaso (como no jogo de uma moeda). Um valor igual a 1,0 ou 100% não chega a ser alcançado, pois, sempre há superposição na distribuição das proporções dos grupos. No gráfico abaixo vemos a área abaixo da curva para o grupo 2 foi 0,83 (83%) da área do gráfico) contra 0,69 (69%) do grupo 1. Isto significa que para um grupo de clínicos homogeneamente treinados no diagnostico da depressão maior, os que usavam um questionário como instrumento auxiliar tinha maior índice de acerto que o que diagnosticava a partir da entrevista, sendo preferível usar o instrumento para o diagnóstico. O resultado pode ainda ser submetido a um teste de qui-quadrado para estimar a significância da diferença.

Note que quanto mais os resultados estão próximos do canto superior esquerdo do gráfico, maior a sensibilidade e menor proporção de falsos positivos, sendo o teste mais preciso.

Entretatno, não é preciso comparar um teste com outro para se avaliar se um determinado procedimento é confiável ou não. Usa-se a seguinte estimativa para se avaliar a precisão de um teste ou da capacidade de identificar corretamente uma condição usando curva ROC:

· Acima de 0,9 = Excelente

· 0,8 – 0,9 = Bom

· 0,7 – 0,8 = Regular

· 0,6 – 0,7 = Ruim

· 0,5 – 0,6 = Reprovado

Podemos igualmente construir uma curva ROC a partir de dados clínicos usados para predizer se uma determinada doença está presente ou não. Isto é especialmente útil em psiquiatria quando se deseja valorizar determinados critérios para um diagnóstico, como também na clínica geral. Um exemplo bem conhecido desta abordagem foi o estudo de Wigton et al (1986) usando quatro critérios clínicos para se prever amigdalites estreptocócicas sem necessidade de cultura e testes bacteriológicos. Esses autores usaram como critérios preditores a presença de exsudato tonsilar, febre, adenopatia e ausência de tosse. A área sob a curva ROC mostrou que a precisão era de 0,73, portanto, regular o suficiente para um razoável grau de acerto a um simples exame clínico, com considerável redução de custos e de tempo.

O significado da área sob a curva ROC é claro: ela é uma medida da capacidade discriminativa de um teste, isto é, a capacidade de um teste classificar corretamente aqueles com e sem a doença. Em outras palavras, se sortearmos ao acaso um caso com a doença e outro sem a doença da população, a área sob a curva nos dá a probabilidade de classificarmos corretamente este par.

Há dois métodos para se computar a área sob a curva: paramétrico (quando a curva é suave) ou não-paramétrico (quando a curva se faz em degraus), cujos cálculos complicados fogem ao objetivo deste artigo (para isto, veja Metz, 1978). Importa saber que a curva ROC pode ser construída a partir de pacotes estatísticos onde ela está disponível para computador. Estes pacotes estatísticos calculam as áreas e o erro padrão, que pode ser usado para fazer comparações entre diferentes testes ou o mesmo teste em diferentes populações de pacientes.

Referências

Câmara, FP. A PHQ: Questionário breve para detectar as cinco condições psiquiátricas mais prevalentes em serviços de atenção primária à saúde. Psychiatry On-line Brazil, vol.9 n^o 10 (Outubro), 2004. (Acessado em 19.04.09).

http://www.polbr.med.br/arquivo/artigo1004a.htm

Metz CE. Basic principles of ROC analysis. Sem Nuc Med, 1978; 8: 283-298.

Wigton RS, Connor JL, Centor RM. Transportability of a decision rule for the diagnosis of streptococcal pharyngitis. Arch Intern Med, 1986; 146: 81-83.