Digamos que gostaríamos de saber se um candidato é ou não adequado para uma vaga a partir de um processo seletivo baseado em medidas psicológicas (comportamentais ou de percepções). Como podemos saber se as medidas que desejamos utilizar são ou não adequadas para o nosso objetivo?
A partir dos fundamentos da metrologia, a área da ciência que estuda o desenvolvimento de medidas, pesquisadores em psicometria desenvolveram métodos que nos permitem averiguar o quão “boas” ou “ruins” são medidas de processos psicológicos. Para isso, é necessário avaliar a validade e a fidedignidade das medidas.
Se você não conhece a psicometria e quais os seus fundamentos, veja os dois primeiros textos dessa série: “É possível mensurar fenômenos psicológicos?” e “Os fundamentos da mensuração psicológica”.
A validade e fidedignidade de um teste
A validade de um teste ou questionário representa o quanto uma medida psicológica mede a variável latente para o qual ele foi construído para mensurar.
Por exemplo, digamos que você deseje saber qual é o seu peso. Ao encontrar uma balança, você sobe nela e espera pelo resultado. Quando o resultado está pronto, ele indica que você 1,70 metros de altura. Nesse caso, podemos dizer que a balança que você utilizou não apresenta validade para mensurar o seu peso, dado que o resultado que ela gera tem, na verdade, a ver com a sua altura.
Dessa forma, a Associação Americana de Psicologia, a Associação Americana de Pesquisa Educacional e o Conselho Nacional de Mensuração na Educação dos Estados Unidos sugeriram, em seu manual conjunto nomeado de “Normas para testes educacionais e psicológicos”, que a validação de um instrumento é um processo que provê bases científicas robustas para se interpretar as notas, escores ou índices numéricos gerados por um teste ou questionário.
Isso significa que nunca é possível estabelecer a validade de um instrumento, mas sim de suas aplicações. Em outras palavras, ao se identificar que uma aplicação do instrumento tem validade, isso não significa que o instrumento em si seja válido. No entanto, caso após diversas aplicações do instrumento sejam encontradas repetidas evidências de validade, é razoável assumir que os escores gerados por um teste, de fato, refletem a variável latente que se pretende medir.
Tipos e evidências de um instrumento
Uma consequência da conceituação de validade é que, ao invés de se falar da ausência ou presença da validade de um instrumento, é mais adequado falar em quais tipos de evidências de validade o instrumento apresenta.
O manual “Normas para testes educacionais e psicológicos” estabelece que há cinco tipos de evidências de validade.
- Primeiro tipo: engloba as evidências baseadas no conteúdo do teste. Essas evidências estão relacionadas com a relação que o conteúdo semântico dos itens tem com a variável latente que se deseja mensurar. Por exemplo, se queremos construir um teste para saber o quanto os trabalhadores de uma organização estão alinhados com os valores da organização, não faria sentido perguntar “o quanto você gosta de consumir água?”.
- Segundo tipo de evidências de validade: engloba aquelas baseadas em processos de resposta. Por exemplo, em um item usado para mensurar o conhecimento em matemática e que consiste de múltiplas alternativas de resposta é possível pedir que o respondente, além de marcar a resposta que ele julga como correta, também descreva como ele chegou na resposta que julga como correta.
- Terceiro tipo: engloba aquelas baseadas na estrutura interna. “Estrutura interna” se refere há como as respostas observadas aos itens se relacionam com a variável latente que se pretende mensurar. Os procedimentos utilizados para averiguar esse tipo de evidência são de natureza estatística, como a análise fatorial e a teoria de resposta ao item. Embora a explicação detalhada desses procedimentos esteja muito além do que podemos discutir aqui, é suficiente dizer que esses procedimentos permitem concluir, a partir de uma coleta científica de dados, quantos variáveis latentes são mensuradas, de fato, pelos nossos testes e questionários*.
- Quarto tipo: são aquelas baseadas em relações com outras variáveis. Esse tipo de evidências é um dos mais fundamentais, dado que ele permite concluir que o teste ou questionário dá resultados similares com outro teste ou questionário que buscas medir a mesma variável latente. Por exemplo, digamos que queremos saber se um indivíduo tem ou não tem depressão. Digamos também que estamos usando dois testes para avaliar esse indivíduo. Se um teste diz que o indivíduo não tem depressão, mas o outro diz que o indivíduo tem depressão, então podemos dizer que não se encontrou evidências de validade baseadas em relações com outras variáveis para as duas medidas.
- Quinto e último tipo: são aquelas baseadas nas consequências dos testes. Por exemplo, um teste educacional que permite identificar fragilidades de aprendizagem atende às consequências desejadas de um programa educacional que tem como objetivo melhorar o desempenho dos estudantes em testes de larga-escala internacionais. Por outro lado, um teste educacional de larga-escala que tem um escopo limitado de avaliação (por exemplo, que avalia apenas o conhecimento em Português e em Matemática) tem como consequência indesejada incentivar que se ensine apenas os conteúdos que caem na prova, penalizando o ensino dos conhecimentos que não são avaliados pela prova.
*Se quiser conhecer mais sobre os procedimentos de análise de dados em psicometria, sugerimos a leitura do livro “Tutoriais em análise de dados aplicados à psicometria”, organizado por Cristiane Faiad de Moura, Makilim Nunes Baptista e Ricardo Primi e com capítulos de autoria por diversos pesquisadores brasileiros da área de psicometria.
Ou seja...
Finalizamos este texto definindo a fidedignidade como a consistência geral da medida gerada a partir de um teste ou questionário.
De forma geral, podemos dizer que a consistência geral, ou fidedignidade, está relacionada à quantidade de erro aleatório de uma medida. O “erro aleatório” está relacionado com fatores não sistemáticos que afetam uma medida. Por exemplo, suponha que você deseja mensurar o comprimento de uma barra de ferro. Caso façamos três mensurações por dia durante um ano usando uma mesma régua feita de madeira.
É bem possível que, ao longo do ano, observemos que a barra de ferro tenha mudado de tamanho, dado que barra de ferro expande ou contrai a depender da temperatura do dia e horário que ocorreu a mensuração.
De forma similar, por exemplo, se quisermos ter maior certeza sobre a magnitude da capacidade de um indivíduo em realizar uma determinada tarefa, podemos fazer diversas medidas da sua competência. Justifica-se assim mais uma vez o porquê de medidas psicológicas não serem baseadas em um único item.
Caso queiramos ter maior fidedignidade em nosso teste ou questionário, o ideal é que o instrumento consista em um conjunto de itens que, apesar de refletirem a mesma variável latente, sejam variados em seu conteúdo e nas expressões comportamentais possíveis da variável latente que se pretende mensurar.
Entre em contato com um de nossos consultores através de nosso site ou Whatsapp e saiba mais sobre a Rankdone!