Especialistas analisam estudo que sugere queda em matemática em razão da obrigatoriedade de sociologia e filosofia no ensino médio • Portal Iede

Por Ernesto Martins Faria e Raquel Guimarães, para o QEdublog*

Nesse texto analisaremos o estudo Efeitos da Inserção das Disciplinas de Filosofia e Sociologia no Ensino Médio sobre o Desempenho Escolar, realizado por Thais Niquito e Adolfo Sachsida, a primeira bolsista e o segundo pesquisador do Instituto de Pesquisa Econômica Aplicada (Ipea), que causou furor entre educadores e parte da comunidade acadêmica ao ter seus resultados divulgados em reportagem do jornal Folha de S. Paulo.

De partida, cabe destacar a cordialidade e o espírito acadêmico dos pesquisadores, que se disponibilizaram prontamente a conversar conosco sobre o estudo, inclusive nos enviando as bases de dados que analisaram. Considerando a grande importância de transparência e replicabilidade dos estudos empíricos, cabe nosso agradecimento aos autores pela postura exemplar.

O referido estudo, baseado em um desenho de pesquisa quantitativo, buscou inferir em que medida a Lei nº 11.684/2008, que tornou obrigatória as aulas de Sociologia e Filosofia no Ensino Médio, impactou os resultados dos estudantes no Exame Nacional do Ensino Médio (Enem). Trata-se, portanto, de um desenho de pesquisa em que se busca inferir relações de causalidade. No texto, os autores explicitam que a direção do efeito poderia ser tanto positiva (a medida poderia melhorar o desempenho dos estudantes ao aprimorar seu entendimento das questões da sociedade e da cidadania) ou negativa (mantendo fixo o tempo para o desenvolvimento do currículo, a inserção de novas disciplinas “competiria” com as demais, ou seja, haveria uma redução no tempo de instrução das disciplinas já existentes, com impactos negativos sobre o desempenho).

Para verificar o efeito causal da referida Lei, não é possível utilizar os chamados métodos experimentais. De forma simples, esses métodos permitem a avaliação do efeito causal de uma intervenção (por exemplo, a Lei) sobre o desempenho dos estudantes mediante uma exposição aleatória, por exemplo, mediante sorteio. Em política pública, são raras as possibilidades desse tipo de intervenção em larga escala. No exemplo em questão, seria necessário garantir que, de forma aleatória, alguns alunos tivessem inseridos em uma escola em que as disciplinas fossem obrigatórias e outros alunos não.

Para contornar essa impossibilidade, Niquito e Sachsida utilizam os chamados métodos quase-experimentais, que buscam simular experimentos. Trata-se também de uma maneira rigorosa e altamente valorizada pelos economistas da avaliação de impacto, e uma metodologia crível para se estimar “efeitos causais” para subsidiar políticas públicas.

Apesar do pretendido rigor estatístico e econométrico, como será argumentado adiante, o estudo apresenta fragilidades que impedem com que os resultados reportados sejam generalizados e utilizados como base para recomendações de política pública.

Dos problemas do estudo

Para responder à questão de pesquisa, os autores lançam mão, num primeiro momento, de um “quase experimento” denominado “diferenças em diferenças”, a partir de dados do Enem de 2009 e 2012. Esse método para a estimação do efeito causal da Lei nº 11.684/2008 sobre o desempenho dos estudantes somente seria aplicável, por pressuposto, se o grupo de tratamento (afetado pela Lei) e o grupo controle estivessem apresentando, ao longo do tempo, a mesma tendência de crescimento (ou decrescimento) em seu desempenho escolar na ausência da medida. Em outras palavras, seria esperado que ambos os grupos tivessem evoluções semelhantes na ausência da Lei.

Temos, então, a primeira fragilidade do artigo: não existem séries históricas longas disponíveis do Enem para testar o pressuposto do modelo econométrico escolhido. Na verdade, o ano de 2009 foi o primeiro em que o Exame se utilizou da metodologia de Teoria de Resposta ao Item (TRI). Trata-se, portanto, de um importante problema da análise. Os métodos econométricos para subsidiar políticas públicas podem (e devem) ser utilizados, mas somente se os pressupostos desses modelos são satisfeitos. Caso contrário, não se pode validar as estimativas (e as conclusões) encontradas.

Prosseguindo com essa abordagem, o estudo considera como grupo “tratamento” aquele composto por alunos que cursaram o Ensino Médio em um período de até três anos antes do Enem. Seguindo esse raciocínio, os autores assumem que, em 2009 (linha de base do estudo), grande parte do grupo tratado (estudantes com inclusão de Filosofia e Sociologia no currículo) não teria recebido o tratamento, enquanto em 2012 (após a implantação da Lei) uma maior proporção desse grupo tratado teria cursado as disciplinas. Por sua vez, os autores estabelecem que o grupo controle seria composto por alunos que cursaram o Ensino Médio há mais de três anos antes da realização do exame e, portanto, esses estudantes não teriam sido afetados pela obrigatoriedade das disciplinas nas grades curriculares.

Considerando a estratégia metodológica, os autores assumem que, em 2009 e em 2012, os estudantes do grupo tratamento e controle devem ser similares em termos das características socioeconômicas e demográficas, bem como das características não observadas, como a habilidade inata e a motivação. Temos então a segunda fragilidade do estudo. As estatísticas revelam que, nos anos recentes, um maior número de estudantes com baixo desempenho e que frequentava o Ensino Médio passou a fazer o Enem, tendo em vista as maiores chances de ingresso no ensino superior devido à expansão do Sistema de Seleção Unificada (Sisu) e do Fundo de Financiamento Estudantil (Fies). Ainda que os autores tentassem dar conta desse problema, comparando estudantes similares em termos das características socioeconômicas e demográficas, não há como controlar as características não observáveis desses estudantes, como a motivação e os objetivos de carreira, por exemplo, sejam similares. Deste modo, é muito provável que, em 2009, havia menos estudantes interessados em cursar o ensino superior do que em 2012, sendo esse um exemplo de característica não-observada que pode ter afetado de forma diferente o grupo de tratamento e o grupo de controle.

Reconhecendo algumas limitações dos pressupostos que utilizaram no método de diferenças em diferenças e, para confirmar sua hipótese sobre o efeito causal da Lei, os autores realizam um segundo teste empírico com base na estimação de um painel para dados agregados dos alunos por escola. Eles buscaram comparar em que medida o aumento da oferta de disciplinas de Filosofia e Sociologia nas escolas brasileiras afetou as notas médias dos alunos por escola no Enem, controlando-se por diversos fatores individuais e escolares.

Temos então a terceira fragilidade desse estudo. Não é adequado extraírem-se conclusões para estudantes quando são utilizados dados do desempenho médio por escola. Trata-se do problema da falácia ecológica, em que não necessariamente um resultado estimado em nível agregado representa o resultado verdadeiro que seria observado para o estudante. Dessa forma, ainda que os autores estivessem apenas interessados na análise da robustez dos resultados, não acreditamos que tal exercício tenha poder de confirmar suas inferências.

Ainda na estimação com base em dados em painel, chamou nossa atenção o tamanho dos efeitos estimados e sua significância estatística: quando os autores controlam sua análise pelas características dos alunos e das escolas, poucos resultados se mostraram estatisticamente significantes (os próprios autores reconhecem isso) e, quando o foram, os efeitos foram extremamente pequenos sobre as notas do Enem, sendo essa a quarta fragilidade do estudo. Por exemplo, os autores mostram que, em média, o aumento de 1 ponto percentual na oferta das disciplinas de Filosofia e Sociologia esteve associado a um resultado menor no Enem em redação de 0,074 pontos. Assumindo-se que o pressuposto dos modelos de dados em painel foi atendido, ou seja, o de que o controle foi feito pelas principais características associadas aos resultados no exame, tal efeito é marginalmente insignificante para a avaliação de impacto da Lei nº 11.684/2008. É ainda mais grave que os autores tenham estimado esse modelo para o desempenho dos alunos em redação, sendo que as notas não são comparáveis no tempo.

Da boa prática científica: interprete com cuidado seus resultados e construa seu modelo a partir da literatura existente

Por fim, é necessário ressaltar que, como em qualquer estudo científico, é necessário, antes da aplicação do método econométrico em si, um rigor teórico na delimitação dos conceitos e efeitos de confundimento (ou variáveis que podem afetar a análise). Falta ao referido estudo um arcabouço conceitual que defina os mecanismos causais entre as variáveis de causa (ampliação da oferta de sociologia e filosofia e tempo reduzido de exposição de conteúdo nas disciplinas tradicionais) e efeito (o desempenho em avaliações externas). Esse arcabouço conceitual e analítico é definido por meio de uma revisão sistemática da literatura educacional que trata dos efeitos do uso do tempo em sala de aula, do conteúdo ministrado, do efeito-escola, da formação dos professores de Filosofia e Sociologia e de seu treinamento, das avaliações externas e de como a concorrência entre disciplinas em uma grade horária fixa influenciaria esses resultados. É provável que a ausência de um arcabouço conceitual e mapeamento dos mecanismos causais no estudo em questão tenha afetado a qualidade das suas conclusões, pelo menos pelo que pudemos avaliar da revisão de literatura apresentada pelos autores.

Aprendizados e considerações

Pesquisadores que utilizam métodos para a avaliação de impacto de políticas públicas, na ausência de um desenho experimental, precisam adotar premissas e hipóteses que influenciam a credibilidade dos resultados. Não é por acaso que as publicações acadêmicas de grande prestígio valorizam estudos que apontam a consistência de seus resultados a partir de diferentes métodos/hipóteses, sendo o teste dessas hipóteses indispensável.

No estudo analisado, os pesquisadores tomaram decisões metodológicas que comprometeram de forma importante a validade das conclusões. Cabe ressaltar, no entanto, que embora apontemos nesse texto importantes fragilidades metodológicas, a pesquisa realizada não foi uma análise de correlação, tal como levantado nas redes sociais nos últimos dias. Está claro pelo texto publicado que os autores buscaram utilizar estratégias para fazer inferências causais. O que buscamos apontar aqui é que, ao buscar um efeito causal, os autores falharam, na medida em que tal impacto encontrado não é crível, dado o desenho metodológico.

Finalmente, acreditamos que faltou um olhar mais rigoroso dos autores do ponto de vista da divulgação dos resultados empíricos e da exposição de suas fragilidades e limitações, em especial considerando a sua veiculação no jornal Folha de S. Paulo, bem como a importância do assunto analisado pelo estudo, que traz questões de pesquisa importantes para o debate atual. Compreendemos, portanto, o incômodo de parte da comunidade escolar e acadêmica com os resultados do estudo. Inferências causais precisam ser testadas e validadas cientificamente antes de serem objeto de apreciação pela população.

*Ernesto Martins Faria é diretor executivo do Interdisciplinaridade e Evidências no Debate Educacional (Iede) e doutorando em Organização do Ensino, Aprendizagem e Formação de Professores na Universidade de Coimbra;

Raquel Guimarães é professora e pesquisadora de Economia e Demografia da Educação na Universidade Federal do Paraná. É membro da Comissão Assessora de Especialistas para Avaliação de Políticas Educacionais do Inep.

Esse texto foi originalmente publicado no QEdu Blog