VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 A experiência da avaliação em larga escala do ensino público fundamental no estado da Bahia Lys Vinhaes 1. O Contexto O movimento internacional em favor da educação, facilmente observado através da leitura de declarações produzidas em conferências mundiais como a de Jomtien ou a de Dakar, aponta tendências que têm influenciado diretamente o sistema educacional brasileiro. Neste, é possível observar consenso das três esferas governamentais (federal, estadual e municipal) em torno da importância estratégica da educação, tanto para o exercício da cidadania, quanto em direção ao fortalecimento do capital humano para o desenvolvimento sustentável. Nessa ótica, o maior compromisso tem sido assegurar educação fundamental aos jovens brasileiros, especialmente na faixa de 07 a 14 anos. Situado no nordeste brasileiro, uma região onde os índices educacionais tendem a mostrar-se abaixo da média nacional, o estado da Bahia praticamente garantiu esse acesso à educação. Em 1999, sua taxa de atendimento aos jovens de 07 a 14 anos ultrapassou 95% e ações foram implementadas para que 100% da população nessa faixa etária fosse atendida. Os números de alunos matriculados impressionavam: 3.702.727 matrículas iniciais no ensino fundamental, das quais 1.283.338 na rede estadual, espalhadas em 27.173 escolas (2.221 estaduais e 23.079 municipais), localizadas em 417 municípios baianos. Entretanto, o fato de a grande maioria dos jovens estar matriculada na escola não quer dizer, necessariamente, que permaneça na escola. Ainda em 1999, a matrícula inicial no ensino médio – 504.554 alunos (378.967 na rede estadual) - indicava claramente que boa parte dos estudantes deixava os estudos antes de completar a educação básica (composta por três níveis: educação infantil, ensino fundamental e ensino médio). Os indicadores de mobilidade e rendimento escolar no próprio ensino fundamental mostravam que 16,4% dos estudantes tinham abandonado a escola durante o ano letivo de 1999 e que apenas 69,4% foram aprovados. A taxa de aprovação dá uma medida da eficácia do sistema educacional , mas certamente não indica a qualidade da educação que está sendo oferecida. Embora o Ministério da Educação, em seus Parâmetros Curriculares Nacionais (PCN, volume 1, Introdução, pg.13), oriente os integrantes do sistema para que os estudantes tenham “acesso à totalidade dos bens públicos, entre os quais o conjunto de conhecimentos socialmente relevantes”, o desempenho dos alunos baianos em aplicação de provas do Sistema Nacional de Avaliação da Educação Básica (SAEB), por exemplo, mostrava o quão distante a Bahia estava de patamar satisfatório. Foi nesse contexto que o Governo do Estado, através da sua Secretaria da Educação (SEC), lançou um programa de trabalho, denominado Programa Educar para Vencer, implementado através de seis projetos prioritários, com o objetivo de melhorar a qualidade do ensino. Esses projetos se desenvolveram de maneira articulada para dar apoio às unidades escolares. Suas linhas de ação visavam à profissionalização da gestão, autonomia das escolas, correção do fluxo e articulação das ações educacionais das redes públicas estadual e municipal. As responsabilidades de cada um foram definidas da seguinte maneira: o Projeto de Fortalecimento da Gestão Escolar e o Projeto de Gestão Municipal lidavam mais diretamente com a profissionalização da gestão educacional, a autonomia escolar e a articulação entre as redes; os Projetos de Regularização de Fluxo (de 1ª a 4ª séries e de 5ª a 8ª séries) concentravam seus esforços no combate à distorção série x idade; o Projeto de Certificação VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 Profissional estava direcionado para, em um primeiro momento, a certificação dos dirigentes (com a conseqüente definição do “padrão mínimo” de competências e habilidades desejáveis para os cargos de direção) e o sexto projeto, chamado Projeto de Avaliação Externa, deveria tratar da avaliação do ensino público. Esse documento apresenta a experiência de implementação do Projeto de Avaliação Externa nos seus quatro primeiros anos, de 1999 a 2003. 2. O Projeto de Avaliação Externa – da vontade política para a ação Assim como o movimento internacional em prol da qualidade na educação, o levantamento do desempenho de alunos como meio para a avaliação de escolas e dos sistemas de ensino tinha se tornado comum em muitas regiões do mundo. As ações nesse sentido tiveram início no Brasil no final da década de 80 e evoluíram para a criação do SAEB no início dos anos 90. O sucesso dessa experiência ajudou a difundir uma cultura de avaliação em larga escala, mas dada à necessidade de obter informações menos agregadas, muitos estados brasileiros criaram seus próprios sistemas de avaliação, administrando seus testes de forma censitária. Seguindo essa tendência, a Bahia optou por implementar um sistema de avaliação próprio que, em última análise, seria a contrapartida para a autonomia escolar e viria a assumir o papel de prover diagnóstico do ensino público relacionado à qualidade de ensino. Em um primeiro momento (agosto de 1999), as expectativas para o Projeto de Avaliação Externa foram levantadas: a) o projeto seria implementado a partir de duas linhas de atuação: uma, mais voltada para o apoio à gestão de sistema, com freqüência anual, e a outra, direcionada para dar suporte ao professor, teria aplicação bimensal; b) tanto para uma como para a outra, havia necessidade de coleta de informações sobre o domínio de competências e habilidades em cinco disciplinas, em todas as séries do ensino fundamental; c) através do projeto, as escolas estariam prestando contas à sociedade; d) os projetos de combate à distorção série x idade e os cursos oferecidos para adultos também deveriam ser diagnosticados e comparados ao curso regular; e) as análises, especialmente após cada aplicação anual, deveriam ser encaminhadas em um curtíssimo espaço de tempo (quinze dias entre aplicação e análise) à Secretaria de Educação do Estado, às secretarias municipais de educação e às escolas; f) os dados precisavam estar sistematizados em nível de unidade escolar, embora houvesse intenção de não classificação de escolas; g) o sistema de avaliação na Bahia deveria permitir que as escolas, as secretarias e a secretaria de educação comparassem seus resultados ao longo dos anos; h) o sistema de avaliação deveria ser tal que fosse comparável ao SAEB; i) o Projeto deveria ter sua primeira aplicação de provas ainda em 1999; j) na linha bimensal, o diagnóstico deveria ser feito de maneira detalhada, de modo que cada professor pudesse ter um levantamento das dificuldades de cada um de seus alunos, em relação àquilo que deveria estar sendo ensinado; k) a cada bimestre, o projeto deveria, a partir da identificação das competências e habilidades não dominadas pelos alunos, produzir vídeos didáticos que, direcionados a eles, ajudassem seus professores a remediá-los; l) a expansão do projeto seria gradual, tanto em relação à abrangência (municípios e escolas envolvidas), quanto em relação às disciplinas e séries avaliadas; m) a implementação do projeto deveria garantir isenção e sua condução deveria ser externa à 2 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 Secretaria da Educação; n) uma competência em avaliação em larga escala deveria ser formada na Bahia; o) a implementação do projeto deveria garantir sua permanência quando da troca de governos. Os meses seguintes foram empregados no planejamento da implementação do Projeto de Avaliação Externa. Para tanto, de um lado havia o respeito à necessidade dos gestores dos sistemas educacionais e escolares e de seus professores; do outro, os limites técnicos, de recursos financeiros, a escassez de tempo e a falta da equipe de trabalho. As decisões que implicaram no desenho final do projeto foram tomadas de modo a garantir a sua operacionalização e sustentabilidade, fundadas sobre quatro pilares: isenção, validade, confiabilidade e legitimidade. Para realizar uma primeira aplicação de provas ainda em 1999, a Secretaria da Educação optou por contratar uma fundação que elaborasse as provas, treinasse os aplicadores, fizesse a leitura das folhas de respostas e produzisse uma análise dos resultados que pudesse ser encaminhada para as escolas. Foram avaliados, em português, ciências e matemática, alunos de 4ª e 8ª séries do ensino fundamental , matriculados em escolas públicas de 45 municípios. Os relatórios com os resultados, sistematizados por escola, foram encaminhados em fevereiro do ano seguinte. Enquanto essa decisão assegurava uma coleta de dados anterior à implementação completa do programa, a SEC negociava com a Universidade Federal da Bahia (UFBA) os termos de um convênio para estabelecimento de parceria. Essa parceria, consolidada em novembro de 1999, contou com a interveniência da Fundação de Apoio à Pesquisa e Extensão (FAPEX). Em abril de 2000, o Centro de Estudos Interdisciplinares para o Setor Público (ISP), órgão suplementar da UFBA responsável por sua avaliação institucional, assumiu a direção técnica do projeto. A condução externa da avaliação cumpria duas funções: formar a competência em avaliação em larga escala com um parceiro cuja competência, de modo geral, já estava estabelecida e que, portanto, seria ideal para abrigá-la e garantir isenção nos processos e análises. Ao aceitar a parceria, a Universidade Federal da Bahia trouxe seus objetivos: fomentar a pesquisa educacional a partir dos dados coletados nas avaliações (observado o respeito às identidades das escolas) e envolver o maior número possível de membros de sua comunidade nas diversas fases do projeto. Finalmente, a última etapa preliminar foi cumprida: determinar o tamanho e o perfil da equipe de avaliação e a instituição que seria responsável por sua assistência inicial e capacitação em avaliação em larga escala. Para o primeiro momento, um grupo de 12 pessoas foi contratado através de um processo seletivo que incluiu recrutamento com divulgação nacional, posterior análise de currículo em referência ao perfil estabelecido para o cargo e, finalmente, entrevistas técnica e geral (o grupo original conta hoje com 4 membros a mais, contratados a partir da mesma estratégia). A entidade responsável pela assistência técnica inicial e capacitação/monitoramento da equipe foi o American Institutes for Research (AIR), com sede em Washington –DC, escolhida após consulta e estudo de diversas empresas nacionais e internacionais, privadas ou ligadas a governos. A AIR, junto ao ISP, definiu o desenho da equipe inicial, que contaria com o apoio de seu time de especialistas: dois profissionais ligados à área de matemática, dois outros com formação em língua portuguesa, um psicometrista, um gerente de base de dados, um gerente de logística, um coordenador de edição, um coordenador de desenvolvimento e aprendizagem (responsável pelos vídeos didáticos) e dois assistentes administrativos. Para a condução da equipe, foi contratado um coordenador geral. 3 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 Estabelecidos o parceiro, a equipe de trabalho e a instituição responsável por sua capacitação durante os primeiros 24 meses de trabalho, o foco do projeto passou a ser o seu desenho de implementação. A seguir estão colocadas algumas das questões que precisaram ser respondidas antes do início do processo de elaboração dos instrumentos. 2.1 Quais seriam os objetivos possíveis para as duas linhas de avaliação propostas? a. A primeira vertente ficou responsável por prover informações sobre o desempenho dos sistemas educacionais em relação à qualidade de ensino oferecido, considerando-se os resultados de seus alunos nas disciplinas essenciais, além de contextualizá-lo de modo a aprofundar o estudo de fatores intra e extra- escolares que pudessem estar relacionados à escola eficaz; b. A segunda vertente se encarregou de permitir que os professores diagnosticassem suas turmas ao final de cada bimestre letivo, de modo a identificar as dificuldades e as competências e habilidades ainda não dominadas. A partir de uma discussão interna na escola, os professores poderiam propor replanejamento de curso e ações de remediação a tempo de recuperar os alunos; c. As duas linhas de ação foram direcionadas para a implementação de uma cultura de avaliação em larga escala no Estado, de caráter diagnóstico; d. Uma competência em avaliação em larga escala deveria estar sendo formada. As decisões de planejamento do Projeto que se seguiram consideraram sempre as respostas a essa primeira questão. Algumas discussões sobre as expectativas para o projeto e a possibilidade de realização são brevemente comentadas abaixo. Um grande debate durante a primeira fase do projeto (e que volta agora no final do 4ª ano) é aquele relacionado à avaliação como instrumento de prestação de contas. Diz Fletcher (1995:93): “O público espera que as Secretarias de Estado de Educação forneçam evidências convincentes de que as escolas públicas funcionam plenamente, cumpram os preceitos da Constituição e ofereçam um ensino fundamental de boa qualidade; [...] pede um sistema de prestação de contas e incentivos que reconheça as reais diferenças nas funções, competências e desempenhos dos professores, premie as escolas com disposição para o progresso em, ainda, um sistema de “inadimplência escolar” para aquelas que se demonstrem incapazes de prestar esses serviços em benefício dos alunos.” As secretarias poderiam usar a avaliação externa como instrumento para a coleta das mencionadas evidências. No caso Bahia, no momento de implementação, essa expectativa não pode ser considerada por duas razões básicas: a primeira relacionada à falta de dados históricos de desempenho ou de instrumentos testados e validados, dificultando a comparabilidade e impossibilitando a formação de padrões de premiação que fossem justos (se isso é possível de alguma maneira). A segunda razão foi ainda mais simples: a avaliação high stakes estaria em oposição à necessidade da implementação de uma cultura de avaliação em larga escala, de caráter diagnóstico. O projeto assumiu então que a prestação de contas ficaria associada à divulgação dos resultados agregados de sistema, sob responsabilidade das secretarias de educação, e à discussão e análise dos resultados, nas próprias escolas, com toda a comunidade escolar, aí inclusos funcionários e pais. À medida que uma série histórica comparável fosse obtida e que as realidades escolares fossem mapeadas (através de cruzamento de dados contextuais com desempenho, por exemplo), um novo desenho de avaliação poderia ser discutido. Essa decisão se provou acertada. A cultura de avaliação foi sendo implementada graças ao compromisso, assumido e mantido pelo Projeto, de que as escolas não seriam punidas – quer 4 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 diretamente, quer via divulgação em massa de seu desempenho – quaisquer que fossem seus resultados. A resistência das escolas, forte na primeira aplicação em 1999, diminuiu significativamente e, quatro anos mais tarde, é trocada pela cobrança das escolas, ao Projeto, do envio das provas e dos relatórios. O estabelecimento de objetivos low stakes teve impacto direto na forma e nos meios pelos quais os resultados foram encaminhados de volta às escolas e secretarias e no conteúdo das comunicações projeto x público alvo. Durante os primeiros quatro anos, coube à equipe central do Projeto a busca pela mudança gradual da atitude de escolas e secretarias em relação à avaliação. Por um lado, foi preciso lidar com aqueles que gostariam de usar os resultados da avaliação externa como notas, como dados para premiação e/ou punição de profissionais ou de estudantes e que exigiam que “receitas de sucesso” acompanhassem os relatórios de avaliação. Por outro lado, uma atenção especial foi dada àqueles que solicitavam avaliações condizentes com suas realidades (normalmente pobres e sem recursos pedagógicos), recusando um ritmo curricular, demandado especialmente pela avaliação bimestral, que seria impossível de ser seguido com “alunos tão pobres, desnutridos, vindos de famílias problemáticas”. Um sintoma de que uma mudança está acontecendo: escolas que, no início do processo, faziam as observações acima descritas, relatam hoje que a avaliação está muito mais próxima de sua rotina e que está sendo usada para planejamento. Vale ressaltar que as matrizes de referência e os níveis das provas enviadas não foram alterados. Em relação ao debate sobre os objetivos do projeto, uma expectativa das secretarias - não listada no primeiro instante - foi trazida à tona a partir da primeira aplicação de provas: a avaliação, por si, teria impacto na qualidade de ensino oferecido pelas escolas. Esse fenômeno foi mencionado, de forma geral, por Kellaghan, em artigo sobre o uso da avaliação da reforma educacional: “Afirma-se que, caso a qualidade e o escopo desses exames sejam satisfatórios, eles fornecem diretrizes aceitáveis para o ensino, levando a um ajuste de processos instrucionais e de aprendizagem o qual, por sua vez, aumenta a qualidade da educação” (2001:263). É importante que essa discussão tenha um lugar por que a avaliação, embora fornecendo dados para diagnóstico e apresentando matrizes de referência que servem como padrão mínimo, em si não implica na mudança para um trabalho escolar de maior qualidade. Para as escolas que contaram com apoio dos outros projetos governamentais e com profissionais competentes, a avaliação externa provocou impacto no processo ensino x aprendizagem; para outras, os relatórios de avaliação foram (e ainda são) uma mera constatação do seu fraco desempenho, mas, para elas, a mudança sem auxílio pedagógico externo não tem sido possível. Uma discussão – iniciada em 1999, mas adiada - tratou do significado da qualidade de ensino e de quanto os dados contextuais e de desempenho (não) dão conta de diagnosticá-la inteiramente. Usualmente representada pela performance de alunos e escolas em aplicações de prova, ainda que sistematizadas e analisadas em graus de sofisticação os mais altos, a indicação de qualidade de ensino (ou a sua falta) precisa da contribuição de muitos outros índices, tais como as taxas de eficiência, as taxas de distorção série x idade, o quanto cada unidade escolar realmente contribui para a equidade, o quanto cada unidade escolar efetivamente agrega ao aprendizado de cada estudante, o quanto o projeto político – pedagógico é posto em ação pelas escolas, o quanto o ambiente escolar é conducente às etapas de aprendizagem, etc. Um sistema de avaliação em nível de estado não deveria ser esgotado apenas pela aplicação de provas de desempenho em determinadas disciplinas, por mais importante que essa informação viesse a ser. Um conselho consultivo foi formado e mantido pelo projeto nos seus primeiros dois anos, para discussão dos objetivos e do desenho de implementação. O superintendente de políticas e diretrizes da 5 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 SEC, o diretor do ISP/UFBA, o representante da AIR, o representante da AIR-Brasil, o consultoridealizador do Programa Educar para Vencer e o coordenador do Projeto compuseram esse conselho. Definidos os objetivos gerais do Projeto de Avaliação Externa, passou-se então à determinação do desenho de implementação das avaliações. 2.2 Como seriam os instrumentos dessas avaliações? Limites financeiros e escassez de tempo tiveram um papel importante na resposta a essa pergunta. Em primeiro lugar, a questão financeira: considerando-se a proposta orçamentária para cumprimento das duas linhas de avaliação do projeto, não seria possível a implantação de abordagens muito sofisticadas, com entrevistas, provas abertas ou observação, por exemplo. Optou-se pela aplicação de provas e questionários de múltipla escolha, administrados pelo projeto com a responsabilização da direção de cada escola e com o monitoramento de funcionários, membros de colegiado escolar e pais de alunos. Essa proposta de uso de instrumentos de múltipla escolha foi amparada também pela necessidade de retorno de resultados em períodos de tempo curtos. A correção de instrumentos abertos demandaria muito mais tempo, especialmente em uma situação onde grupos de corretores ainda seriam formados e moderados. Os instrumentos da avaliação anual contariam com folhas de respostas que seriam lidas oticamente para agilizar a correção. No caso das provas de avaliação bimestral, a necessidade de retorno era imediata. Assim decidiu-se pelos instrumentos de múltipla escolha, acompanhados por quadros-diagnóstico, que passariam ser corrigidos na própria escola. 2.3 O que estaria sendo avaliado? Respeitando os objetivos determinados para projeto, limites técnicos, financeiros e condições de uso dos resultados foram importantes para a decisão do quê seria avaliado. As primeiras expectativas governamentais eram traduzidas em uma necessidade de avaliação nas cinco disciplinas básicas: língua portuguesa, matemática, ciências, geografia e história. Considerou-se aqui não só a questão financeira e as alterações que essas provas provocariam na rotina de cada unidade escolar (já que certamente vários dias seriam usados na avaliação externa), mas principalmente o uso que esses resultados teriam na escola. Diagnósticos iniciais apontaram para uma deficiência profunda no domínio das duas linguagens: português e matemática, o que desfavorecia a aprendizagem nas demais disciplinas. Assim, optou-se por um trabalho inicial com Língua Portuguesa e Matemática. A expansão da avaliação para outras disciplinas ocorreria quando a escola já tivesse aprendido a usar seus resultados e a situação dessas duas disciplinas fundamentais tivesse dado sinais de inversão de tendência apresentada. Definidas as disciplinas, uma decisão importante deveria ser tomada entre avaliar o “real” ou o “ideal”. Castro (1999), ao discutir o uso de padrões (standards) na educação, relaciona-os à questão da eqüidade e do impacto sobre a aprendizagem. De um lado, especialistas acreditam que os padrões são discriminatórios, em termos socioeconômicos e culturais, e que desrespeitam a diversidade. No outro lado, estudiosos argumentam que o fator social não deve ser usado como “justificativa para a impossibilidade de alcançar padrões de qualidade, o que condenaria os socialmente excluídos a um ensino de segunda classe”. No projeto, essa discussão foi ampliada das linhas de proficiência para a própria matriz de referência da avaliação. Decidiu-se que ela deveria representar o conjunto mínimo de competências e habilidades a serem trabalhadas nas escolas públicas na Bahia, observados os limites 6 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 dos testes de múltipla escolha. Restava ainda determinar o grau de aprofundamento do diagnóstico que poderia ser encaminhado para as escolas. A técnica trouxe questões que implicavam em confiabilidade e validade. Quanto mais detalhado o resultado, tanto maior seria a prova para garantir que cada descritor fosse representado de modo a permitir o diagnóstico. Decidiu-se que seriam avaliadas competências e habilidades, passíveis de medição através de testes de múltipla escolha, em tal grau de detalhamento que não resultasse em número muito grande de questões nas provas. A representação da matriz de referência deveria acontecer não por descritor, como esperado inicialmente, mas por domínio de conteúdo. Somente dessa forma, os alunos não seriam submetidos a um número excessivo de questões. Um outro cuidado foi tomado para garantir uma maior cobertura da matriz: cada sala de aula responderia a tipos diferentes de testes. Entretanto, uma vez que o número de alunos por sala variava enormemente e o número de salas por série/escola também, usar mais de dois formatos implicaria em uma possível não cobertura da matriz para escolas menores. Para a avaliação bimestral, por tratar com alunos mais jovens, a aplicação foi definida para acontecer em dois dias. 2.4 Quem seria avaliado por cada uma das linhas? Como contrapartida da autonomia escolar, a avaliação anual deveria voltar-se para as chamadas séries concluintes das duas etapas no ensino fundamental (4ª e 8ª séries), no entendimento que elas são fruto do trabalho do ciclo inteiro e não apenas daquela série específica. Apesar de o aluno responder às provas e questionários, o sistema estaria sendo avaliado. Essa decisão teve um impacto importante na forma de aplicação dos testes. Para a divulgação dos resultados, todas as escolas (incluindo as de ensino médio) passaram a ser envolvidas na sua discussão e análise. O grande problema que surge da idéia de se testar o aluno para avaliar o sistema é a dificuldade de técnicos e educadores em responder de maneira sistêmica aos resultados obtidos. A tendência observada na divulgação dos resultados tem sido a busca, pelas secretarias, de escolas com resultados muito superiores ou inferiores à média geral, para observação da experiência que foi excepcional ou muito fraca, como se uma receita pudesse ser criada e reproduzida para as outras escolas: “faça assim/ não faça assim”. A articulação dos diversos componentes do sistema educacional no sentido de um movimento em busca da qualidade tem sido perdida na particularização dessas experiências. Para a avaliação bimensal, as aplicações foram direcionadas às séries iniciais do ensino fundamental: alunos de 1ª, 2ª , 3ª e 4ª séries dos cursos regulares. A discussão aqui era se a avaliação deveria ser direcionada para a primeira etapa (1ª a 4ª) , para a segunda etapa (5ª a 8ª) ou ainda as duas, de maneira alternada. Cada proposição tinha suas vantagens e desvantagens, especialmente em um cenário de municipalização do ensino fundamental. Como o objetivo dessa linha de avaliação era permitir a remediação ainda durante o ano letivo, o entendimento daqueles que discutiram esse assunto centrou-se na idéia de os problemas da educação vêm das séries iniciais. Implementar a avaliação diagnóstica diretamente na segunda etapa do ensino fundamental implicaria em que um possível acúmulo de problemas de aprendizagem, herdado das deficiências da primeira etapa, poderia resultar em dificuldades muito maiores de recuperação. Por isso, optou-se pelas séries iniciais, com uma proposta de expansão dessa vertente de avaliação para a segunda etapa, quando o ritmo de exposição curricular e a cultura do “ensinar-diagnosticar-replanejar/remediar” estivessem assegurados no primeiro ciclo fundamental. 7 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 2.5 Quando as aplicações de prova deveriam acontecer? As expectativas da Secretaria da Educação do Estado apontavam para uma aplicação anual da linha de avaliação do sistema e para uma aplicação bimensal para a vertente que lidava diretamente com o professor. Respeitados os objetivos, para determinar a freqüência de aplicação de provas foram consideradas a capacidade de elaboração desses instrumentos por uma equipe recém-formada, questões financeiras, a experiência de outros estados que já haviam implementado seus sistemas de avaliação e a capacidade de utilização de resultados pelas escolas. Em relação à linha de avaliação criada para dar aos sistemas educacionais um indicador de qualidade, a tendência brasileira – de alguns estados e do próprio SAEB – era uma aplicação bianual de provas. De maneira geral, os estados intercalavam suas avaliações com as do SAEB, garantindo em um ano resultados agregados (SAEB) e, no ano seguinte, resultados em nível de escola. No caso Bahia, optouse inicialmente pela aplicação anual de provas. O objetivo dessa freqüência foi favorecer o diálogo entre secretarias e escolas ao implementar a cultura de avaliação. Uma vez transposta a primeira fase do projeto, as aplicações teriam freqüência bianual. É interessante perceber que, tendo aprendido a lidar com seus resultados para planejar seus cursos, as próprias escolas avaliadas começaram a demandar do projeto um tempo maior para implementação de ações que levem a uma melhoria do ensino, confirmando assim a tendência nacional. Quanto à linha de avaliação bimensal, inicialmente pensou-se em quatro aplicações durante o ano e os pré-testes foram conduzidos nas quatro unidades letivas em 2001. Entretanto, a análise dos resultados da aplicação na quarta unidade não mais poderia ser usada para remediação por falta de tempo hábil. Uma vez que as escolas não fazem uso do resultado de suas turmas em um determinado ano como insumo para o planejamento da turma desses alunos no ano seguinte, a aplicação da quarta unidade foi descartada. É importante frisar que essa linha de avaliação não pretende ser permanente. O desenho original do projeto previa que, após um período de aplicação de provas de dois a três anos, a escola que tivesse apreendido os conceitos da avaliação diagnóstica deixaria de recebê-la. Isso por que esse processo exige trabalho adicional do professor e há uma grande preocupação, por parte dos especialistas, de que a unidade escolar passe a usar a avaliação externa como substituta de seu sistema interno de avaliação. Além das respostas para as questões fundamentais postas acima, outros aspectos tiveram atenção especial para a implementação do sistema de avaliação baiano. Alguns deles são apresentados a seguir. 2.6 Como garantir a comparabilidade? Em 1999, quatro níveis de comparação eram esperados pela SEC: a comparação do sistema estadual com o SAEB; a do sistema estadual e das escolas com eles mesmos ao longo dos anos; a das escolas com outras unidades e com seus sistemas em uma mesma aplicação, e, finalmente, a comparação de abordagens de distorção série x idade e aceleração com os cursos regulares. Duas dessas expectativas puderam se realizar: as comparações ao longo dos anos e entre escolas em uma mesma aplicação foram asseguradas pelo uso da metodologia de análise adotada pelo Projeto e pela padronização tanto da elaboração dos instrumentos quanto da administração dos testes. Como as aplicações de 1999 e 2000 utilizaram a matriz de referência e itens do SAEB, essas aplicações não são comparáveis, mas, a partir de 2001, todo o processo passou a ser desenvolvido na Bahia, sem maiores problemas para a comparabilidade. Uma ressalva tem sido feita às escolas: uma vez que a aplicação dos testes é feita sob sua responsabilidade e que seu perfil pode mudar drasticamente de ano para outro 8 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 (como, por exemplo, escolas que deixam de oferecer algumas séries ou que mudam integralmente seus professores), a comunidade escolar deve levar em conta esses aspectos antes de fazer uma análise comparativa. A comparabilidade do sistema estadual com o sistema nacional, entretanto, foi questionada por vários especialistas em avaliação em larga escala, especialmente quando verificadas as características dos sistemas estaduais. Como a Bahia propôs um sistema de avaliação com matrizes de referência próprias, um modelo de administração diferente do utilizado pelo SAEB e uma escala de desempenho definida por série (quando o SAEB tem uma escala contínua, da 1ª série do ensino fundamental até o 3º ano do ensino médio), optou-se pela não comparação estatística entre os dois sistemas. Contudo, um grupo de especialistas foi chamado para, através de julgamento, associar cada item usado nas provas baianas às descrições de competências da escala SAEB, considerando seu ordenamento contínuo pelo valor theta estabelecido pela Teoria de Resposta ao Item (em um procedimento criado e conduzido pela AIR e com a participação de técnicos do SAEB). Em 2001, para Língua Portuguesa, os resultados obtidos acompanharam a média da Bahia nas faixas do SAEB. Para matemática, ficaram um pouco abaixo. O último nível de correspondência, dos cursos de aceleração ou correção de fluxo aos cursos regulares, ainda não foi alcançado de forma confiável, principalmente por que os dados sobre os cursos não regulares são mais difíceis de obtenção e por que o perfil dos alunos é completamente diferente daquele dos cursos regulares, fazendo com essas clientelas não sejam facilmente comparadas. 2.7 Como avaliar a 1ª série do ensino fundamental (alunos com 7 anos) ? Um dos maiores debates em relação ao desenho original do Projeto de Avaliação Externa esteve relacionado à decisão de se avaliar, com instrumentos de múltipla escolha, os alunos muito jovens da 1ª série regular. Acrescentava-se aos cuidados necessários com o tratamento de crianças nessa faixa etária (7-8 anos em média), a questão da heterogeneidade das turmas de 1ª série na Bahia: enquanto um percentual pequeno de alunos freqüenta a pré-escola, a maior parte deles entra em contato com o ambiente escolar formal na própria 1ª série. As classes então são formadas por crianças que já conhecem as letras, em minoria, e crianças que não sabem sequer segurar o lápis. Após consultas com especialistas em avaliação, pedagogos, professores com larga experiência no ensino das séries iniciais e especialistas em língua portuguesa e matemática, optou-se pela elaboração de uma matriz de referência para a 1ª série que incluísse também competências e habilidades típicas de pré-escola e pela criação de um teste cujas instruções fossem lidas pelos professores. Assim, o caderno de teste teria apenas as figuras e as alternativas de resposta, enquanto o professor receberia um manual de aplicação que incluísse o roteiro detalhado da prova. Antes de qualquer pré-testagem desse instrumento, o Projeto conduziu um laboratório de aplicação. Após a observação de aplicação de questões em um número de turmas consideradas típicas, os alunos e os professores foram entrevistados. O resultado desse laboratório deu ao Projeto sinal verde para continuar com o formato especial para a 1ª série. 2.8 Como assegurar segurança ao processo de avaliação? Três decisões deveriam ser tomadas, antes de qualquer aplicação, com impacto direto na segurança da avaliação que, em última análise, estariam influenciando a percepção das escolas em relação à isenção e confiabilidade à avaliação externa. 9 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 A primeira delas estava relacionada ao seu sistema de informações. O projeto optou por montar um sistema de informação próprio, composto por vários bancos de dados e programas específicos, e por ter seus técnicos trabalhando em rede, independente das redes da FAPEX ou da Universidade, com instalação de todos os controles de segurança mais modernos. Os bancos de dados do Projeto incluem hoje o sistema de tratamento logístico, o sistema da agência (que inclui o banco de itens e de testes), o sistema de currículos (onde se monitora os consultores externos trazidos para tarefas específicas), o sistema de tratamento qualitativo de relatórios e, finalmente, o sistema de resultados. A segunda decisão era conseqüência da necessidade do Projeto de ter que contar com consultores externos em todas as suas etapas. Fosse pelas decisões anteriores quanto ao tamanho da equipe central, que, por ser pequeno, demandava contratação freqüente de consultores externos; quanto à necessidade de participação de professores das redes pública e privada na elaboração dos instrumentos ou de consultores para a administração dos testes ou quanto à implicação dos diretores e pais na aplicação de provas, problemas com segurança das provas e resultados poderiam surgir, especialmente quando a avaliação estava envolvendo as duas redes de ensino, municipal e estadual. Para evitar questões com a confiabilidade do processo, vários cuidados foram tomados: todos aqueles em contato com itens, provas ou resultados deveriam assinar um termo de sigilo, aí inclusos os pesquisadores que trabalhariam com as análises após o tratamento dos dados coletados; todos os consultores passariam por um treinamento – formal ou informal – no qual seriam apresentados e discutidos os principais valores do Projeto de Avaliação; diretores e professores assinariam um termo de compromisso quando estivessem com as provas e os pais fariam um relatório de aplicação onde registrassem quebras de padronização na aplicação que monitorassem. Um efeito interessante desses processos pode ser percebido, por exemplo, nos treinamentos conduzidos pela equipe central: consultores que participaram de mais de uma fase do projeto tendem a adotar seus valores e passam a defendê-los junto a outros. Por fim, a terceira decisão que teria impacto na segurança das provas foi tomada com base, principalmente, em questões financeiras. Entre montar uma gráfica e terceirizar os serviços de impressão e distribuição, o Projeto optou pela terceirização. Para evitar problemas com segurança das provas, os editais de licitação passaram a contar com especificações técnicas que visam à segurança do material sendo manuseado e vistorias no parque gráfico tem sido feitas, antes da assinatura do contrato, para garantir que a estrutura da empresa vencedora da licitação possa cumprir com os aspectos de segurança, e durante a impressão e embalagem, para assegurar que os procedimentos estejam ocorrendo de acordo com o planejado. Uma vez tomadas as decisões principais para o desenho do Projeto de Avaliação Externa, era hora de implementá-lo. A seguir, estão apresentadas as três macro-ações do projeto. 3. O Projeto de Avaliação Externa e suas principais ações Para cumprir seus objetivos, o Projeto de Avaliação Externa foi implementado a partir de três macro ações: a Avaliação de Desempenho, a Avaliação de Aprendizagem e a criação de uma Agência de Avaliação. Os recursos para que as ações acontecessem foram provenientes do Governo do Estado e, a partir de 2001, também do Banco Mundial. Coube à ação chamada Avaliação de Desempenho cumprir o primeiro objetivo do projeto: informar cada unidade escolar sobre o desempenho de seus alunos (agregado por programa de ensino, disciplina e série), com base em uma referência curricular comum. 10 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 Avaliação de Aprendizagem é o nome que recebeu a linha de trabalho cujo objetivo tem sido informar à escola (e mais especificamente a cada professor) sobre o desempenho de seus alunos ao longo do ano letivo, através da aplicação de testes ao final de cada bloco de 200 horas de aula. Essa informação é apresentada por domínio de conteúdo, o que possibilita ao professor diagnosticar seus alunos e definir ações para recuperá-los durante o curso. Os conceitos de avaliação como ferramenta para a identificação de problemas de aprendizagem; o uso dos resultados para ajustes dos planos de aula às necessidades dos estudantes; o uso dos resultados para indicação de abordagens de remediação ao longo do ano letivo e o ritmo de ensino dos conteúdos passam a ser discutidos pelo Projeto com os coordenadores pedagógicos e dirigentes de todas as escolas envolvidas no Programa. A terceira macro-ação tem estado relacionada à composição e capacitação da equipe de avaliação, formando uma competência em avaliações de larga escala para o estado, capaz de dar continuidade ao trabalho mesmo após mudanças governamentais. Essa terceira linha de trabalho envolve não só a institucionalização de uma agência de avaliação, como também o relacionamento do Projeto com a Universidade Federal da Bahia e outras entidades de pesquisa. Para tanto, um comitê acadêmico foi estabelecido e passa a se responsabilizar pelo fomento aos estudos internos, produções acadêmicas da equipe e relações de pesquisa Para uma melhor visualização de cada uma dessas vertentes de atuação, suas características específicas são apresentadas no próximo bloco. 3.1 Características das ações da Avaliação em Larga Escala na Bahia 3.1.1 A Avaliação de Desempenho Uma vez formada a equipe central, o Projeto de Avaliação Externa optou por criar seus próprios instrumentos de avaliação, proporcionado aos profissionais locais participação efetiva no processo. Três foram os grupos envolvidos: a) professores das redes pública e privada do Estado; b) especialistas das disciplinas avaliadas e c) os desenvolvedores de teste da equipe central do Projeto. A figura abaixo mostra algumas das etapas relacionadas à elaboração dos testes. Figura 01 – Fluxo de produção das provas da Avaliação de Desempenho 1 Professores de 4ª e 8ª Série da Bahia Equipe do Projeto de Avaliação Equipe do Projeto de Avaliação Validação da M atiz Elaboração dos Itens Escolha dos Itens Cadernos de Prova 2ª Etapa 3ª Etapa 4ª Etapa 5ª Etapa Professores Especialistas da Bahia Especialistas de O utros Estados e da Bahia M atriz de Referência 1ª Etapa Como foi visto anteriormente, a Avaliação de Desempenho deveria dar ênfase à situação ideal de aprendizagem, considerando-se a realidade da Bahia. Por essa razão, para a criação das matrizes de referência da Avaliação foram usados as diretrizes e os parâmetros curriculares nacionais; as 1 Figura publicada no Relatório Final da Avaliação de Desempenho 2001, uma publicação da Secretaria da Educação do Estado da Bahia. 11 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 referências estaduais existentes; as matrizes de referência do SAEB; os livros didáticos mais usados em cada série/disciplina; planos de curso de diversas escolas; materiais didáticos mais usados e a experiência de cada um dos professores convidados para a sua elaboração. Representantes da sociedade e profissionais da educação de todo o Brasil foram convidados para participar da validação dessas matrizes que, só então, passaram a ser divulgadas para as escolas. A partir de uma determinação dos desenvolvedores de testes do Projeto, com base na necessidade de cada prova, itens brutos foram encomendados a grupos de professores que trabalharam em oficinas por série e disciplina. Os itens produzidos foram então submetidos a uma seqüência de revisões e, quando aprovados, passaram a compor os pré-testes. Analisada a performance desses itens nos testes-piloto, a equipe do Projeto fez (e faz) a escolha das questões que compõem as formas finais dos instrumentos. Para a Avaliação de Desempenho, a aplicação das provas tem acontecido simultaneamente, em um único dia, para todos os municípios envolvidos. Após a aplicação, o material é recolhido, conferido e transportado de volta para que seja feita a leitura ótica das folhas de respostas de alunos e dos questionários de diretores e professores. Vários relatórios de ocorrência tem sido usados para monitorar a aplicação: diretores, professores-aplicadores e pais, coordenadores de aplicação preenchem documentos que permitem à equipe de logística apoiar a psicometria na análise dos resultados. Nos dois primeiros anos, cada turma avaliada recebia dois tipos de cadernos: um, contendo 50 questões de matemática e outro, com 50 questões de Língua Portuguesa. Cada aluno respondia apenas um caderno e os dois tipos eram intercalados na sala de aula. A partir de 2001, para melhorar a cobertura da matriz de referência sem que houvesse influência da padronização da aplicação, dois formatos de teste passaram a ser aplicados por sala, mas, dessa vez, cada um contendo 25 questões de português e 25 questões de matemática. Dessa forma, por sala, 50 questões de cada disciplina continuavam a ser aplicadas, mas todos os alunos contribuíam com respostas para as duas disciplinas. Obedecendo ao caráter progressivo definido no início de sua implementação, a Avaliação de Desempenho seguiu o processo de definição das parcerias Estado x municípios que caracterizou o Educar para Vencer. Uma vez celebrado o compromisso do governo estadual com as instâncias municipais, todas as escolas urbanas dessas cidades passaram a ser avaliadas pelo Projeto. A zona rural deverá ser incluída, com aplicação amostral, na segunda fase. A tabela a seguir apresenta os números da Avaliação de Desempenho no período 1999-2002. Tabela 01: Número de municípios, escolas e provas relacionados à Avaliação de Desempenho por ano de aplicação. Ano de Aplicação 1999 2000 2001 2002 Número de municípios envolvidos 45 126 274 273 Número de escolas envolvidas 846 1.659 2.911 2.990 Provas enviadas às escolas 110.130 254.000 331.527 271.172 Desde 1999, as aplicações incluíram questionários para levantamento de dados contextuais. Além dos alunos, todos os diretores e uma amostra de professores das escolas envolvidas tem sido convidados a responder a um questionário de dados contextuais. A partir de 2001, os questionários foram 12 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 enriquecidos. O quadro mostra a natureza dos dados coletados em cada um dos questionários aplicados. Questionário Aluno Questionário Professor Questionário Diretor do Caracterização pessoal, fatores sócio-econômicos e hábitos de estudo. do Caracterização pessoal; fatores sócio-econômicos; escolha profissional; comprometimento com a profissão; fatores pedagógicos; recursos pedagógicos; características administrativas da escola; fatores do aluno (disciplina, respeito, atração aos alunos) e problemas da escola. do Caracterização pessoal; fatores sócio econômicos; escolha profissional; comprometimento com a profissão; problemas na escola; mudanças educacionais; fatores pedagógicos e visão geral da gestão. Quadro 01: Composição dos questionários sócio-educacionais utilizados pelo Projeto a partir de 2001 Os relatórios de ocorrências da aplicação, com questões abertas, têm sido tabulados para que o Projeto seja informado sobre quebras de padronização ou qualquer evento que tenha tido impacto na aplicação. Os escores brutos têm sido tratados, considerando-se não só os gabaritos, mas também as informações tabuladas. Devido às características de aplicação das provas, essa tem sido uma das fases mais demoradas na análise dos resultados, com o uso da Teoria Clássica e da Teoria de Resposta ao Item (TRI). Para a Avaliação de Desempenho, os resultados têm sido divulgados em modelo de relatório, em formatos diferentes a depender do seu leitor-alvo. Em todos eles, entretanto, desde 2001, o Projeto usa escalas de desempenho, com geração de padrões por Angoff e Idmatching, para facilitar a sua comunicação. A criação dessas escalas contou com a participação de professores e dirigentes das unidades escolares. A partir de então, os resultados tem sido apresentados usando-se a freqüência de alunos em cada um dos quatro níveis da escala: desempenho bom, desempenho médio, desempenho baixo e desempenho insuficiente. Em 2002, além dos dados de desempenho, análises pedagógicas de cada uma das questões das provas foram incluídas nos relatórios. Vários modelos de relatórios tem sido desenvolvidos: para a escola, para a SEC, para suas diretorias regionais, para as secretarias municipais de educação e para o público em geral. Os relatórios encaminhados a cada escola, com dados de seu desempenho além do resultado geral do Estado, permitem-lhe a discussão de realidade observada com sua comunidade e a conseqüente adequação do plano de desenvolvimento (PDE). Os relatórios encaminhados para as secretarias municipais e estadual de educação e suas diretorias regionais contêm dados agregados de suas escolas, de maneira a informar a tomada de decisões de políticas e diretrizes tanto gerenciais quanto pedagógicas. A partir da divulgação, o Projeto vem propondo reuniões para esclarecimentos com as secretarias municipais de educação e com os diretores de escola. Nos primeiros anos, os dados contextuais levantados através dos questionários foram encaminhados às escolas sem um aprofundamento da análise. A partir de 2001, as escolas passaram a receber apenas as informações sobre a média de idade de seus alunos e sobre ocorrências no processo de aplicação de provas nos seus relatórios individualizados. Pesquisadores da Universidade Federal da Bahia foram contratados para relacionar os dados contextuais aos desempenhos obtidos, na busca pelos fatores intra e extra escolares que apontam para uma escola eficaz. Os resultados dessas pesquisas deverão ser divulgados em um documento técnico. Para facilitar seu entendimento, um folder será criado e enviado 13 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 às escolas, com as suas principais conclusões. De maneira geral e breve, essas têm sido as características gerais da Avaliação de Desempenho. De forma integrada, uma segunda linha de avaliação foi implementada a partir de 2001. A seguir, estão colocadas suas feições principais. 3.1.2 A Avaliação de Aprendizagem Visando disponibilizar aos professores um indicador de desempenho em tempo hábil para que ações de remediação pudessem ser implementadas, no decorrer do ano letivo, foi criada a Avaliação de Aprendizagem, complementar à Avaliação de Desempenho, com previsão de aplicação de provas ao final de cada unidade letiva e com correção dos testes feita pela própria escola. Ao Projeto de Avaliação Externa coube elaborar os testes, padronizar a aplicação e definir os percentuais de acerto abaixo dos quais uma remediação se faria necessária. Desde 2001, o diagnóstico do processo ensino x aprendizagem nas escolas do Educar para Vencer passou a estar também relacionado a uma referência estadual comum e aos domínios de conteúdos tratados em cada unidade. Por aplicação, uma amostra controlada tem sido definida e seus resultados são usados para balizar a elaboração dos testes seguintes e a produção de vídeos didáticos, posteriormente distribuídos como apoio às ações de remediação. Os fundamentos que suportam essa abordagem pressupõem que, evitando acúmulo de problemas na aprendizagem em cada turma desde o início do ano, a escola venha a melhorar a qualidade de ensino que oferece. As escolas têm tido um papel essencial na Avaliação de Aprendizagem. No início de cada ano, as matrizes de referência têm sido divulgadas e recomenda-se que as comunidades escolares reúnam-se para analisá-las no contexto de seus planos de curso. A cada unidade já concluída, os professores das séries avaliadas aplicam os testes enviados pelo Projeto. A correção desses instrumentos é finalizada com o preenchimento de um quadro diagnóstico por turma, de onde constam as informações sobre os cálculos para obtenção dos resultados e os percentuais mínimos de proficiência esperados. O Projeto sugere que, em cada escola, professores regentes de turmas de uma mesma série encontrem-se para discutir os resultados obtidos por elas, comparar seus planos de aula, sugerir novas ações e propor remediação. Em algumas unidades escolares, os pais têm sido envolvidos nesse processo. O acompanhamento a essa ação tem sido feito através dos Relatórios do Diretor (questionários enviados a todas as escolas a cada aplicação). Em lugar de levantar os resultados obtidos em cada turma, o Projeto pergunta às escolas sobre as ocorrências durante o planejamento e aplicação das provas e sobre as ações propostas e/ou implementadas pela comunidade escolar a partir da discussão desses resultados. As informações que as escolas encaminham ao Projeto nesses Relatórios são então tabuladas e voltam à equipe central como feedback para suas próximas ações. A Avaliação de Aprendizagem teve início em 2001, com a aplicação de testes de português e matemática para os alunos das 1a e 2a séries do Ensino Fundamental e ciclo básico I das escolas públicas urbanas de 130 municípios. Os testes foram aplicados em alunos de 1.532 escolas, uma vez concluídas a 2a e a 3a unidades do ano letivo. Em 2002, a Avaliação de Aprendizagem foi expandida e 2.736 escolas de 273 cidades receberam testes de 1a a 4a séries nas três primeiras unidades do ano letivo. 14 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 A pesquisa do impacto da Avaliação de Aprendizagem na melhoria da qualidade de ensino ainda não foi aprofundada. Os relatórios-síntese com as informações coletadas nos Relatórios do Diretor mostram que, de maneira geral, as escolas referem algum tipo de melhoria advinda da implementação dessa vertente, em especial relacionada ao replanejamento de ações a partir dos resultados obtidos. Estudos estão sendo encomendados sobre a associação entre a Avaliação de Aprendizagem e os resultados da Avaliação de Desempenho nas escolas. A necessidade de implementação da Avaliação de Desempenho e da Avaliação de Aprendizagem, dentro de um rigor técnico que assegurasse validade, confiabilidade e isenção e respeitado o limite orçamentário, fez com que o Governo do Estado optasse pela formação e capacitação de uma equipe de trabalho, que, em si, tornou-se a terceira vertente de trabalho. A próxima sessão traz algumas informações sobre essa iniciativa. 3.1.3 Criação de uma agência de avaliação O terceiro componente do Projeto de Avaliação Externa objetivava a criação de uma agência permanente de avaliação, independente e tecnicamente competente, a qual poderia dar continuidade à realização de avaliações para a Secretaria de Educação do Estado da Bahia, sem ser necessariamente exclusiva. Os quatro anos iniciais do Projeto podem ser divididos em dois períodos: o primeiro, relacionado à formação de uma equipe básica e sua capacitação específica em avaliação em larga escala. Concluídos os 18 meses de capacitação, essa equipe passou para o segundo período, caracterizado pela busca de opções que levassem à institucionalização da agência. Enquanto o processo de institucionalização não é concluído, o Projeto conta com um comitê acadêmico, responsável pelo fomento de pesquisas educacionais que usem os dados coletados de 1999 a 2003 e pela integração com a comunidade científica da Universidade Federal da Bahia, em particular, e de com outras instituições no geral. A implementação das ações ligadas às avaliações de desempenho e de aprendizagem e a formação de uma competência em avaliação em larga escala para o estado da Bahia vêm acontecendo em um contexto rico em desafios, brevemente apresentados a seguir. 4. Principais desafios para a Avaliação em Larga Escala na Bahia 4.1 Qualidade da educação De todos os debates conduzidos no início da implementação do Projeto, talvez o mais polêmico e o que tenha ficado mais distante de uma decisão seja a definição do conceito de Qualidade da Educação. A verificação da qualidade da educação pública através de instrumentos aplicados em um determinado momento do ano letivo é insuficiente para a identificação das escolas que estão efetivamente conduzindo seus alunos a uma aprendizagem para a vida cidadã, como determinado pela Lei de Diretrizes e Bases n. 9394/96 em vigor. Vários outros indicadores, como o de eficácia, o de agregação de valor ou o de padrões mínimos precisam ser observados na elaboração de um “índice composto de qualidade”. Os sistemas educacionais têm necessidade, pelas mais variadas razões, de definição de objetivos e metas relacionados à qualidade de ensino. Os dados fornecidos atualmente não permitem uma utilização nesse sentido. A ampliação do sistema estadual de avaliação para a utilização do “índice 15 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 composto de qualidade”, que dê aos sistemas uma maior amplitude de utilização de seus resultados sem ferir princípios de legitimidade, validade e isenção, é, sem dúvida, o primeiro dos desafios para a avaliação em larga escala na Bahia. 4.2 Permanência do processo Fletcher nos chama atenção, em seu artigo “Propósitos da avaliação educacional: uma análise das alternativas”, sobre o compromisso a longo prazo que uma relação de avaliação exige. O desenho de um sistema de avaliação atende a um determinado conjunto de objetivos, para os quais se voltam tanto a elaboração de instrumentos e metodologias de análise quanto a forma de relacionamento avaliador x avaliado. A alteração de objetivos sem o devido acompanhamento da mudança do próprio sistema implica na perda de validade e confiabilidade. Variações em cada etapa do processo de avaliação, mesmo que os objetivos permaneçam, podem também interferir na legitimidade do sistema. Infelizmente, esse entendimento não é observado sempre em mudanças de governo e perde-se, com alguma freqüência, no mínimo a comparabilidade de resultados ao longo dos anos. Seria interessante ter o sistema de avaliação – tanto em nível nacional, quanto estadual – atrelado ao Estado (para um interesse de sociedade) e não aos governos. O sistema de avaliação em larga escala implementado na Bahia está inserido em um programa prioritário do Governo do Estado. A continuidade do sistema criado e a garantia de sua isenção política são dois grandes desafios. 4.3 Uso sistêmico dos resultados pelos órgãos centrais O Projeto de Avaliação Externa tem proposto aos órgãos centrais de educação – tanto estadual quanto municipais – a análise de seus dados de maneira sistêmica, não individualizada em nível de unidade escolar. Esse exercício demanda dos técnicos e educadores um conhecimento profundo dos seus sistemas educacionais e grande articulação entre seus diversos componentes. Da mesma maneira, deve haver espaço para que a análise dos resultados do sistema estadual de avaliação considere os dados do SAEB e de outros sistemas externos, bem como das pesquisas acadêmicas relacionadas à qualidade de ensino, para que as conclusões resultantes possam vir a contribuir, de maneira eficaz, para a tomada de decisões. 4.4 Comunicação eficaz com um público heterogêneo As comunidades escolares têm um perfil muito heterogêneo. Garantir uma comunicação eficaz implica na busca constante de uma linguagem que consiga atingir a todos. Apresentar as informações do Projeto de forma útil para as escolas tem sido um desafio para toda a equipe. Esses são alguns dos desafios que o Projeto tem enfrentado. Outros já foram, de modo geral, vencidos, como a resistência inicial das escolas à Avaliação Externa ou a desconfiança em relação à lisura do processo de aplicação de provas. De maneira articulada e contando sempre com a participação de educadores, a próxima etapa do Projeto de Avaliação Externa demandará muito trabalho e capacitação contínua. 16 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 5. Findos os primeiros quatro anos O sistema de avaliação em larga escala do estado da Bahia considera um replanejamento de suas macro ações, principalmente em relação a características como freqüência e abrangência de suas aplicações, sem risco, contudo, para a comparabilidade dos resultados de desempenho ao longo dos anos. A institucionalização da agência de avaliação será uma das grandes ações, bem como a intensificação dos usos dos resultados da avaliação na tomada de decisões, tanto em nível da escola quanto das secretarias de educação. 6. Referências Bibliográficas Declaração Mundial sobre Educação para Todos (Satisfação das Necessidades Básicas de Aprendizagem. Conferência Mundial de Educação para Todos, Jomtien/Tailândia, 1990 CASTRO, M.H.G de. “A educação para o século XXI: o desafio da qualidade e da equidade”, Brasília: Instituto Nacional de Estudos e Pesquisas Educacionais, 1999 COELHO, S. “Experiências do Ceará na aplicação dos resultados de pesquisa e avaliações”. In: Anais do Marco de Aprendizagem Contínua em Avaliação. Salvador, 2001. CONSELHO NACIONAL DE EDUCAÇÃO. “Diretrizes Curriculares Nacionais – Educação Básica”, Parecer 04/98. Brasília-DF, 2001. CONSELHO NACIONAL DE EDUCAÇÃO. “Diretrizes Curriculares Nacionais – Educação Básica”, Resolução CNE/CEB no. 02/98. Brasília-DF, 2001. FLETCHER, P.R. “Propósitos da avaliação educacional: uma análise das alternativas”. In: Estudos em Avaliação Educacional, no. 11, São Paulo, Fundação Carlos Chagas, 1995. FRANCO, C. ; BONAMINO, A. “Iniciativas recentes de Avaliação da Qualidade da Educação no Brasil”. In: Franco, C. (org.), Avaliação, Ciclos e Promoção na Educação, Porto Alegre, Artmed Editora, 2001. GATTI, B.A; VIANNA, H.M; DAVIS, C. “Problemas e impasses da avaliação de projetos e sistemas educacionais – dois casos brasileiros”. In: Estudos em Avaliação Educacional, no. 04, São Paulo, Fundação Carlos Chagas, 1991. INEP 2000. Resultados do SAEB/99. INEP/MEC, Brasília. KELLAGHAN, T.. “O uso da avaliação na reforma educacional”. In: Ensaio – Avaliação e Políticas Públicas em Educação. Vol.09, n. 32, Rio de Janeiro, 2001 LOCATELLI, I. “Políticas de avaliação no Brasil”. In: Anais do Marco de Aprendizagem Contínua em Avaliação. Salvador, 2001. LUCKESI, C.C. “Avaliação da Aprendizagem Escolar”. 10ª ed. São Paulo: Cortez, 2000. MARTINS, A. M. “Educação e diretrizes de mudança: possibilidade e limites do Estado”. In: Estudos em Avaliação Educacional, no. 15, São Paulo, Fundação Carlos Chagas, 1997. McTIGHE, J. ; FERRARA, S. “Assessing learning in the Classroom”, United States, NEA, 1998 MEC. Parâmetros Curriculares Nacionais, Vol.1, MEC/Brasília-DF. SEC/SEI: Anuário Estatístico da Educação 2001. Secretaria da Educação. – Salvador: Secretaria da Educação/SEI, 2002 SEC. “Diretrizes Regimentais Básicas para as Escolas Públicas Estaduais”. Secretaria da Educação do Governo da Bahia: 2000. SOUSA, S.Z.L. “Revisando a teoria da avaliação da aprendizagem”. In: Souza, C.P. de (org), Avaliação do Rendimento Escolar. 6ª ed. Campinas, SP: Papirus, 1997. VIANNA, H.M; ANTUNES, A.L; SOUZA, M.A., “Desenvolvimento de um Programa de Avaliação do sistema estadual de ensino: o exemplo de Minas Gerais”, In: Estudos em Avaliação Educacional, no. 08, São Paulo, Fundação Carlos Chagas, 1993. VIANNA, H.M. “Avaliações Nacionais em larga escala: análises e propostas”, In: Estudos em Avaliação Educacional, no. 27, São Paulo, Fundação Carlos Chagas, 2003. 17 VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003 Resenha Biográfica A autora desse artigo é formada em engenharia agronômica e em turismo, fez especialização em administração hoteleira e, no momento, é mestranda em administração pública. Tem experiência em implantação e gerenciamento de projetos e em capacitação profissional e atuou como professora para o ensino médio e ensino fundamental. Em 1999, foi convidada a assumir a coordenação do Projeto de Avaliação Externa, atividade que vem desenvolvendo desde então. Para contato: Endereço eletrônico: [email protected] ou [email protected] Endereço postal: Rua Jânio Quadros, n. 22, Amaralina 41900-340 Salvador, Bahia, Brasil Telefones: (55 71) 2425 1472 ou (5571) 9133 9317 18