A experiência da avaliação em larga escala do ensino público

VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
A experiência da avaliação em larga escala do ensino público
fundamental no estado da Bahia
Lys Vinhaes
1. O Contexto
O movimento internacional em favor da educação, facilmente observado através da leitura de
declarações produzidas em conferências mundiais como a de Jomtien ou a de Dakar, aponta tendências
que têm influenciado diretamente o sistema educacional brasileiro. Neste, é possível observar consenso
das três esferas governamentais (federal, estadual e municipal) em torno da importância estratégica da
educação, tanto para o exercício da cidadania, quanto em direção ao fortalecimento do capital humano
para o desenvolvimento sustentável. Nessa ótica, o maior compromisso tem sido assegurar educação
fundamental aos jovens brasileiros, especialmente na faixa de 07 a 14 anos.
Situado no nordeste brasileiro, uma região onde os índices educacionais tendem a mostrar-se abaixo da
média nacional, o estado da Bahia praticamente garantiu esse acesso à educação. Em 1999, sua taxa de
atendimento aos jovens de 07 a 14 anos ultrapassou 95% e ações foram implementadas para que 100%
da população nessa faixa etária fosse atendida. Os números de alunos matriculados impressionavam:
3.702.727 matrículas iniciais no ensino fundamental, das quais 1.283.338 na rede estadual, espalhadas
em 27.173 escolas (2.221 estaduais e 23.079 municipais), localizadas em 417 municípios baianos.
Entretanto, o fato de a grande maioria dos jovens estar matriculada na escola não quer dizer,
necessariamente, que permaneça na escola. Ainda em 1999, a matrícula inicial no ensino médio –
504.554 alunos (378.967 na rede estadual) - indicava claramente que boa parte dos estudantes deixava
os estudos antes de completar a educação básica (composta por três níveis: educação infantil, ensino
fundamental e ensino médio). Os indicadores de mobilidade e rendimento escolar no próprio ensino
fundamental mostravam que 16,4% dos estudantes tinham abandonado a escola durante o ano letivo de
1999 e que apenas 69,4% foram aprovados.
A taxa de aprovação dá uma medida da eficácia do sistema educacional , mas certamente não indica a
qualidade da educação que está sendo oferecida. Embora o Ministério da Educação, em seus
Parâmetros Curriculares Nacionais (PCN, volume 1, Introdução, pg.13), oriente os integrantes do
sistema para que os estudantes tenham “acesso à totalidade dos bens públicos, entre os quais o conjunto
de conhecimentos socialmente relevantes”, o desempenho dos alunos baianos em aplicação de provas
do Sistema Nacional de Avaliação da Educação Básica (SAEB), por exemplo, mostrava o quão distante
a Bahia estava de patamar satisfatório.
Foi nesse contexto que o Governo do Estado, através da sua Secretaria da Educação (SEC), lançou um
programa de trabalho, denominado Programa Educar para Vencer, implementado através de seis
projetos prioritários, com o objetivo de melhorar a qualidade do ensino. Esses projetos se
desenvolveram de maneira articulada para dar apoio às unidades escolares. Suas linhas de ação
visavam à profissionalização da gestão, autonomia das escolas, correção do fluxo e articulação das
ações educacionais das redes públicas estadual e municipal. As responsabilidades de cada um foram
definidas da seguinte maneira: o Projeto de Fortalecimento da Gestão Escolar e o Projeto de Gestão
Municipal lidavam mais diretamente com a profissionalização da gestão educacional, a autonomia
escolar e a articulação entre as redes; os Projetos de Regularização de Fluxo (de 1ª a 4ª séries e de 5ª a
8ª séries) concentravam seus esforços no combate à distorção série x idade; o Projeto de Certificação
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
Profissional estava direcionado para, em um primeiro momento, a certificação dos dirigentes (com a
conseqüente definição do “padrão mínimo” de competências e habilidades desejáveis para os cargos de
direção) e o sexto projeto, chamado Projeto de Avaliação Externa, deveria tratar da avaliação do ensino
público.
Esse documento apresenta a experiência de implementação do Projeto de Avaliação Externa nos seus
quatro primeiros anos, de 1999 a 2003.
2. O Projeto de Avaliação Externa – da vontade política para a ação
Assim como o movimento internacional em prol da qualidade na educação, o levantamento do
desempenho de alunos como meio para a avaliação de escolas e dos sistemas de ensino tinha se tornado
comum em muitas regiões do mundo. As ações nesse sentido tiveram início no Brasil no final da
década de 80 e evoluíram para a criação do SAEB no início dos anos 90. O sucesso dessa experiência
ajudou a difundir uma cultura de avaliação em larga escala, mas dada à necessidade de obter
informações menos agregadas, muitos estados brasileiros criaram seus próprios sistemas de avaliação,
administrando seus testes de forma censitária. Seguindo essa tendência, a Bahia optou por implementar
um sistema de avaliação próprio que, em última análise, seria a contrapartida para a autonomia escolar
e viria a assumir o papel de prover diagnóstico do ensino público relacionado à qualidade de ensino.
Em um primeiro momento (agosto de 1999), as expectativas para o Projeto de Avaliação Externa
foram levantadas:
a) o projeto seria implementado a partir de duas linhas de atuação: uma, mais voltada para o apoio à
gestão de sistema, com freqüência anual, e a outra, direcionada para dar suporte ao professor, teria
aplicação bimensal;
b) tanto para uma como para a outra, havia necessidade de coleta de informações sobre o domínio de
competências e habilidades em cinco disciplinas, em todas as séries do ensino fundamental;
c) através do projeto, as escolas estariam prestando contas à sociedade;
d) os projetos de combate à distorção série x idade e os cursos oferecidos para adultos também
deveriam ser diagnosticados e comparados ao curso regular;
e) as análises, especialmente após cada aplicação anual, deveriam ser encaminhadas em um
curtíssimo espaço de tempo (quinze dias entre aplicação e análise) à Secretaria de Educação do
Estado, às secretarias municipais de educação e às escolas;
f) os dados precisavam estar sistematizados em nível de unidade escolar, embora houvesse intenção
de não classificação de escolas;
g) o sistema de avaliação na Bahia deveria permitir que as escolas, as secretarias e a secretaria de
educação comparassem seus resultados ao longo dos anos;
h) o sistema de avaliação deveria ser tal que fosse comparável ao SAEB;
i) o Projeto deveria ter sua primeira aplicação de provas ainda em 1999;
j) na linha bimensal, o diagnóstico deveria ser feito de maneira detalhada, de modo que cada
professor pudesse ter um levantamento das dificuldades de cada um de seus alunos, em relação
àquilo que deveria estar sendo ensinado;
k) a cada bimestre, o projeto deveria, a partir da identificação das competências e habilidades não
dominadas pelos alunos, produzir vídeos didáticos que, direcionados a eles, ajudassem seus
professores a remediá-los;
l) a expansão do projeto seria gradual, tanto em relação à abrangência (municípios e escolas
envolvidas), quanto em relação às disciplinas e séries avaliadas;
m) a implementação do projeto deveria garantir isenção e sua condução deveria ser externa à
2
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
Secretaria da Educação;
n) uma competência em avaliação em larga escala deveria ser formada na Bahia;
o) a implementação do projeto deveria garantir sua permanência quando da troca de governos.
Os meses seguintes foram empregados no planejamento da implementação do Projeto de Avaliação
Externa. Para tanto, de um lado havia o respeito à necessidade dos gestores dos sistemas educacionais e
escolares e de seus professores; do outro, os limites técnicos, de recursos financeiros, a escassez de
tempo e a falta da equipe de trabalho. As decisões que implicaram no desenho final do projeto foram
tomadas de modo a garantir a sua operacionalização e sustentabilidade, fundadas sobre quatro pilares:
isenção, validade, confiabilidade e legitimidade.
Para realizar uma primeira aplicação de provas ainda em 1999, a Secretaria da Educação optou por
contratar uma fundação que elaborasse as provas, treinasse os aplicadores, fizesse a leitura das folhas
de respostas e produzisse uma análise dos resultados que pudesse ser encaminhada para as escolas.
Foram avaliados, em português, ciências e matemática, alunos de 4ª e 8ª séries do ensino fundamental ,
matriculados em escolas públicas de 45 municípios. Os relatórios com os resultados, sistematizados por
escola, foram encaminhados em fevereiro do ano seguinte.
Enquanto essa decisão assegurava uma coleta de dados anterior à implementação completa do
programa, a SEC negociava com a Universidade Federal da Bahia (UFBA) os termos de um convênio
para estabelecimento de parceria. Essa parceria, consolidada em novembro de 1999, contou com a
interveniência da Fundação de Apoio à Pesquisa e Extensão (FAPEX). Em abril de 2000, o Centro de
Estudos Interdisciplinares para o Setor Público (ISP), órgão suplementar da UFBA responsável por sua
avaliação institucional, assumiu a direção técnica do projeto. A condução externa da avaliação cumpria
duas funções: formar a competência em avaliação em larga escala com um parceiro cuja competência,
de modo geral, já estava estabelecida e que, portanto, seria ideal para abrigá-la e garantir isenção nos
processos e análises.
Ao aceitar a parceria, a Universidade Federal da Bahia trouxe seus objetivos: fomentar a pesquisa
educacional a partir dos dados coletados nas avaliações (observado o respeito às identidades das
escolas) e envolver o maior número possível de membros de sua comunidade nas diversas fases do
projeto.
Finalmente, a última etapa preliminar foi cumprida: determinar o tamanho e o perfil da equipe de
avaliação e a instituição que seria responsável por sua assistência inicial e capacitação em avaliação em
larga escala. Para o primeiro momento, um grupo de 12 pessoas foi contratado através de um processo
seletivo que incluiu recrutamento com divulgação nacional, posterior análise de currículo em referência
ao perfil estabelecido para o cargo e, finalmente, entrevistas técnica e geral (o grupo original conta hoje
com 4 membros a mais, contratados a partir da mesma estratégia). A entidade responsável pela
assistência técnica inicial e capacitação/monitoramento da equipe foi o American Institutes for
Research (AIR), com sede em Washington –DC, escolhida após consulta e estudo de diversas empresas
nacionais e internacionais, privadas ou ligadas a governos.
A AIR, junto ao ISP, definiu o desenho da equipe inicial, que contaria com o apoio de seu time de
especialistas: dois profissionais ligados à área de matemática, dois outros com formação em língua
portuguesa, um psicometrista, um gerente de base de dados, um gerente de logística, um coordenador
de edição, um coordenador de desenvolvimento e aprendizagem (responsável pelos vídeos didáticos)
e dois assistentes administrativos. Para a condução da equipe, foi contratado um coordenador geral.
3
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
Estabelecidos o parceiro, a equipe de trabalho e a instituição responsável por sua capacitação durante
os primeiros 24 meses de trabalho, o foco do projeto passou a ser o seu desenho de implementação. A
seguir estão colocadas algumas das questões que precisaram ser respondidas antes do início do
processo de elaboração dos instrumentos.
2.1 Quais seriam os objetivos possíveis para as duas linhas de avaliação propostas?
a. A primeira vertente ficou responsável por prover informações sobre o desempenho dos sistemas
educacionais em relação à qualidade de ensino oferecido, considerando-se os resultados de seus
alunos nas disciplinas essenciais, além de contextualizá-lo de modo a aprofundar o estudo de
fatores intra e extra- escolares que pudessem estar relacionados à escola eficaz;
b. A segunda vertente se encarregou de permitir que os professores diagnosticassem suas turmas
ao final de cada bimestre letivo, de modo a identificar as dificuldades e as competências e
habilidades ainda não dominadas. A partir de uma discussão interna na escola, os professores
poderiam propor replanejamento de curso e ações de remediação a tempo de recuperar os
alunos;
c. As duas linhas de ação foram direcionadas para a implementação de uma cultura de avaliação
em larga escala no Estado, de caráter diagnóstico;
d. Uma competência em avaliação em larga escala deveria estar sendo formada.
As decisões de planejamento do Projeto que se seguiram consideraram sempre as respostas a essa
primeira questão. Algumas discussões sobre as expectativas para o projeto e a possibilidade de
realização são brevemente comentadas abaixo.
Um grande debate durante a primeira fase do projeto (e que volta agora no final do 4ª ano) é aquele
relacionado à avaliação como instrumento de prestação de contas. Diz Fletcher (1995:93): “O público
espera que as Secretarias de Estado de Educação forneçam evidências convincentes de que as escolas
públicas funcionam plenamente, cumpram os preceitos da Constituição e ofereçam um ensino
fundamental de boa qualidade; [...] pede um sistema de prestação de contas e incentivos que
reconheça as reais diferenças nas funções, competências e desempenhos dos professores, premie as
escolas com disposição para o progresso em, ainda, um sistema de “inadimplência escolar” para
aquelas que se demonstrem incapazes de prestar esses serviços em benefício dos alunos.” As
secretarias poderiam usar a avaliação externa como instrumento para a coleta das mencionadas
evidências.
No caso Bahia, no momento de implementação, essa expectativa não pode ser considerada por duas
razões básicas: a primeira relacionada à falta de dados históricos de desempenho ou de instrumentos
testados e validados, dificultando a comparabilidade e impossibilitando a formação de padrões de
premiação que fossem justos (se isso é possível de alguma maneira). A segunda razão foi ainda mais
simples: a avaliação high stakes estaria em oposição à necessidade da implementação de uma cultura
de avaliação em larga escala, de caráter diagnóstico. O projeto assumiu então que a prestação de
contas ficaria associada à divulgação dos resultados agregados de sistema, sob responsabilidade das
secretarias de educação, e à discussão e análise dos resultados, nas próprias escolas, com toda a
comunidade escolar, aí inclusos funcionários e pais. À medida que uma série histórica comparável
fosse obtida e que as realidades escolares fossem mapeadas (através de cruzamento de dados
contextuais com desempenho, por exemplo), um novo desenho de avaliação poderia ser discutido.
Essa decisão se provou acertada. A cultura de avaliação foi sendo implementada graças ao
compromisso, assumido e mantido pelo Projeto, de que as escolas não seriam punidas – quer
4
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
diretamente, quer via divulgação em massa de seu desempenho – quaisquer que fossem seus resultados.
A resistência das escolas, forte na primeira aplicação em 1999, diminuiu significativamente e, quatro
anos mais tarde, é trocada pela cobrança das escolas, ao Projeto, do envio das provas e dos relatórios.
O estabelecimento de objetivos low stakes teve impacto direto na forma e nos meios pelos quais os
resultados foram encaminhados de volta às escolas e secretarias e no conteúdo das comunicações
projeto x público alvo.
Durante os primeiros quatro anos, coube à equipe central do Projeto a busca pela mudança gradual da
atitude de escolas e secretarias em relação à avaliação. Por um lado, foi preciso lidar com aqueles que
gostariam de usar os resultados da avaliação externa como notas, como dados para premiação e/ou
punição de profissionais ou de estudantes e que exigiam que “receitas de sucesso” acompanhassem os
relatórios de avaliação. Por outro lado, uma atenção especial foi dada àqueles que solicitavam
avaliações condizentes com suas realidades (normalmente pobres e sem recursos pedagógicos),
recusando um ritmo curricular, demandado especialmente pela avaliação bimestral, que seria
impossível de ser seguido com “alunos tão pobres, desnutridos, vindos de famílias problemáticas”. Um
sintoma de que uma mudança está acontecendo: escolas que, no início do processo, faziam as
observações acima descritas, relatam hoje que a avaliação está muito mais próxima de sua rotina e que
está sendo usada para planejamento. Vale ressaltar que as matrizes de referência e os níveis das provas
enviadas não foram alterados.
Em relação ao debate sobre os objetivos do projeto, uma expectativa das secretarias - não listada no
primeiro instante - foi trazida à tona a partir da primeira aplicação de provas: a avaliação, por si, teria
impacto na qualidade de ensino oferecido pelas escolas. Esse fenômeno foi mencionado, de forma
geral, por Kellaghan, em artigo sobre o uso da avaliação da reforma educacional: “Afirma-se que, caso
a qualidade e o escopo desses exames sejam satisfatórios, eles fornecem diretrizes aceitáveis para o
ensino, levando a um ajuste de processos instrucionais e de aprendizagem o qual, por sua vez,
aumenta a qualidade da educação” (2001:263). É importante que essa discussão tenha um lugar por
que a avaliação, embora fornecendo dados para diagnóstico e apresentando matrizes de referência que
servem como padrão mínimo, em si não implica na mudança para um trabalho escolar de maior
qualidade. Para as escolas que contaram com apoio dos outros projetos governamentais e com
profissionais competentes, a avaliação externa provocou impacto no processo ensino x aprendizagem;
para outras, os relatórios de avaliação foram (e ainda são) uma mera constatação do seu fraco
desempenho, mas, para elas, a mudança sem auxílio pedagógico externo não tem sido possível.
Uma discussão – iniciada em 1999, mas adiada - tratou do significado da qualidade de ensino e de
quanto os dados contextuais e de desempenho (não) dão conta de diagnosticá-la inteiramente.
Usualmente representada pela performance de alunos e escolas em aplicações de prova, ainda que
sistematizadas e analisadas em graus de sofisticação os mais altos, a indicação de qualidade de ensino
(ou a sua falta) precisa da contribuição de muitos outros índices, tais como as taxas de eficiência, as
taxas de distorção série x idade, o quanto cada unidade escolar realmente contribui para a equidade, o
quanto cada unidade escolar efetivamente agrega ao aprendizado de cada estudante, o quanto o projeto
político – pedagógico é posto em ação pelas escolas, o quanto o ambiente escolar é conducente às
etapas de aprendizagem, etc. Um sistema de avaliação em nível de estado não deveria ser esgotado
apenas pela aplicação de provas de desempenho em determinadas disciplinas, por mais importante que
essa informação viesse a ser.
Um conselho consultivo foi formado e mantido pelo projeto nos seus primeiros dois anos, para
discussão dos objetivos e do desenho de implementação. O superintendente de políticas e diretrizes da
5
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
SEC, o diretor do ISP/UFBA, o representante da AIR, o representante da AIR-Brasil, o consultoridealizador do Programa Educar para Vencer e o coordenador do Projeto compuseram esse conselho.
Definidos os objetivos gerais do Projeto de Avaliação Externa, passou-se então à determinação do
desenho de implementação das avaliações.
2.2 Como seriam os instrumentos dessas avaliações?
Limites financeiros e escassez de tempo tiveram um papel importante na resposta a essa pergunta. Em
primeiro lugar, a questão financeira: considerando-se a proposta orçamentária para cumprimento das
duas linhas de avaliação do projeto, não seria possível a implantação de abordagens muito sofisticadas,
com entrevistas, provas abertas ou observação, por exemplo. Optou-se pela aplicação de provas e
questionários de múltipla escolha, administrados pelo projeto com a responsabilização da direção de
cada escola e com o monitoramento de funcionários, membros de colegiado escolar e pais de alunos.
Essa proposta de uso de instrumentos de múltipla escolha foi amparada também pela necessidade de
retorno de resultados em períodos de tempo curtos. A correção de instrumentos abertos demandaria
muito mais tempo, especialmente em uma situação onde grupos de corretores ainda seriam formados e
moderados. Os instrumentos da avaliação anual contariam com folhas de respostas que seriam lidas
oticamente para agilizar a correção.
No caso das provas de avaliação bimestral, a necessidade de retorno era imediata. Assim decidiu-se
pelos instrumentos de múltipla escolha, acompanhados por quadros-diagnóstico, que passariam ser
corrigidos na própria escola.
2.3 O que estaria sendo avaliado?
Respeitando os objetivos determinados para projeto, limites técnicos, financeiros e condições de uso
dos resultados foram importantes para a decisão do quê seria avaliado.
As primeiras expectativas governamentais eram traduzidas em uma necessidade de avaliação nas cinco
disciplinas básicas: língua portuguesa, matemática, ciências, geografia e história. Considerou-se aqui
não só a questão financeira e as alterações que essas provas provocariam na rotina de cada unidade
escolar (já que certamente vários dias seriam usados na avaliação externa), mas principalmente o uso
que esses resultados teriam na escola. Diagnósticos iniciais apontaram para uma deficiência profunda
no domínio das duas linguagens: português e matemática, o que desfavorecia a aprendizagem nas
demais disciplinas. Assim, optou-se por um trabalho inicial com Língua Portuguesa e Matemática. A
expansão da avaliação para outras disciplinas ocorreria quando a escola já tivesse aprendido a usar seus
resultados e a situação dessas duas disciplinas fundamentais tivesse dado sinais de inversão de
tendência apresentada.
Definidas as disciplinas, uma decisão importante deveria ser tomada entre avaliar o “real” ou o “ideal”.
Castro (1999), ao discutir o uso de padrões (standards) na educação, relaciona-os à questão da
eqüidade e do impacto sobre a aprendizagem. De um lado, especialistas acreditam que os padrões são
discriminatórios, em termos socioeconômicos e culturais, e que desrespeitam a diversidade. No outro
lado, estudiosos argumentam que o fator social não deve ser usado como “justificativa para a
impossibilidade de alcançar padrões de qualidade, o que condenaria os socialmente excluídos a um
ensino de segunda classe”. No projeto, essa discussão foi ampliada das linhas de proficiência para a
própria matriz de referência da avaliação. Decidiu-se que ela deveria representar o conjunto mínimo de
competências e habilidades a serem trabalhadas nas escolas públicas na Bahia, observados os limites
6
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
dos testes de múltipla escolha.
Restava ainda determinar o grau de aprofundamento do diagnóstico que poderia ser encaminhado para
as escolas. A técnica trouxe questões que implicavam em confiabilidade e validade. Quanto mais
detalhado o resultado, tanto maior seria a prova para garantir que cada descritor fosse representado de
modo a permitir o diagnóstico. Decidiu-se que seriam avaliadas competências e habilidades, passíveis
de medição através de testes de múltipla escolha, em tal grau de detalhamento que não resultasse em
número muito grande de questões nas provas. A representação da matriz de referência deveria
acontecer não por descritor, como esperado inicialmente, mas por domínio de conteúdo. Somente dessa
forma, os alunos não seriam submetidos a um número excessivo de questões. Um outro cuidado foi
tomado para garantir uma maior cobertura da matriz: cada sala de aula responderia a tipos diferentes de
testes. Entretanto, uma vez que o número de alunos por sala variava enormemente e o número de salas
por série/escola também, usar mais de dois formatos implicaria em uma possível não cobertura da
matriz para escolas menores. Para a avaliação bimestral, por tratar com alunos mais jovens, a aplicação
foi definida para acontecer em dois dias.
2.4 Quem seria avaliado por cada uma das linhas?
Como contrapartida da autonomia escolar, a avaliação anual deveria voltar-se para as chamadas séries
concluintes das duas etapas no ensino fundamental (4ª e 8ª séries), no entendimento que elas são fruto
do trabalho do ciclo inteiro e não apenas daquela série específica. Apesar de o aluno responder às
provas e questionários, o sistema estaria sendo avaliado. Essa decisão teve um impacto importante na
forma de aplicação dos testes. Para a divulgação dos resultados, todas as escolas (incluindo as de
ensino médio) passaram a ser envolvidas na sua discussão e análise.
O grande problema que surge da idéia de se testar o aluno para avaliar o sistema é a dificuldade de
técnicos e educadores em responder de maneira sistêmica aos resultados obtidos. A tendência
observada na divulgação dos resultados tem sido a busca, pelas secretarias, de escolas com resultados
muito superiores ou inferiores à média geral, para observação da experiência que foi excepcional ou
muito fraca, como se uma receita pudesse ser criada e reproduzida para as outras escolas: “faça assim/
não faça assim”. A articulação dos diversos componentes do sistema educacional no sentido de um
movimento em busca da qualidade tem sido perdida na particularização dessas experiências.
Para a avaliação bimensal, as aplicações foram direcionadas às séries iniciais do ensino fundamental:
alunos de 1ª, 2ª , 3ª e 4ª séries dos cursos regulares. A discussão aqui era se a avaliação deveria ser
direcionada para a primeira etapa (1ª a 4ª) , para a segunda etapa (5ª a 8ª) ou ainda as duas, de maneira
alternada. Cada proposição tinha suas vantagens e desvantagens, especialmente em um cenário de
municipalização do ensino fundamental. Como o objetivo dessa linha de avaliação era permitir a
remediação ainda durante o ano letivo, o entendimento daqueles que discutiram esse assunto centrou-se
na idéia de os problemas da educação vêm das séries iniciais. Implementar a avaliação diagnóstica
diretamente na segunda etapa do ensino fundamental implicaria em que um possível acúmulo de
problemas de aprendizagem, herdado das deficiências da primeira etapa, poderia resultar em
dificuldades muito maiores de recuperação. Por isso, optou-se pelas séries iniciais, com uma proposta
de expansão dessa vertente de avaliação para a segunda etapa, quando o ritmo de exposição curricular e
a cultura do “ensinar-diagnosticar-replanejar/remediar” estivessem assegurados no primeiro ciclo
fundamental.
7
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
2.5 Quando as aplicações de prova deveriam acontecer?
As expectativas da Secretaria da Educação do Estado apontavam para uma aplicação anual da linha de
avaliação do sistema e para uma aplicação bimensal para a vertente que lidava diretamente com o
professor. Respeitados os objetivos, para determinar a freqüência de aplicação de provas foram
consideradas a capacidade de elaboração desses instrumentos por uma equipe recém-formada, questões
financeiras, a experiência de outros estados que já haviam implementado seus sistemas de avaliação e a
capacidade de utilização de resultados pelas escolas.
Em relação à linha de avaliação criada para dar aos sistemas educacionais um indicador de qualidade, a
tendência brasileira – de alguns estados e do próprio SAEB – era uma aplicação bianual de provas. De
maneira geral, os estados intercalavam suas avaliações com as do SAEB, garantindo em um ano
resultados agregados (SAEB) e, no ano seguinte, resultados em nível de escola. No caso Bahia, optouse inicialmente pela aplicação anual de provas. O objetivo dessa freqüência foi favorecer o diálogo
entre secretarias e escolas ao implementar a cultura de avaliação. Uma vez transposta a primeira fase
do projeto, as aplicações teriam freqüência bianual. É interessante perceber que, tendo aprendido a
lidar com seus resultados para planejar seus cursos, as próprias escolas avaliadas começaram a
demandar do projeto um tempo maior para implementação de ações que levem a uma melhoria do
ensino, confirmando assim a tendência nacional.
Quanto à linha de avaliação bimensal, inicialmente pensou-se em quatro aplicações durante o ano e os
pré-testes foram conduzidos nas quatro unidades letivas em 2001. Entretanto, a análise dos resultados
da aplicação na quarta unidade não mais poderia ser usada para remediação por falta de tempo hábil.
Uma vez que as escolas não fazem uso do resultado de suas turmas em um determinado ano como
insumo para o planejamento da turma desses alunos no ano seguinte, a aplicação da quarta unidade foi
descartada. É importante frisar que essa linha de avaliação não pretende ser permanente. O desenho
original do projeto previa que, após um período de aplicação de provas de dois a três anos, a escola que
tivesse apreendido os conceitos da avaliação diagnóstica deixaria de recebê-la. Isso por que esse
processo exige trabalho adicional do professor e há uma grande preocupação, por parte dos
especialistas, de que a unidade escolar passe a usar a avaliação externa como substituta de seu sistema
interno de avaliação.
Além das respostas para as questões fundamentais postas acima, outros aspectos tiveram atenção
especial para a implementação do sistema de avaliação baiano. Alguns deles são apresentados a seguir.
2.6 Como garantir a comparabilidade?
Em 1999, quatro níveis de comparação eram esperados pela SEC: a comparação do sistema estadual
com o SAEB; a do sistema estadual e das escolas com eles mesmos ao longo dos anos; a das escolas
com outras unidades e com seus sistemas em uma mesma aplicação, e, finalmente, a comparação de
abordagens de distorção série x idade e aceleração com os cursos regulares.
Duas dessas expectativas puderam se realizar: as comparações ao longo dos anos e entre escolas em
uma mesma aplicação foram asseguradas pelo uso da metodologia de análise adotada pelo Projeto e
pela padronização tanto da elaboração dos instrumentos quanto da administração dos testes. Como as
aplicações de 1999 e 2000 utilizaram a matriz de referência e itens do SAEB, essas aplicações não são
comparáveis, mas, a partir de 2001, todo o processo passou a ser desenvolvido na Bahia, sem maiores
problemas para a comparabilidade. Uma ressalva tem sido feita às escolas: uma vez que a aplicação dos
testes é feita sob sua responsabilidade e que seu perfil pode mudar drasticamente de ano para outro
8
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
(como, por exemplo, escolas que deixam de oferecer algumas séries ou que mudam integralmente seus
professores), a comunidade escolar deve levar em conta esses aspectos antes de fazer uma análise
comparativa.
A comparabilidade do sistema estadual com o sistema nacional, entretanto, foi questionada por vários
especialistas em avaliação em larga escala, especialmente quando verificadas as características dos
sistemas estaduais. Como a Bahia propôs um sistema de avaliação com matrizes de referência próprias,
um modelo de administração diferente do utilizado pelo SAEB e uma escala de desempenho definida
por série (quando o SAEB tem uma escala contínua, da 1ª série do ensino fundamental até o 3º ano do
ensino médio), optou-se pela não comparação estatística entre os dois sistemas. Contudo, um grupo de
especialistas foi chamado para, através de julgamento, associar cada item usado nas provas baianas às
descrições de competências da escala SAEB, considerando seu ordenamento contínuo pelo valor theta
estabelecido pela Teoria de Resposta ao Item (em um procedimento criado e conduzido pela AIR e com
a participação de técnicos do SAEB). Em 2001, para Língua Portuguesa, os resultados obtidos
acompanharam a média da Bahia nas faixas do SAEB. Para matemática, ficaram um pouco abaixo.
O último nível de correspondência, dos cursos de aceleração ou correção de fluxo aos cursos regulares,
ainda não foi alcançado de forma confiável, principalmente por que os dados sobre os cursos não
regulares são mais difíceis de obtenção e por que o perfil dos alunos é completamente diferente daquele
dos cursos regulares, fazendo com essas clientelas não sejam facilmente comparadas.
2.7 Como avaliar a 1ª série do ensino fundamental (alunos com 7 anos) ?
Um dos maiores debates em relação ao desenho original do Projeto de Avaliação Externa esteve
relacionado à decisão de se avaliar, com instrumentos de múltipla escolha, os alunos muito jovens da 1ª
série regular. Acrescentava-se aos cuidados necessários com o tratamento de crianças nessa faixa etária
(7-8 anos em média), a questão da heterogeneidade das turmas de 1ª série na Bahia: enquanto um
percentual pequeno de alunos freqüenta a pré-escola, a maior parte deles entra em contato com o
ambiente escolar formal na própria 1ª série. As classes então são formadas por crianças que já
conhecem as letras, em minoria, e crianças que não sabem sequer segurar o lápis.
Após consultas com especialistas em avaliação, pedagogos, professores com larga experiência no
ensino das séries iniciais e especialistas em língua portuguesa e matemática, optou-se pela elaboração
de uma matriz de referência para a 1ª série que incluísse também competências e habilidades típicas de
pré-escola e pela criação de um teste cujas instruções fossem lidas pelos professores. Assim, o caderno
de teste teria apenas as figuras e as alternativas de resposta, enquanto o professor receberia um manual
de aplicação que incluísse o roteiro detalhado da prova.
Antes de qualquer pré-testagem desse instrumento, o Projeto conduziu um laboratório de aplicação.
Após a observação de aplicação de questões em um número de turmas consideradas típicas, os alunos e
os professores foram entrevistados. O resultado desse laboratório deu ao Projeto sinal verde para
continuar com o formato especial para a 1ª série.
2.8 Como assegurar segurança ao processo de avaliação?
Três decisões deveriam ser tomadas, antes de qualquer aplicação, com impacto direto na segurança da
avaliação que, em última análise, estariam influenciando a percepção das escolas em relação à isenção
e confiabilidade à avaliação externa.
9
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
A primeira delas estava relacionada ao seu sistema de informações. O projeto optou por montar um
sistema de informação próprio, composto por vários bancos de dados e programas específicos, e por ter
seus técnicos trabalhando em rede, independente das redes da FAPEX ou da Universidade, com
instalação de todos os controles de segurança mais modernos. Os bancos de dados do Projeto incluem
hoje o sistema de tratamento logístico, o sistema da agência (que inclui o banco de itens e de testes), o
sistema de currículos (onde se monitora os consultores externos trazidos para tarefas específicas), o
sistema de tratamento qualitativo de relatórios e, finalmente, o sistema de resultados.
A segunda decisão era conseqüência da necessidade do Projeto de ter que contar com consultores
externos em todas as suas etapas. Fosse pelas decisões anteriores quanto ao tamanho da equipe central,
que, por ser pequeno, demandava contratação freqüente de consultores externos; quanto à necessidade
de participação de professores das redes pública e privada na elaboração dos instrumentos ou de
consultores para a administração dos testes ou quanto à implicação dos diretores e pais na aplicação de
provas, problemas com segurança das provas e resultados poderiam surgir, especialmente quando a
avaliação estava envolvendo as duas redes de ensino, municipal e estadual. Para evitar questões com a
confiabilidade do processo, vários cuidados foram tomados: todos aqueles em contato com itens,
provas ou resultados deveriam assinar um termo de sigilo, aí inclusos os pesquisadores que
trabalhariam com as análises após o tratamento dos dados coletados; todos os consultores passariam
por um treinamento – formal ou informal – no qual seriam apresentados e discutidos os principais
valores do Projeto de Avaliação; diretores e professores assinariam um termo de compromisso quando
estivessem com as provas e os pais fariam um relatório de aplicação onde registrassem quebras de
padronização na aplicação que monitorassem.
Um efeito interessante desses processos pode ser percebido, por exemplo, nos treinamentos conduzidos
pela equipe central: consultores que participaram de mais de uma fase do projeto tendem a adotar seus
valores e passam a defendê-los junto a outros.
Por fim, a terceira decisão que teria impacto na segurança das provas foi tomada com base,
principalmente, em questões financeiras. Entre montar uma gráfica e terceirizar os serviços de
impressão e distribuição, o Projeto optou pela terceirização. Para evitar problemas com segurança das
provas, os editais de licitação passaram a contar com especificações técnicas que visam à segurança do
material sendo manuseado e vistorias no parque gráfico tem sido feitas, antes da assinatura do contrato,
para garantir que a estrutura da empresa vencedora da licitação possa cumprir com os aspectos de
segurança, e durante a impressão e embalagem, para assegurar que os procedimentos estejam
ocorrendo de acordo com o planejado.
Uma vez tomadas as decisões principais para o desenho do Projeto de Avaliação Externa, era hora de
implementá-lo. A seguir, estão apresentadas as três macro-ações do projeto.
3. O Projeto de Avaliação Externa e suas principais ações
Para cumprir seus objetivos, o Projeto de Avaliação Externa foi implementado a partir de três macro
ações: a Avaliação de Desempenho, a Avaliação de Aprendizagem e a criação de uma Agência de
Avaliação. Os recursos para que as ações acontecessem foram provenientes do Governo do Estado e, a
partir de 2001, também do Banco Mundial.
Coube à ação chamada Avaliação de Desempenho cumprir o primeiro objetivo do projeto: informar
cada unidade escolar sobre o desempenho de seus alunos (agregado por programa de ensino, disciplina
e série), com base em uma referência curricular comum.
10
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
Avaliação de Aprendizagem é o nome que recebeu a linha de trabalho cujo objetivo tem sido informar
à escola (e mais especificamente a cada professor) sobre o desempenho de seus alunos ao longo do ano
letivo, através da aplicação de testes ao final de cada bloco de 200 horas de aula. Essa informação é
apresentada por domínio de conteúdo, o que possibilita ao professor diagnosticar seus alunos e definir
ações para recuperá-los durante o curso.
Os conceitos de avaliação como ferramenta para a identificação de problemas de aprendizagem; o uso
dos resultados para ajustes dos planos de aula às necessidades dos estudantes; o uso dos resultados para
indicação de abordagens de remediação ao longo do ano letivo e o ritmo de ensino dos conteúdos
passam a ser discutidos pelo Projeto com os coordenadores pedagógicos e dirigentes de todas as
escolas envolvidas no Programa.
A terceira macro-ação tem estado relacionada à composição e capacitação da equipe de avaliação,
formando uma competência em avaliações de larga escala para o estado, capaz de dar continuidade ao
trabalho mesmo após mudanças governamentais. Essa terceira linha de trabalho envolve não só a
institucionalização de uma agência de avaliação, como também o relacionamento do Projeto com a
Universidade Federal da Bahia e outras entidades de pesquisa. Para tanto, um comitê acadêmico foi
estabelecido e passa a se responsabilizar pelo fomento aos estudos internos, produções acadêmicas da
equipe e relações de pesquisa
Para uma melhor visualização de cada uma dessas vertentes de atuação, suas características específicas
são apresentadas no próximo bloco.
3.1 Características das ações da Avaliação em Larga Escala na Bahia
3.1.1 A Avaliação de Desempenho
Uma vez formada a equipe central, o Projeto de Avaliação Externa optou por criar seus próprios
instrumentos de avaliação, proporcionado aos profissionais locais participação efetiva no processo.
Três foram os grupos envolvidos: a) professores das redes pública e privada do Estado; b) especialistas
das disciplinas avaliadas e c) os desenvolvedores de teste da equipe central do Projeto. A figura abaixo
mostra algumas das etapas relacionadas à elaboração dos testes.
Figura 01 – Fluxo de produção das provas da Avaliação de Desempenho 1
Professores
de 4ª e 8ª Série
da Bahia
Equipe do
Projeto de
Avaliação
Equipe do
Projeto de
Avaliação
Validação da
M atiz
Elaboração
dos Itens
Escolha dos
Itens
Cadernos
de Prova
2ª Etapa
3ª Etapa
4ª Etapa
5ª Etapa
Professores
Especialistas
da Bahia
Especialistas de
O utros Estados
e da Bahia
M atriz de
Referência
1ª Etapa
Como foi visto anteriormente, a Avaliação de Desempenho deveria dar ênfase à situação ideal de
aprendizagem, considerando-se a realidade da Bahia. Por essa razão, para a criação das matrizes de
referência da Avaliação foram usados as diretrizes e os parâmetros curriculares nacionais; as
1
Figura publicada no Relatório Final da Avaliação de Desempenho 2001, uma publicação da Secretaria da Educação do
Estado da Bahia.
11
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
referências estaduais existentes; as matrizes de referência do SAEB; os livros didáticos mais usados em
cada série/disciplina; planos de curso de diversas escolas; materiais didáticos mais usados e a
experiência de cada um dos professores convidados para a sua elaboração. Representantes da
sociedade e profissionais da educação de todo o Brasil foram convidados para participar da validação
dessas matrizes que, só então, passaram a ser divulgadas para as escolas.
A partir de uma determinação dos desenvolvedores de testes do Projeto, com base na necessidade de
cada prova, itens brutos foram encomendados a grupos de professores que trabalharam em oficinas por
série e disciplina. Os itens produzidos foram então submetidos a uma seqüência de revisões e, quando
aprovados, passaram a compor os pré-testes. Analisada a performance desses itens nos testes-piloto, a
equipe do Projeto fez (e faz) a escolha das questões que compõem as formas finais dos instrumentos.
Para a Avaliação de Desempenho, a aplicação das provas tem acontecido simultaneamente, em um
único dia, para todos os municípios envolvidos. Após a aplicação, o material é recolhido, conferido e
transportado de volta para que seja feita a leitura ótica das folhas de respostas de alunos e dos
questionários de diretores e professores. Vários relatórios de ocorrência tem sido usados para monitorar
a aplicação: diretores, professores-aplicadores e pais, coordenadores de aplicação preenchem
documentos que permitem à equipe de logística apoiar a psicometria na análise dos resultados.
Nos dois primeiros anos, cada turma avaliada recebia dois tipos de cadernos: um, contendo 50 questões
de matemática e outro, com 50 questões de Língua Portuguesa. Cada aluno respondia apenas um
caderno e os dois tipos eram intercalados na sala de aula. A partir de 2001, para melhorar a cobertura
da matriz de referência sem que houvesse influência da padronização da aplicação, dois formatos de
teste passaram a ser aplicados por sala, mas, dessa vez, cada um contendo 25 questões de português e
25 questões de matemática. Dessa forma, por sala, 50 questões de cada disciplina continuavam a ser
aplicadas, mas todos os alunos contribuíam com respostas para as duas disciplinas.
Obedecendo ao caráter progressivo definido no início de sua implementação, a Avaliação de
Desempenho seguiu o processo de definição das parcerias Estado x municípios que caracterizou o
Educar para Vencer. Uma vez celebrado o compromisso do governo estadual com as instâncias
municipais, todas as escolas urbanas dessas cidades passaram a ser avaliadas pelo Projeto. A zona rural
deverá ser incluída, com aplicação amostral, na segunda fase. A tabela a seguir apresenta os números
da Avaliação de Desempenho no período 1999-2002.
Tabela 01: Número de municípios, escolas e provas relacionados à Avaliação de Desempenho por ano
de aplicação.
Ano de
Aplicação
1999
2000
2001
2002
Número de
municípios
envolvidos
45
126
274
273
Número de
escolas
envolvidas
846
1.659
2.911
2.990
Provas
enviadas às
escolas
110.130
254.000
331.527
271.172
Desde 1999, as aplicações incluíram questionários para levantamento de dados contextuais. Além dos
alunos, todos os diretores e uma amostra de professores das escolas envolvidas tem sido convidados a
responder a um questionário de dados contextuais. A partir de 2001, os questionários foram
12
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
enriquecidos. O quadro mostra a natureza dos dados coletados em cada um dos questionários aplicados.
Questionário
Aluno
Questionário
Professor
Questionário
Diretor
do Caracterização pessoal, fatores sócio-econômicos e hábitos de
estudo.
do Caracterização pessoal; fatores sócio-econômicos; escolha
profissional; comprometimento com a profissão; fatores
pedagógicos;
recursos
pedagógicos;
características
administrativas da escola; fatores do aluno (disciplina,
respeito, atração aos alunos) e problemas da escola.
do Caracterização pessoal; fatores sócio econômicos; escolha
profissional; comprometimento com a profissão; problemas
na escola; mudanças educacionais; fatores pedagógicos e
visão geral da gestão.
Quadro 01: Composição dos questionários sócio-educacionais utilizados pelo Projeto a partir de 2001
Os relatórios de ocorrências da aplicação, com questões abertas, têm sido tabulados para que o Projeto
seja informado sobre quebras de padronização ou qualquer evento que tenha tido impacto na aplicação.
Os escores brutos têm sido tratados, considerando-se não só os gabaritos, mas também as informações
tabuladas. Devido às características de aplicação das provas, essa tem sido uma das fases mais
demoradas na análise dos resultados, com o uso da Teoria Clássica e da Teoria de Resposta ao Item
(TRI).
Para a Avaliação de Desempenho, os resultados têm sido divulgados em modelo de relatório, em
formatos diferentes a depender do seu leitor-alvo. Em todos eles, entretanto, desde 2001, o Projeto usa
escalas de desempenho, com geração de padrões por Angoff e Idmatching, para facilitar a sua
comunicação. A criação dessas escalas contou com a participação de professores e dirigentes das
unidades escolares. A partir de então, os resultados tem sido apresentados usando-se a freqüência de
alunos em cada um dos quatro níveis da escala: desempenho bom, desempenho médio, desempenho
baixo e desempenho insuficiente. Em 2002, além dos dados de desempenho, análises pedagógicas de
cada uma das questões das provas foram incluídas nos relatórios.
Vários modelos de relatórios tem sido desenvolvidos: para a escola, para a SEC, para suas diretorias
regionais, para as secretarias municipais de educação e para o público em geral. Os relatórios
encaminhados a cada escola, com dados de seu desempenho além do resultado geral do Estado,
permitem-lhe a discussão de realidade observada com sua comunidade e a conseqüente adequação do
plano de desenvolvimento (PDE). Os relatórios encaminhados para as secretarias municipais e estadual
de educação e suas diretorias regionais contêm dados agregados de suas escolas, de maneira a informar
a tomada de decisões de políticas e diretrizes tanto gerenciais quanto pedagógicas. A partir da
divulgação, o Projeto vem propondo reuniões para esclarecimentos com as secretarias municipais de
educação e com os diretores de escola.
Nos primeiros anos, os dados contextuais levantados através dos questionários foram encaminhados às
escolas sem um aprofundamento da análise. A partir de 2001, as escolas passaram a receber apenas as
informações sobre a média de idade de seus alunos e sobre ocorrências no processo de aplicação de
provas nos seus relatórios individualizados. Pesquisadores da Universidade Federal da Bahia foram
contratados para relacionar os dados contextuais aos desempenhos obtidos, na busca pelos fatores intra
e extra escolares que apontam para uma escola eficaz. Os resultados dessas pesquisas deverão ser
divulgados em um documento técnico. Para facilitar seu entendimento, um folder será criado e enviado
13
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
às escolas, com as suas principais conclusões.
De maneira geral e breve, essas têm sido as características gerais da Avaliação de Desempenho. De
forma integrada, uma segunda linha de avaliação foi implementada a partir de 2001. A seguir, estão
colocadas suas feições principais.
3.1.2 A Avaliação de Aprendizagem
Visando disponibilizar aos professores um indicador de desempenho em tempo hábil para que ações de
remediação pudessem ser implementadas, no decorrer do ano letivo, foi criada a Avaliação de
Aprendizagem, complementar à Avaliação de Desempenho, com previsão de aplicação de provas ao
final de cada unidade letiva e com correção dos testes feita pela própria escola.
Ao Projeto de Avaliação Externa coube elaborar os testes, padronizar a aplicação e definir os
percentuais de acerto abaixo dos quais uma remediação se faria necessária. Desde 2001, o diagnóstico
do processo ensino x aprendizagem nas escolas do Educar para Vencer passou a estar também
relacionado a uma referência estadual comum e aos domínios de conteúdos tratados em cada unidade.
Por aplicação, uma amostra controlada tem sido definida e seus resultados são usados para balizar a
elaboração dos testes seguintes e a produção de vídeos didáticos, posteriormente distribuídos como
apoio às ações de remediação. Os fundamentos que suportam essa abordagem pressupõem que,
evitando acúmulo de problemas na aprendizagem em cada turma desde o início do ano, a escola venha
a melhorar a qualidade de ensino que oferece.
As escolas têm tido um papel essencial na Avaliação de Aprendizagem. No início de cada ano, as
matrizes de referência têm sido divulgadas e recomenda-se que as comunidades escolares reúnam-se
para analisá-las no contexto de seus planos de curso. A cada unidade já concluída, os professores das
séries avaliadas aplicam os testes enviados pelo Projeto. A correção desses instrumentos é finalizada
com o preenchimento de um quadro diagnóstico por turma, de onde constam as informações sobre os
cálculos para obtenção dos resultados e os percentuais mínimos de proficiência esperados. O Projeto
sugere que, em cada escola, professores regentes de turmas de uma mesma série encontrem-se para
discutir os resultados obtidos por elas, comparar seus planos de aula, sugerir novas ações e propor
remediação. Em algumas unidades escolares, os pais têm sido envolvidos nesse processo.
O acompanhamento a essa ação tem sido feito através dos Relatórios do Diretor (questionários
enviados a todas as escolas a cada aplicação). Em lugar de levantar os resultados obtidos em cada
turma, o Projeto pergunta às escolas sobre as ocorrências durante o planejamento e aplicação das
provas e sobre as ações propostas e/ou implementadas pela comunidade escolar a partir da discussão
desses resultados. As informações que as escolas encaminham ao Projeto nesses Relatórios são então
tabuladas e voltam à equipe central como feedback para suas próximas ações.
A Avaliação de Aprendizagem teve início em 2001, com a aplicação de testes de português e
matemática para os alunos das 1a e 2a séries do Ensino Fundamental e ciclo básico I das escolas
públicas urbanas de 130 municípios. Os testes foram aplicados em alunos de 1.532 escolas, uma vez
concluídas a 2a e a 3a unidades do ano letivo. Em 2002, a Avaliação de Aprendizagem foi expandida e
2.736 escolas de 273 cidades receberam testes de 1a a 4a séries nas três primeiras unidades do ano
letivo.
14
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
A pesquisa do impacto da Avaliação de Aprendizagem na melhoria da qualidade de ensino ainda não
foi aprofundada. Os relatórios-síntese com as informações coletadas nos Relatórios do Diretor
mostram que, de maneira geral, as escolas referem algum tipo de melhoria advinda da implementação
dessa vertente, em especial relacionada ao replanejamento de ações a partir dos resultados obtidos.
Estudos estão sendo encomendados sobre a associação entre a Avaliação de Aprendizagem e os
resultados da Avaliação de Desempenho nas escolas.
A necessidade de implementação da Avaliação de Desempenho e da Avaliação de Aprendizagem,
dentro de um rigor técnico que assegurasse validade, confiabilidade e isenção e respeitado o limite
orçamentário, fez com que o Governo do Estado optasse pela formação e capacitação de uma equipe de
trabalho, que, em si, tornou-se a terceira vertente de trabalho. A próxima sessão traz algumas
informações sobre essa iniciativa.
3.1.3 Criação de uma agência de avaliação
O terceiro componente do Projeto de Avaliação Externa objetivava a criação de uma agência
permanente de avaliação, independente e tecnicamente competente, a qual poderia dar continuidade à
realização de avaliações para a Secretaria de Educação do Estado da Bahia, sem ser necessariamente
exclusiva. Os quatro anos iniciais do Projeto podem ser divididos em dois períodos: o primeiro,
relacionado à formação de uma equipe básica e sua capacitação específica em avaliação em larga
escala. Concluídos os 18 meses de capacitação, essa equipe passou para o segundo período,
caracterizado pela busca de opções que levassem à institucionalização da agência.
Enquanto o processo de institucionalização não é concluído, o Projeto conta com um comitê
acadêmico, responsável pelo fomento de pesquisas educacionais que usem os dados coletados de 1999
a 2003 e pela integração com a comunidade científica da Universidade Federal da Bahia, em particular,
e de com outras instituições no geral.
A implementação das ações ligadas às avaliações de desempenho e de aprendizagem e a formação de
uma competência em avaliação em larga escala para o estado da Bahia vêm acontecendo em um
contexto rico em desafios, brevemente apresentados a seguir.
4. Principais desafios para a Avaliação em Larga Escala na Bahia
4.1 Qualidade da educação
De todos os debates conduzidos no início da implementação do Projeto, talvez o mais polêmico e o que
tenha ficado mais distante de uma decisão seja a definição do conceito de Qualidade da Educação.
A verificação da qualidade da educação pública através de instrumentos aplicados em um determinado
momento do ano letivo é insuficiente para a identificação das escolas que estão efetivamente
conduzindo seus alunos a uma aprendizagem para a vida cidadã, como determinado pela Lei de
Diretrizes e Bases n. 9394/96 em vigor. Vários outros indicadores, como o de eficácia, o de agregação
de valor ou o de padrões mínimos precisam ser observados na elaboração de um “índice composto de
qualidade”.
Os sistemas educacionais têm necessidade, pelas mais variadas razões, de definição de objetivos e
metas relacionados à qualidade de ensino. Os dados fornecidos atualmente não permitem uma
utilização nesse sentido. A ampliação do sistema estadual de avaliação para a utilização do “índice
15
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
composto de qualidade”, que dê aos sistemas uma maior amplitude de utilização de seus resultados sem
ferir princípios de legitimidade, validade e isenção, é, sem dúvida, o primeiro dos desafios para a
avaliação em larga escala na Bahia.
4.2 Permanência do processo
Fletcher nos chama atenção, em seu artigo “Propósitos da avaliação educacional: uma análise das
alternativas”, sobre o compromisso a longo prazo que uma relação de avaliação exige. O desenho de
um sistema de avaliação atende a um determinado conjunto de objetivos, para os quais se voltam tanto
a elaboração de instrumentos e metodologias de análise quanto a forma de relacionamento avaliador x
avaliado. A alteração de objetivos sem o devido acompanhamento da mudança do próprio sistema
implica na perda de validade e confiabilidade. Variações em cada etapa do processo de avaliação,
mesmo que os objetivos permaneçam, podem também interferir na legitimidade do sistema.
Infelizmente, esse entendimento não é observado sempre em mudanças de governo e perde-se, com
alguma freqüência, no mínimo a comparabilidade de resultados ao longo dos anos. Seria interessante
ter o sistema de avaliação – tanto em nível nacional, quanto estadual – atrelado ao Estado (para um
interesse de sociedade) e não aos governos.
O sistema de avaliação em larga escala implementado na Bahia está inserido em um programa
prioritário do Governo do Estado. A continuidade do sistema criado e a garantia de sua isenção política
são dois grandes desafios.
4.3 Uso sistêmico dos resultados pelos órgãos centrais
O Projeto de Avaliação Externa tem proposto aos órgãos centrais de educação – tanto estadual quanto
municipais – a análise de seus dados de maneira sistêmica, não individualizada em nível de unidade
escolar. Esse exercício demanda dos técnicos e educadores um conhecimento profundo dos seus
sistemas educacionais e grande articulação entre seus diversos componentes.
Da mesma maneira, deve haver espaço para que a análise dos resultados do sistema estadual de
avaliação considere os dados do SAEB e de outros sistemas externos, bem como das pesquisas
acadêmicas relacionadas à qualidade de ensino, para que as conclusões resultantes possam vir a
contribuir, de maneira eficaz, para a tomada de decisões.
4.4 Comunicação eficaz com um público heterogêneo
As comunidades escolares têm um perfil muito heterogêneo. Garantir uma comunicação eficaz implica
na busca constante de uma linguagem que consiga atingir a todos. Apresentar as informações do
Projeto de forma útil para as escolas tem sido um desafio para toda a equipe.
Esses são alguns dos desafios que o Projeto tem enfrentado. Outros já foram, de modo geral, vencidos,
como a resistência inicial das escolas à Avaliação Externa ou a desconfiança em relação à lisura do
processo de aplicação de provas. De maneira articulada e contando sempre com a participação de
educadores, a próxima etapa do Projeto de Avaliação Externa demandará muito trabalho e capacitação
contínua.
16
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
5. Findos os primeiros quatro anos
O sistema de avaliação em larga escala do estado da Bahia considera um replanejamento de suas macro
ações, principalmente em relação a características como freqüência e abrangência de suas aplicações,
sem risco, contudo, para a comparabilidade dos resultados de desempenho ao longo dos anos. A
institucionalização da agência de avaliação será uma das grandes ações, bem como a intensificação dos
usos dos resultados da avaliação na tomada de decisões, tanto em nível da escola quanto das secretarias
de educação.
6. Referências Bibliográficas
Declaração Mundial sobre Educação para Todos (Satisfação das Necessidades Básicas de
Aprendizagem. Conferência Mundial de Educação para Todos, Jomtien/Tailândia, 1990
CASTRO, M.H.G de. “A educação para o século XXI: o desafio da qualidade e da equidade”, Brasília:
Instituto Nacional de Estudos e Pesquisas Educacionais, 1999
COELHO, S. “Experiências do Ceará na aplicação dos resultados de pesquisa e avaliações”. In: Anais
do Marco de Aprendizagem Contínua em Avaliação. Salvador, 2001.
CONSELHO NACIONAL DE EDUCAÇÃO. “Diretrizes Curriculares Nacionais – Educação Básica”,
Parecer 04/98. Brasília-DF, 2001.
CONSELHO NACIONAL DE EDUCAÇÃO. “Diretrizes Curriculares Nacionais – Educação Básica”,
Resolução CNE/CEB no. 02/98. Brasília-DF, 2001.
FLETCHER, P.R. “Propósitos da avaliação educacional: uma análise das alternativas”. In: Estudos em
Avaliação Educacional, no. 11, São Paulo, Fundação Carlos Chagas, 1995.
FRANCO, C. ; BONAMINO, A. “Iniciativas recentes de Avaliação da Qualidade da Educação no
Brasil”. In: Franco, C. (org.), Avaliação, Ciclos e Promoção na Educação, Porto Alegre, Artmed Editora, 2001.
GATTI, B.A; VIANNA, H.M; DAVIS, C. “Problemas e impasses da avaliação de projetos e sistemas
educacionais – dois casos brasileiros”. In: Estudos em Avaliação Educacional, no. 04, São Paulo, Fundação
Carlos Chagas, 1991.
INEP 2000. Resultados do SAEB/99. INEP/MEC, Brasília.
KELLAGHAN, T.. “O uso da avaliação na reforma educacional”. In: Ensaio – Avaliação e Políticas
Públicas em Educação. Vol.09, n. 32, Rio de Janeiro, 2001
LOCATELLI, I. “Políticas de avaliação no Brasil”. In: Anais do Marco de Aprendizagem Contínua em
Avaliação. Salvador, 2001.
LUCKESI, C.C. “Avaliação da Aprendizagem Escolar”. 10ª ed. São Paulo: Cortez, 2000.
MARTINS, A. M. “Educação e diretrizes de mudança: possibilidade e limites do Estado”. In: Estudos
em Avaliação Educacional, no. 15, São Paulo, Fundação Carlos Chagas, 1997.
McTIGHE, J. ; FERRARA, S. “Assessing learning in the Classroom”, United States, NEA, 1998
MEC. Parâmetros Curriculares Nacionais, Vol.1, MEC/Brasília-DF.
SEC/SEI: Anuário Estatístico da Educação 2001. Secretaria da Educação. – Salvador: Secretaria da
Educação/SEI, 2002
SEC. “Diretrizes Regimentais Básicas para as Escolas Públicas Estaduais”. Secretaria da Educação do
Governo da Bahia: 2000.
SOUSA, S.Z.L. “Revisando a teoria da avaliação da aprendizagem”. In: Souza, C.P. de (org), Avaliação
do Rendimento Escolar. 6ª ed. Campinas, SP: Papirus, 1997.
VIANNA, H.M; ANTUNES, A.L; SOUZA, M.A., “Desenvolvimento de um Programa de Avaliação do
sistema estadual de ensino: o exemplo de Minas Gerais”, In: Estudos em Avaliação Educacional, no. 08, São
Paulo, Fundação Carlos Chagas, 1993.
VIANNA, H.M. “Avaliações Nacionais em larga escala: análises e propostas”, In: Estudos em
Avaliação Educacional, no. 27, São Paulo, Fundação Carlos Chagas, 2003.
17
VIII Congreso Internacional del CLAD sobre la Reforma del Estado y de la Administración Pública, Panamá, 28-31 Oct. 2003
Resenha Biográfica
A autora desse artigo é formada em engenharia agronômica e em turismo, fez especialização em
administração hoteleira e, no momento, é mestranda em administração pública. Tem experiência em
implantação e gerenciamento de projetos e em capacitação profissional e atuou como professora para o
ensino médio e ensino fundamental. Em 1999, foi convidada a assumir a coordenação do Projeto de
Avaliação Externa, atividade que vem desenvolvendo desde então.
Para contato:
Endereço eletrônico: [email protected] ou [email protected]
Endereço postal: Rua Jânio Quadros, n. 22, Amaralina
41900-340 Salvador, Bahia, Brasil
Telefones: (55 71) 2425 1472 ou (5571) 9133 9317
18