"A ascensão neoliberal colocou a universidade sob suspeita e estimulou precárias (e hegemônicas) avaliações quantitativas. Ao reproduzirem a lógica do lucro, geraram nefastas distorções. É fundamental analisar suas disfuncionalidades."
O artigo é de Marcos Barbosa de Oliveira, publicado por Outras Palavras, 12-07-2022.
Marcos Barbosa de Oliveira é bacharel em Física pela Universidade de São Paulo (USP) (1970). Doutor em História e Filosofia da Ciência pela Universidade de Londres (1981).
Livre-docente pela USP (1997). Estágios de pesquisa no exterior nas Universidades de Essex (janeiro a março de 1987), de Bristol (outubro a dezembro de 1994) e na New School for Social Research (setembro a dezembro de 1999).
Professor Associado da Faculdade de Educação da USP, Departamento de Filosofia da Educação e Ciências da Educação,até a aposentadoria, em agosto de 2014.
A partir do mesmo ano, Professor Colaborador junto ao Programa de Pós-Graduação em Filosofia, da FFLCH-USP. Vice-coordenador do Grupo de Pesquisa "Filosofia, História e Sociologia da Ciência e da Tecnologia" do Instituto de Estudos Avançados da USP. Membro da Associação Filosófica Scientiae Studia.
Este ensaio, cujo título original é A avaliação neoliberal na Academia: funções, disfuncionalidades e alternativas, será publicado em duas partes.
Nesta primeira parte, serão tratados os seguintes tópicos:
1. A avaliação acadêmica como política pública;
2. O problema da mensuração: número de citações como indicador de qualidade;
3. As disfuncionalidades da avaliação neoliberal.
Na segunda parte, que será publicada na próxima semana, os tópicos serão os seguintes:
4. Formas tradicionais de avaliação na ciência;
5. Memoriais;
6. A reação da comunidade científica;
7. Avaliação e neoliberalismo;
Apêndice: O quantitativo e o qualitativo na avaliação.
Nas últimas décadas, em praticamente todos os países do mundo globalizado, a avaliação na Academia vem passando por profundas transformações em sua natureza, e na importância do papel que desempenha na vida acadêmica. As novas formas de avaliação operam em todos os níveis: são aplicadas, num extremo, aos pesquisadores individuais; no outro, aos países (e mesmo, num certo sentido, ao mundo como um todo); e, na região intermediária, a departamentos, programas de pós-graduação, grupos de pesquisa, faculdades, universidades, institutos de pesquisa, etc. Os dados em que se baseiam as avaliações são essencialmente os mesmos em todos os níveis; o que varia é apenas o grau de agregação. Uma das características mais marcantes – e mais controvertidas – das novas formas de avaliação é seu viés quantitativo, o peso atribuído ao número de artigos publicados, citações recebidas, patentes conseguidas, mestres e doutores formados, etc.
As avaliações não são um fim em si mesmo, seus resultados funcionam como critérios na contratação e progressão na carreira de docentes-pesquisadores, alocação de bolsas e verbas para pesquisa, concessão de bônus, criação e extinção de unidades acadêmicas, formulação das políticas científicas e tecnológicas, etc. Desempenhando tal papel, as novas formas de avaliação constituem uma peça-chave no sistema de administração da Academia.
Uma política pública caracteriza-se por seus fins ou, em outras palavras, pelas funções que deve desempenhar, e pelos meios empregados tendo em vista a realização dos fins. Uma política pública precisa ser avaliada, e assim a avaliação na Academia, enquanto política pública, precisa, ela própria, ser avaliada. Tal avaliação da avaliação pode se dar antes, durante ou depois de sua implementação, e deve levar em conta:
1) a legitimidade das funções, isto é, se de fato têm a capacidade de contribuir para o bem de todos;
2) a eficácia dos meios, isto é, em que medida têm a capacidade de contribuir para a realização dos fins; e
3) os efeitos colaterais de sua implementação.
De acordo com a análise que proponho, são três as principais funções da forma neoliberal da avaliação acadêmica:
1) maximizar a produtividade;
2) satisfazer o princípio republicano; e
3) combater a desídia.
Considerada abstratamente, a valorização do aumento de produtividade nada tem de condenável: em princípio, é sempre bom conseguir maior produção com igual, ou menor, uso de recursos. Procurando um termo para designar essa valorização, o que vem à mente é “produtivismo”. “Produtivismo”, entretanto, é um termo essencialmente crítico, dotado de forte carga pejorativa, e portanto inadequado num contexto em que o objetivo é uma avaliação isenta, sem parti pris, da avaliação acadêmica. Em tal contexto, um substituto não problemático para “produtivismo” pode ser producionismo. “Produtivismo” fica reservado para formas disfuncionais do producionismo.
O adjetivo no termo “avaliação neoliberal” deve-se ao fato de que a forma de avaliação contemporânea, que começou a se implantar por volta da década de 1990, promovendo o viés quantitativo, decorre de uma das facetas do ideário neoliberal, a saber, o empresariamento, entendido como o preceito de que os órgãos públicos, inclusive as universidades e instituições de pesquisa públicas, devem adotar as formas de administração próprias das empresas privadas.
O objetivo primordial das empresas é maximizar o lucro, e o lucro é algo essencialmente quantitativo, expresso em unidades monetárias. A administração está a serviço desse objetivo: a boa administração é a que contribui eficazmente para a maximização do lucro. As universidades públicas e os institutos públicos de pesquisa, entretanto, não visam o lucro. Para implementar em seus domínios uma forma de administração estruturalmente igual à das empresas, é necessário um substituto para o papel do lucro, de algo a ser maximizado. O substituto é a produtividade, a razão entre os bens produzidos e os recursos gastos em sua produção. Para medir a produtividade é necessário medir a produção – e esse é o papel da avaliação neoliberal que, para cumpri-lo, precisa ser quantitativa. A administração baseada nas avaliações quantitativas é uma faceta da transformação da Universidade num simulacro de empresa, daquilo que é produzido (em especial, os artigos científicos) em simulacros de mercadoria, dotados de simulacros de valor de troca. (No que se segue, o contexto deixará claro as ocorrências em que o termo “valor” será usado com o sentido de “simulacro de valor”.)
Explica-se assim o caráter predominantemente quantitativo das formas contemporâneas de avaliação que, quando se para pra pensar, é decididamente contra-intuitivo.
Há um princípio republicano segundo o qual qualquer indivíduo, ou entidade, pública ou privada – enfim, qualquer pessoa, física ou jurídica – que recebe recursos do Estado tem o dever de prestar contas a respeito do uso que deles é feito. Recursos públicos são concedidos com objetivos determinados; trata-se de mostrar, com base neles, que os recursos foram utilizados de maneira honesta, eficiente, etc. No que se segue, vou usar a expressão “Princípio Republicano” para me referir ao princípio republicano assim definido (existem outros, naturalmente).
No mundo acadêmico, a prestação de contas é realizada pela apresentação dos resultados das avaliações. Nesta linha de raciocínio, a segunda função da avaliação é fornecer os dados que fundamentam a prestação de contas, satisfazendo assim o Princípio Republicano. Resta observar que essas considerações valem para todos os níveis da vida acadêmica – do professor-pesquisador, ou docente, a universidades e países.
Para combater as resistências à implementação das formas neoliberais de avaliação, seus defensores procuram reforçar o Princípio Republicano com a alegação de que a prestação de contas é uma exigência não só do Estado, mas de toda a sociedade. Mas, para que uma pessoa sustente que a comunidade científica deve à sociedade prestação de contas por seu uso de recursos públicos, é necessário que tenha algum interesse por e algum conhecimento a respeito da ciência e da tecnologia. Pelo menos no Brasil, pesquisas sobre a percepção pública da ciência atestam que, para a grande maioria da população, o nível de conhecimento sobre a ciência é baixíssimo, e portanto incompatível com a ideia de que a obediência ao Princípio Republicano por parte da comunidade é uma exigência de toda a sociedade, não apenas do Estado. As pesquisas sobre a percepção pública da ciência em pauta são as correspondentes à quarta e quinta edições da série realizada pelo Centro de Gestão e Estudos Estratégicos (CGEE, 2015, 2017 e 2019) e a realizada pelo Instituto Nacional de Ciência e Tecnologia em Comunicação Pública da Ciência e Tecnologia (INCT-CPCT, 2019). Com o objetivo de estimar o conhecimento dos entrevistados a respeito da ciência, as pesquisas utilizaram formulários contendo perguntas sobre a veracidade de afirmações como “O centro do planeta Terra é muito quente”; “Os antibióticos servem para matar vírus”; e “O sol nunca brilha no Polo Sul”. De maneira geral, as respostas indicam um baixíssimo nível de conhecimento; p. ex., 73% dos respondentes acreditam que “os antibióticos matam vírus” (CGEE, 2019, p. 20). Entre os dados que repercutiram com mais intensidade na mídia quando da divulgação dos resultados da INCT-CPCT e da CGEE-2019, o destaque foram as baixíssimas porcentagens (10%) de entrevistados capazes de citar o nome de pelo menos um cientista brasileiro e (12%) de uma instituição brasileira de pesquisa (INCT-CPCT, 2019; CGEE-2019). Outra pesquisa dessa natureza foi realizada em fins de 2021 pelo centro de estudos Sou Ciência. A chamada para a exposição dos resultados foi a seguinte:
O Sou Ciência realizou mais uma pesquisa de opinião pública, dessa vez com levantamentos sobre as impressões que a população em geral tem das universidades públicas. E um dos resultados é alarmante: quase 40% da população não tem a menor ideia do que se faz nas universidades públicas do País, e só 11% citaram a ciência como atividade dessas instituições. (Cafardo, 2021)
O reforço do Princípio Republicano alegado por defensores da avaliação neoliberal, portanto, não se sustenta. O Princípio, entretanto, continua valendo, porém com a seguinte ressalva. Ao apresentá-lo, defini o Princípio dizendo que de acordo com ele “qualquer indivíduo, ou entidade, pública ou privada – enfim, qualquer pessoa, física ou jurídica – que recebe recursos do Estado tem o dever de prestar contas a respeito do uso que deles é feito”. A ressalva diz respeito ao termo “contas”, que, evidente e essencialmente, situa-se na esfera do quantitativo. Sendo assim, para funcionar como prestação de contas, a avaliação precisa também ser quantitativa. Para quem é partidário de avaliações qualitativas, uma expressão melhor – como sugiro em Oliveira (2014) – é “dar satisfação”. Com essa reformulação, o argumento em pauta se traduz num requisito para qualquer forma de avaliação que se proponha como alternativa à forma neoliberal, a saber, o de que funcione adequadamente como maneira de contemplar o Princípio Republicano.
Para caracterizar esta função, vou usar o termo “desídia”, que o dicionário Houaiss define, no sentido aqui relevante, como:
“1. disposição para evitar qualquer esforço físico ou moral; indolência, ociosidade, preguiça; 2. falta de atenção, de zelo; desleixo, incúria, negligência”. A terceira função é a de combater a desídia entre os docentes, isto é, controlá-los de modo a impedir que deixem de realizar o trabalho que deles se espera, em contrapartida ao salário que recebem. (Um marco da implementação de formas neoliberais de avaliação nas universidades brasileiras foi a publicação da famosa lista dos improdutivos da USP em fevereiro de 1988, pela Folha de S. Paulo. Foram considerados improdutivos os pesquisadores-docentes que nada teriam publicado em 1985 e 1986. A acusação de “improdutivos” é prova do espírito de combate à desídia que motivou a elaboração da lista.)
Na interpretação que estou desenvolvendo, a necessidade de um dispositivo que cumpra essa terceira função é decorrência de certa concepção do trabalho – a saber, a concepção penosa – caracterizada em Oliveira (2010) –, segundo a qual o trabalho é por natureza uma atividade penosa que os seres humanos só exercem quando premidos pela necessidade. Como mostrei nesse artigo, ela já figura no pensamento de Adam Smith. No século XIX, é defendida incisivamente por Jevons, que define o trabalho como “o esforço penoso a que nos submetemos para evitar sofrimentos de maior intensidade, ou para obter prazeres que deixem um saldo a nosso favor” (Jevons, 1983 [1871], p. 109). E, na virada para o século XX, constatando o caráter consensual da concepção, tanto na linhagem do pensamento econômico a que Jevons pertence, quanto no senso comum, diz Veblen:
Um dos lugares comuns da teoria econômica recebida é o de que o trabalho é desagradável [irksome]. Muitas discussões partem do axioma segundo o qual, com relação a questões econômicas, os homens desejam acima de tudo obter os bens produzidos pelo trabalho, e evitar o trabalho por meio do qual os bens são produzidos. De maneira geral, o senso comum está bem de acordo com a teoria corrente quanto a isso. No ideal do senso comum, a beatitude econômica reside num irrestrito consumo de bens, sem trabalho; enquanto o sofrimento econômico perfeito é o trabalho não remunerado. (Veblen, 1898, p. 187)
Tal consenso permanece firme na ortodoxia neoclássica dominante nos dias de hoje, como um pressuposto fundamental, geralmente não explicitado nem discutido. Levando adiante a análise, deve-se observar que a concepção penosa é uma das facetas da concepção capitalista do trabalho, em que a força de trabalho funciona como mercadoria, objeto de compra e venda na relação entre empregado e empregador. O salário é a retribuição dada ao trabalhador para compensar o sofrimento envolvido em seu trabalho. A concepção se completa com a ideia de que se trata de uma relação conflituosa, em que a vantagem de um é a desvantagem do outro: o empregador quer o máximo de trabalho pelo mínimo de salário, o trabalhador o máximo de salário pelo mínimo de trabalho. Daí se tira a implicação de que o único incentivo eficiente para o trabalhador se dedicar-se com mais afinco a seu trabalho é o que consiste em premiar essa dedicação extra com aumento na retribuição. Prova disso é a predileção pela estratégia dos bônus e – no caso, p. ex., das universidades públicas estaduais paulistas – a crítica à isonomia salarial, por parte dos gestores.
À luz dessas considerações, a desídia aparece como uma maneira de minimizar o trabalho fornecido em troca do salário, e a avaliação como um antídoto, um dispositivo de controle, para impedir essa prática.
Acontece, entretanto, que não é necessário mais que o bom senso para mostrar que a concepção penosa não se sustenta. Como diz George Orwell, o que é, e o que não é, trabalho? É trabalho cavar, carpintejar, plantar árvores, derrubar árvores, cavalgar, pescar, caçar, dar de comer às galinhas, tocar piano, tirar fotos, construir uma casa, cozinhar, costurar, fazer chapéus, consertar motocicletas? Todas essas atividades são trabalho para algumas pessoas, e lazer (play) para outras. Há na verdade muito poucas atividades que não possam ser classificadas ou como trabalho ou como lazer dependendo da maneira como se escolhe considerá-las. O trabalhador braçal liberado do serviço de cavar pode querer gastar seu tempo de lazer, ou parte dele, tocando piano, enquanto o pianista profissional pode ficar bem satisfeito de sair e cuidar de seu canteiro de batatas. Portanto a antítese entre o trabalho, como algo intoleravelmente tedioso, e o não-trabalho como algo desejável, é falsa. (Orwell, 1958, p. 197)
Em outras palavras, a grande maioria das atividades humanas pode ser exercida como trabalho – isto é, profissionalmente, como meio da ganhar a vida –, ou como lazer – quando motivada apenas pela satisfação intrínseca que proporciona. Minha sugestão é a de que, para completar o quadro, é necessário postular, além do trabalho e do lazer, um terceiro conceito, que vou designar com o termo “Trabalho”, com T maiúsculo.
A possibilidade de uma atividade ser exercida como Trabalho existe em praticamente todos os domínios, porém se realiza mais nitidamente nos domínios da ciência, das artes e dos esportes, em que as atividades transcendem as voltadas para a satisfação das necessidades materiais dos seres humanos. Nesses domínios privilegiados, as atividades têm um quê de gratuito. Em comum com o lazer, o Trabalho tem a característica de proporcionar uma satisfação intrínseca. O termo “lazer”, entretanto, tem conotações de fruição, de puro prazer. O Trabalho é diferente: sempre envolve esforço, e com frequência, sofrimento. Pensem no autor desesperado por não encontrar um bom final para o romance que está escrevendo, ou vítima de um bloqueio criativo; num cientista frustrado pelos resultados de um experimento que refutam a teoria em que está empenhado; nos esportistas diante das derrotas. O lado bom, evidentemente, são as conquistas, a satisfação com a obra bem realizada, os avanços na busca do conhecimento, as vitórias. O Trabalho envolve assim uma mistura dialética de prazer e sofrimento que tem uma dimensão existencial, fundamental para a identidade do Trabalhador.
Uma atividade pode ter mais de uma motivação; em particular, pode ser exercida simultaneamente como trabalho e como Trabalho, unindo, por assim dizer, o útil ao agradável. Esse é o caso paradigmático no que se refere aos docentes das universidades públicas brasileiras. E o trabalho, como ganha-pão, não é penoso quando é ao mesmo tempo Trabalho. Enquanto um tipo ideal, o docente é motivado pela paixão pela pesquisa e/ou ensino e/ou alguma atividade de extensão. O salário é necessário para sua subsistência, mas o objetivo não é maximizá-lo. Ninguém escolhe ingressar numa carreira acadêmica para ficar rico.
Uma evidência para essa interpretação é a que diz respeito aos docentes aposentados, e aos “aposentandos” – ou seja, os que continuam na ativa apesar de já satisfazerem os requisitos de tempo de contribuição e idade para se aposentarem. Quanto aos aposentados, o que se observa, pelo menos nas universidades públicas paulistas, é o grande número deles que continua trabalhando, às vezes até mais do que quando estavam na ativa, quer mantendo um vínculo com a pós-graduação, quer como freelancers, escrevendo, dando palestras, organizando publicações, participando de bancas, etc., em geral sem receber remuneração alguma. Em 2012, foi instituído na USP o Programa Professor Sênior para os docentes aposentados que mantêm suas atividades acadêmicas fazendo jus, no plano pecuniário, ao auxílio alimentação. Pode-se dizer entretanto que tal incentivo é desnecessário, uma vez que mesmo antes da criação do Programa já era considerável a proporção de aposentados em atividade, e mesmo agora, há muitos nessa situação não incluídos no Programa.
O mesmo vale para os “aposentandos”. Com relação a estes, cabe notar que a partir de 2004, em decorrência da promulgação da Emenda Constitucional nº 41, de 19 de dezembro de 2003, todos os servidores públicos “aposentandos” do país (incluindo os pesquisadores-docentes da Universidade) passaram a fazer jus a um abono de permanência, de valor igual ao de suas contribuições previdenciárias. Pelas mesmas razões apontadas no caso dos aposentados, pode-se afirmar também que esse tipo de incentivo monetário é dispensável.
Em conversas com amigos/as e colegas acadêmicos sobre o tema da avaliação, ouço com frequência alegações de que em seus departamentos há professores-problema, que estão sempre procurando se eximir das obrigações docentes, que são improdutivos, com nenhuma ou pouquíssimas publicações, que não participam dos colegiados, enfim, que são praticantes de desídia. Há muito o que dizer sobre esses casos, incluindo por um lado, como lidar com os já existentes, por outro como evitar que novos apareçam, procurando aperfeiçoar os processos seletivos para ingresso na carreira. A consideração mais fundamental, contudo, é a de que o prejuízo para a sociedade causado por tais professores-problema é muito menor que o correspondente às consequências nefastas do tipo de avaliação produtivista e quantitativa mobilizado como antídoto – que além do mais tem uma eficácia muito duvidosa.
Essas considerações lançam nova luz sobre a questão da desídia, fazendo com que ela se afigure como um pseudoproblema.
Mas se a desídia é um pseudoproblema, que interesse teriam os neoliberais em atribuir à avaliação a função de combatê-la? Para responder essa pergunta convém recorrer à distinção, sugerida por Robert Merton, entre funções manifestas e funções latentes. “As funções manifestas são aquelas consequências objetivas que contribuem para o ajustamento ou adaptação do sistema, e são intencionais e reconhecidas pelos participantes do sistema” e “as funções latentes, correlativamente, são as não intencionais e não reconhecidas.” (Merton, 1957, p. 51) Uma das vantagens heurísticas da distinção é a de que ela “torna mais clara a análise de padrões sociais aparentemente irracionais”, contribuindo para a “interpretação de muitas práticas sociais que persistem mesmo que sua função manifesta claramente não se realize” (Merton, 1957, p. 64).
Entre os casos estudados por Merton, no campo da antropologia encontra-se o dos rituais do povo Hopi, cujo objetivo explícito é fazer com que chova, sendo essa sua função manifesta. Aos olhos da modernidade, comportamentos humanos dessa natureza não têm relação causal alguma com fenômenos meteorológicos. Mas sendo assim, como se explica a realização dos rituais? Explica-se dizendo que ela desempenha uma função latente, a de fortalecer os laços afetivos que unem os indivíduos numa comunidade. Outro exemplo é o do consumo conspícuo, estudado por Veblen, dotado de uma função manifesta ‒ a satisfação com o uso ou consumo dos bens possuídos ‒, mas também uma função latente ‒ o prestígio obtido pela ostentação da riqueza.
No caso em pauta o combate à desídia é a função manifesta. E qual é a latente? A resposta a meu ver situa-se no campo do debate público. A tese é a de que a avaliação neoliberal, além das já expostas, tem uma função latente, sua verdadeira razão de ser, que consiste em colocar na defensiva seus críticos, dando a entender que pertencem à categoria de docentes relapsos, a quem evidentemente não interessa o controle exercido por meio da avaliação. Apesar de insustentável, a alegação tem certa eficácia retórica, evidenciada pela frequência com que textos críticos da avaliação neoliberal fazem profissão de fé na legitimidade da avaliação decorrente do Princípio Republicano. É como se dissessem: somos a favor da avaliação, e portanto, avessos à desídia. Eis dois exemplos:
1. Do texto introdutório de um número temático sobre produtividade e avaliação docente da revista Movimento em debate, publicada pela Associação dos Docentes da Unicamp: “Obviamente a Universidade tem que ser avaliada. Mais do que uma questão administrativa ou legalista essa necessidade de avaliação corresponde ao direito da sociedade de saber em que seus recursos são aplicados […]”. 2. Sentença de abertura do abaixo-assinado difundido pela associação dos docentes da Unesp: “Convictos de que todo servidor público deve prestar contas à sociedade acerca da qualidade do trabalho por ele realizado, consideramos inadequado o atual processo de avaliação do trabalho docente na Unesp”.
O fundamental nessas tomadas de posição é o fato de que o Princípio Republicano pode legitimar a avaliação, no plano mais abstrato, mas não qualquer forma de avaliação. Para substanciar essa alegação, o procedimento consiste em apresentar uma forma de avaliação que satisfaça o Princípio Republicano, porém isenta das disfuncionalidades da avaliação neoliberal. Esse é o objetivo da parte final deste ensaio.
Em primeiro lugar, cabe um esclarecimento sobre os sentidos com que serão usados os termos “quantificação”, e “mensuração” (ou “medição”; tomaremos os dois termos como sinônimos).
Tomando a quantidade como um conceito primitivo, definimos a quantificação como o processo de desenvolvimento da visão da realidade em termos de quantidade. A quantificação é um processo cognitivo, situa-se na esfera das ideias, na mente dos seres humanos. A mensuração situa-se na esfera da prática, é uma forma de interação com a realidade que torna mais definidos, mais precisos, aspectos da visão quantitativa. A quantificação pode existir sem a mensuração. Um bom exemplo dessa possibilidade é a Geometria Euclidiana. O teorema de Pitágoras refere-se, evidentemente, a quantidades – os tamanhos dos lados de um triângulo retângulo. Nada há de absurdo em pensá-lo enquanto uma lei empírica, que pode ser testada pela medição dos lados de triângulos reais, isto é, entidades materiais próximas da ideia do triângulo retângulo. Porém tal operação é exterior ao universo conceitual da Geometria Euclidiana. A mensuração, por outro lado, pressupõe a quantificação: para que algo seja medido, precisa primeiro ser quantificado. O termo matematização, por fim, designa as duas operações em conjunto (matematização = quantificação + mensuração).
A relação da avaliação neoliberal com o neoliberalismo serve para explicar o caráter necessário de seu viés quantitativo. Pode-se dizer então que a avaliação, até este ponto quantifica a produtividade. Fica faltando a mensuração, uma etapa que está longe de ser trivial.
Uma medição pode ser direta ‒ como p. ex., quando se mede a largura de uma mesa com o auxílio de uma fita métrica ‒ , ou indireta, quando se mede a temperatura de um corpo por meio de um termômetro de mercúrio. Neste caso, a acurácia da medição depende de uma hipótese auxiliar, uma lei que relaciona a temperatura de uma quantidade de mercúrio a seu volume. Em outros casos, são várias as hipóteses auxiliares. Quando a veracidade delas é solidamente estabelecida, não há dificuldade. O problema da mensuração aparece quando se admite a necessidade de medir certa grandeza, porém não se conhecem métodos viáveis para realizar a medição que não envolvam hipóteses auxiliares de veracidade duvidosa. Para designar o resultado de medições que pressupõem hipóteses auxiliares duvidosas, usa-se o termo indicador. Evidentemente, quanto mais problemáticas elas forem, mais precários serão os indicadores.
Isso posto, tomamos como ponto de partida a medição de produtividade dos pesquisadores, no que se refere à publicação de artigos. Em primeiro lugar, o que importa em última análise na medição seria a contribuição para a sociedade, para o bem-estar da população. Há muitas razões, como se pode imaginar, que inviabilizam a medição direta da produtividade assim concebida. Como ocorre em situações desse tipo, a estratégia para superar o problema é do tipo “quem não tem cão caça com gato”: se é inviável medir diretamente a produtividade da pesquisa, o plano B consiste em medir (no caso, contar, que é a forma mais elementar de medição) o número de artigos publicados, e adotá-lo como indicador da produtividade, com base na hipótese auxiliar de que há uma proporcionalidade entre as duas grandezas.
Vou chamar de NA o número de artigos publicados – por um pesquisador, grupo de pesquisa, departamento, etc., até um país e o mundo todo, durante um dado intervalo de tempo. À primeira vista, NA parece ter uma natureza puramente quantitativa. Um exame mais atento, entretanto, traz à tona o sistema de revisão por pares – em que os pareceristas, com base em avaliações qualitativas, recomendam a publicação ou rejeição dos artigos. A determinação de NA envolve portanto uma etapa essencialmente quantitativa – a contagem de artigos – mas também uma etapa preliminar qualitativa, que delimita o conjunto de artigos a serem contados.
O elemento qualitativo proporcionado pela revisão por pares ao NA é entretanto muito fraco. Estabelece um patamar mínimo de qualidade para que um artigo seja publicável, mas acima desse não faz qualquer distinção, valorizando igualmente artigos com níveis de qualidade extremamente diversos. Ou, em outras palavras, artigos com valores (mais precisamente, simulacros de valor) muito variados. Apesar disso, o NA é frequentemente usado como indicador de produtividade de cada país, seja em termos absolutos, seja como porcentagem do número total de artigos publicados no mundo. No outro extremo, é comum, mesmo na grande imprensa, em necrológios de pesquisadores eminentes, afirmações da forma “publicou x artigos”.
Em outros contextos, entretanto, a precariedade do NA como indicador de produtividade é mais problemática, implicando a necessidade de indicadores mais sensíveis à qualidade. Pode-se imaginar diferentes maneiras de satisfazer essa carência. Uma delas, por exemplo, consistiria num refinamento da revisão por pares, em que cada parecerista não apenas se pronunciaria a favor ou contra a publicação de cada artigo, mas também lhe atribuiria uma nota, sendo a média das notas tomada como medida do valor do artigo. O indicador NA seria então substituído por um NA ponderado, em que cada artigo entraria no cômputo com um peso proporcional à sua nota.
Não foi esse, contudo, o caminho seguido pelos promotores das novas formas de avaliação, mas sim um outro, baseado nas citações contidas em artigos científicos, que remetem a outros artigos. Numa primeira aproximação, tomar o número de citações que um artigo recebe (NC) como um indicador de sua qualidade pode se justificar pela seguinte consideração: se um autor cita um artigo, é porque lhe atribui algum valor, porque julga que ele traz alguma contribuição relevante. Tal juízo é fruto de uma avaliação qualitativa, ainda que feita de um ponto de vista bem particular, naturalmente. É razoável, portanto, supor que quanto mais um artigo é citado, melhor ele é, ou, em outras palavras, que o valor de um artigo é proporcional a NC.
A pedra fundamental nos processos de avaliação via número de citações é o Science Citation Index (SCI), que tem uma história interessante. Criado para desempenhar uma função, a bibliométrica, é logo cooptado para a função sociológica, e posteriormente para uma terceira, a mais relevante para nossos propósitos, a função avaliativa.
Consideremos um cientista empenhado numa investigação bibliográfica sobre um determinado tema. Suponhamos que seu interesse tenha sido despertado pela leitura de um artigo – que vamos chamar de “A” – referente ao tema, e publicado alguns anos antes. As referências contidas em A, indicadas pelas citações, podem ajudar o cientista, em particular permitindo a apreciação do desenvolvimento histórico das pesquisas sobre o tema. As referências contidas nos artigos citados, por sua vez, podem funcionar da mesma maneira, trazendo à tona outros itens da literatura relevante, e assim por diante.
Tal tipo de investigação bibliográfica, entretanto, proporciona apenas uma visão retrospectiva, cuja busca pode não ser a única, nem mesmo a principal motivação do cientista. Especialmente se ele próprio contempla a possibilidade de realizar pesquisa sobre o tema, o cientista estará mais interessado numa visão voltada para a frente, não para trás, isto é, não da história anterior de A, mas da história posterior à sua publicação. Para isso ele precisa saber, em vez de quais são os artigos citados em A, quais são os artigos em que A é citado – até os mais recentes, que proporcionam uma visão do estado da arte.
A exploração bibliográfica necessária para se obter tal conhecimento é contudo extremamente trabalhosa: requer o exame de todos os artigos posteriores a A (ou, pelo menos, os situados na mesma área), para verificar em quais A é citado. Foi visando a função de facilitar essa tarefa que o SCI foi criado, em 1963, por Eugene Garfield (1925-2017). Consiste (em sua parte central) de uma lista de todos os artigos publicados (num dado universo de revistas), cada um deles acompanhado do rol dos artigos em que é citado.
Logo após sua criação, o SCI passou a desempenhar uma nova função, a de fonte de dados úteis para análises sociológicas e históricas da ciências.
A função avaliativa corresponde ao uso de dados referentes ao número de citações para a avaliação do valor de artigos, e indiretamente, da produtividade dos pesquisadores. Em contraste com a sociológica, a cooptação do SCI para a função avaliativa ocorreu mais tarde, e mais progressivamente. Teve início – não por coincidência – no período em que o ideário neoliberal começou a ganhar terreno, e se fortaleceu na esteira da Nova Gestão Pública. Como diz Gingras (2014, p.110):
Embora a bibliometria avaliativa tenha surgido na década de 1970 (Narin, 1976; Elkana et al., 1978), não passou de um tema limitado e especializado antes de os governos terem absorvido, na década de 1990, a ideologia da “nova gestão” (“new management”), focalizada na avaliação de tudo usando indicadores e padrões (benchmarks) como medidas “objetivas” de eficiência e retorno de investimento.
Até este ponto, nos referimos abstratamente ao número de citações (NC) como um indicador de valor, ou qualidade. No nível mais concreto, os dados do SCI servem de base para vários indicadores de valor. Vamos tratar dos dois mais importantes. O primeiro a ser proposto, e o mais importante, é o Fator de Impacto (FI). O FI é um indicador de qualidade de revistas: para cada ano, o FI de uma revista é o número médio de citações recebidas pelos artigos nela publicados nos dois anos anteriores.
Numa primeira abordagem, a qualidade, ou valor de um artigo seria medida pelo número de citações que recebe. As citações, entretanto só aparecem normalmente anos após a publicação do artigo. Elas não podem, portanto, servir de base para a avaliação do artigo quando publicado. A alternativa adotada pelas métricas consiste em tomar como critério o FI da revista onde foi publicado ‒ quanto maior o FI, maior o valor do artigo.
O segundo indicador importante baseado no número de citações é o índice-h (h-index), proposto pelo físico argentino, filiado à Universidade da Califórnia, Jorge E. Hirsch em 2005. Sua definição é pouco intuitiva: o índice-h de um(a) pesquisador(a) é o número máximo h de artigos de sua autoria que receberam pelo menos h citações. Um exemplo, entretanto deixa bem mais claro seu significado. Se o índice h de um pesquisador é 10, isso significa que ele publicou 10 artigos que receberam 10 ou mais citações (não havendo um número x>10 de artigos com x citações). A alegação feita em sua defesa é a de que tem a vantagem de levar em conta ao mesmo tempo a quantidade – o número de artigos publicados – e sua qualidade, medida pelo número de citações recebidas. Voltaremos a essa temática a seguir.
Na análise que proponho, as disfuncionalidades da avaliação neoliberal dividem-se em dois tipos: a precariedade dos indicadores e as consequências nefastas.
A partir da década de 1990, cresceram simultaneamente o uso do FI como indicador da qualidade de revistas e, indiretamente, primeiro, de cada artigo nelas publicado, e segundo, da produtividade dos pesquisadores. Tal processo gerou uma imensa literatura sobre a temática. Para se ter uma ideia, em 2015, o relatório de uma comissão, formada no Reino Unido para tratar do papel das métricas na avaliação e gestão da pesquisa, incluiu uma lista de 755 obras, relacionadas em 55 páginas (Wilsdon, 2015). Uma boa parte delas é constituída de críticas, das quais procurei extrair, de maneira bem sintética, as objeções mais comuns.
Em primeiro lugar, considerando de novo o número de artigos publicados (NA), o que parecia simples se complica quando um artigo tem não apenas um, mas dois ou mais coautores. Intuitivamente, a tendência é julgar que, se um artigo tem n autores, então o valor creditado a cada autor deveria, ser 1/n. Mesmo se fosse amplamente adotado, o que não acontece, a norma deixaria a desejar, dada a natural diferença entre as contribuições de cada coautor para o valor do artigo.
No que se refere ao FI de revistas enquanto critério de avaliação dos artigos nelas publicados, a principal deficiência é a da assimetria (skewness) na distribuição de citações em cada número da revista. Ou seja, num mesmo número podem coexistir poucos artigos muitíssimo citados, ao lado de outros com poucas ou nenhuma citação. Considere-se, p. ex., o número 17 da revista Annalen der Physik, em que foi publicado, em 1905, o artigo de Einstein expondo os fundamentos da Teoria da Relatividade Restrita. Terá algum outro artigo desse número importância comparável?
Alguns tipos de precariedade afetam negativamente mais as humanidades que as ciências “exatas” (as naturais e a matemática). Um dos mais importantes é a falta de consideração das citações feitas em livros ‒ e não em artigos, como é o paradigma nas exatas. Outro tipo envolve uma distinção entre dois gêneros de citação: a menção simples, da forma “(Autor, data)”, ou “(Autor, data, página), e a menção acompanhada por uma transcrição de uma passagem da obra citada (o que em inglês se chama quote). Parece claro que uma transcrição deve ter um peso maior que uma simples menção, porém nas métricas em vigor a distinção não é feita. Como as transcrições são muito mais comuns nas humanidades, elas são mais afetadas negativamente pela ausência da distinção do que as ciências exatas.
Afirmei acima que a medição da qualidade pelo número de citações é razoável porque “se um autor cita um artigo, é porque lhe atribui algum valor, porque julga que ele traz alguma contribuição relevante”. Essa afirmação genérica, entretanto, oculta uma grande variedade de razões para citar, as quais afetam o valor de cada uma enquanto indicador de qualidade. Garfield (1964) relaciona 15 razões, p. ex., prestar homenagem a pioneiros; dar crédito a trabalhos afins; substanciar alegações, etc. Um caso importante do presente ponto de vista é o da razão “Criticar o trabalho de outros”. Não deveria uma citação deste tipo não contar, ou então ter um peso negativo? Pode-se responder negativamente, alegando que ser considerado merecedor de crítica tem mais valor do que ser ignorado. Por outro lado, não parece razoável dar o mesmo peso a menções positivas e negativas.
O índice-h, como vimos, é um indicador da produtividade dos pesquisadores, e como tal é usado como critério para fins de contratação, de progressão na carreira, concessão de bolsas e auxílios, etc. Para tais fins, entretanto, o que importa é a produtividade do pesquisador no período imediatamente anterior. Desse ponto de vista, o índice-h é inadequado, uma vez que, ao longo da carreira de um pesquisador, o índice pode apenas crescer ou manter-se estável; nunca diminui. Esse, e outros problemas, deram origem a uma verdadeira indústria de indicadores alternativos, alguns matematicamente muito sofisticados. Uma meta-análise, realizada ainda em 2011, já estudava as correlações vigentes entre nada menos que 37 variantes do índice-h, alguns envolvendo recursos matemáticos muito sofisticados, por exemplo:
Um conceito muito utilizado nas críticas à avaliação neoliberal é o de deslocamento de metas (goal displacement). Nada mais razoável que admitir, como meta dos pesquisadores, a de contribuir para o avanço do conhecimento científico e para a criação de aplicações úteis. Na medida em que ganham importância as avaliações quantitativas, a meta transforma-se na de ser bem avaliado. Se houvesse uma proporcionalidade entre os dois elementos, o deslocamento seria inócuo, isto é, o desempenho na avaliação e a produtividade andariam juntos. A precariedade dos indicadores significa que o pressuposto da proporcionalidade não se sustenta; por isso o deslocamento é prejudicial.
Apesar de suas precariedades, o FI e o índice-h continuam prevalecendo nos sistemas de avaliação, solapando a meritocracia defendida como princípio regulador da administração. Muito mais importantes, entretanto, são as disfuncionalidades do segundo tipo, discutidas a seguir.
Tratei dessa temática no artigo “Empresariamento da Universidade: consequências nefastas do produtivismo”, publicado na Revista Adusp (Oliveira, 2019). Em princípio, deveria entrar aqui uma versão desse artigo. Mas para não alongar demasiadamente este ensaio, preferi remeter o leitor ao próprio artigo, limitando-me aqui ao registro das 11 consequências identificadas, com algumas observações em notas de rodapé. Eis a lista:
1. Queda na qualidade de vida dos docentes;
2. Incompatibilidade com o exercício da responsabilidade social;
3. Falta de engajamento na defesa dos interesses da comunidade;
4. Proliferação de más condutas;
5. Erosão da ideia de autoria;
6. Desvirtuamento das citações;
7. Declínio na qualidade da produção;
8. Periódicos predatórios;
9. Desvalorização da docência;
10. Custo;
11. Fetichismo dos rankings universitários.
As disfuncionalidades da avaliação neoliberal (precariedade dos indicadores + consequências nefastas) são tão evidentes e graves que causa espécie a continuidade de sua predominância. Na prática, o processo se desenvolve como se as disfuncionalidades simplesmente não existissem. Pode-se dizer então que seus adeptos são vítimas de um tipo de degeneração mental crucial nos dias de hoje, o negacionismo. Em sua análise, Casadevall e Fang (2014) classificam essa postura, não retoricamente, mas efetivamente como uma doença mental, de acordo com os critérios do campo da psiquiatria, pessoal e social.
Adler, Robert, Ewing, John e Taylor, Peter (2009). Citation statistics. Statistical Science 24(1) p.1-14. Tradução brasileira: Estatísticas de citações. Mediações 14 (1), p. 69-100.
Bornmann, Lutz et al. (2011). A multilevel meta-analysis of studies reporting correlations between the h-index and 37 different h-index variants. Journal of Informetric 5(3), p. 346–59.
Bornmann, Lutz & Mutz, Rütiger (2015). Growth rate of modern science: a bibliometric analysis based on the number of publication and cited references. Journal of the Association for Information Science and Technology 66, p. 2215-2222.
Boselie, Paul et al. (2021). Recognition and Rewards Vision. Utrecht University.
Cafardo, Renata (2021). Quase 40% dos brasileiros não sabem o que faz a universidade pública, aponta estudo. O Estado de São Paulo, 28/11/2021.
Casadevall, Arturo & Fang, Ferric C. (2014). Causes for the Impact Factor mania. ASM Journals/ mBio 5(2), p. 2-5.
CGEE (2015). Percepção pública da C&T no Brasil 2015: ciência e tecnologia no olhar dos brasileiros. Sumário executivo. Brasília: Centro de Gestão e Estudos Estratégicos.
‒‒‒‒‒‒‒‒‒ (2017). A ciência e a tecnologia no olhar dos brasileiros: percepção pública da C&T no Brasil – 2015. Brasília: Centro de Gestão e Estudos Estratégicos.
‒‒‒‒‒‒‒‒‒ (2019). Percepção pública da C&T no Brasil – 2019. Resumo executivo. Brasília: Centro de Gestão e Estudos Estratégicos.
Clark, Brett & Foster, John B. (2020). The robbery of nature: capitalism and the ecological rift. Nova York: Monthly Review Press.
Cronin, Blaise & Sugimoto, Cassidy R. (orgs.) (2014). Beyond bibliometrics: harnessing multidimensional indicators of scholarly impact. Cambridge (Mass.): MIT.
Dardot, Pierre & Laval, Christian (2016). A nova razão do mundo: ensaio sobre a sociedade neoliberal. São Paulo: Boitempo.
Duflo, Esther & Banerjee, Abhijit (2019). Economic incentives don’t always do what we want them to. The New York Times, 26/10/2019.
Durand, Cédric (2021). 1979 in reverse. New Left Review/Sidecar Junho 2011.
Einstein, Albert (1905). Zur Elektrodynamik bewegter Körper. Annalen der Physik 4(17) p. 891-921.
Elkana, Yehuda; Lederberg, Joshua; Merton, Robert K.; Thackray, Arnold e Zuckerman, Harriet (1978). Toward a metric of science: the advent of science indicators. Nova York: Wiley.
Garfield, Eugene (1964). Can citation indexing be automated? Em Stevens et al. (orgs.), Statistical association methods for mechanized documentation, symposium proceedings, 1964. Washington: National Bureau of Standards Miscellaneous Publication 269, 1965, p. 89-192.
Gestle, Gary (2022). The rise and fall of the neoliberal order: America and the world in the free market era. Nova York: Oxford U.P.
Gingras, Yves (2014). Criteria for evaluating indicators. Em Cronin & Sugimoto (2014), p. 109-125.
GRC (Global Research Council) (2021). Responsible Research Assessment: call to action.
Hagstrom, Warren O. (1965). The scientific community. Nova York: Basic Books.
Halffman, Willen & Hans Radder (2015). The Academic Manifesto: from an occupied to a public university. Minerva 53(2), p.165-187. Tradução brasileira: Manifesto Acadêmico: de uma universidade ocupada para uma pública (2017) . Revista Adusp nº 60, p. 7-25.
Hicks, Diana, et al. (2015). The Leiden Manifesto for research metrics. Nature 520, 23 de abril de 2015, p. 429-431. A tradução para o português (Manifesto de Leiden sobre Métricas de Pesquisa) encontra-se em http://www.leidenmanifesto.org/translations.html.
INCT-CPCT (2019). O que os jovens brasileiros pensam da ciência e da tecnologia? Brasília: Instituto Nacional de Ciência e Tecnologia em Comunicação Pública da Ciência e Tecnologia.
Jevons, William S. (1983 [1871]). A teoria da economia política. São Paulo: Abril Cultural.
Koltun, Vladlen & Hafner, Danijar (2021). The h-index is no longer an effective correlate of scientific reputation. PLoS ONE 16(6): e0253397.
Kowaltowski, Alicia J., Silber, Ariel M. e Oliveira, Marcus F. (2021). Responsible science assessment: downplaying indexes, boosting quality. Anais da Academia Brasileira de Ciências 93 (1).
Marcovitch, Jacques (org.) (2018). Repensar a universidade: desempenho acadêmico e comparações internacionais. São Paulo: Com-Arte; Fapesp.
‒‒‒‒‒‒‒‒‒ (2019). Repensar a universidade II: impactos para a sociedade. São Paulo: Com-Arte; Fapesp.
Marques, Fabrício (2022). O encargo de contar a própria história. Pesquisa FAPESP 23(316), p.43-44.
Merton, Robert K. (1957): Social theory and social structure. 2a edição, revista e ampliada. Glencoe (Ill.): The Free Press.
Moher et al. (2020 ). The Hong Kong Principles for assessing researchers: fostering research integrity. PLoS Biol 18(7).
Narin, Francis (1976). Evaluative bibliometrics: the use of publication and citation analysis in the evaluation of scientific activity. Parsippany (NJ): Computer Horizons.
Oliveira, Marcos B. de (2008) A avaliação neoliberal na Universidade e a responsabilidade social dos pesquisadores. Scientiae Studia, 6(3), p 379-387.
‒‒‒‒‒‒‒‒‒ (2010). A estratégia dos bônus: três pressupostos e uma consequência. Trabalho, Educação e Saúde, 7(3), p. 419-433.
‒‒‒‒‒‒‒‒‒ (2014). A dádiva como princípio organizador da ciência. Estudos Avançados, 28(82), p. 201- 223
‒‒‒‒‒‒‒‒‒ (2015). A epidemia de más condutas na ciência: o fracasso do tratamento moralizador. Scientiae Studia 13(4), p. 867-897.
‒‒‒‒‒‒‒‒‒ (2017). Fraudes e plágios na ciência: a epidemia, o tratamento moralizador e seu fracasso. Revista Adusp 60, p. 66-77.
‒‒‒‒‒‒‒‒‒ (2018). Sobre a distinção quantitativo/qualitativo na avaliação acadêmica. Jornal da USP, 05/12/2018.
‒‒‒‒‒‒‒‒‒ (2019). Empresariamento da Universidade: consequências nefastas do produtivismo. Revista Adusp 63, p. 59-72.
Orwell, George (1958). The road to Wigan Pier. Nova York: Harcourt.
Passeggi, Maria da C. & Souza, Elizeu C. de (orgs.) (2008). (Auto)biografia: formação, territórios e saberes. Natal: Editora da UFRN.
Silva, Wilton C. L. da (2015). A vida, a obra, o que falta, o que sobra: memorial acadêmico, direitos e obrigações da escrita. Tempo e Argumento 7(15), p. 103-136.
Streek, Wolfgang (2017) How will capitalism end? Essays on a falling system. Londres: Verso.
Stiglitz, Joseph (2019) O fim do neoliberalismo e o renascimento da história.
Tal, Eran (2020). Measurement in science. The Stanford Encyclopedia of Philosophy (Edição do outono de 2020).
The Royal Society (2019). Résumé for Research (R4R).
UKRI (United Kingdom Research and Innovation (2021) Résumé for Research and Innovation (R4RI).
Urbina-Garcia, Angel (2020). What do we know about university academics mental health? A systematic literature review”. Stress and Health 36, p. 563-585.
Veblen, Thorstein (1898). The instinct of workmanship and the irksomeness of labor. American Journal of Sociology, vol. 4, p. 187-201.
Vermeir, Koen (2013). Scientific research: commodities or commons? Science & Education 22 (10), p. 2485-2510.
Waizbort, Leopoldo (1998). Para uma sociologia do memorial acadêmico: um fragmento. Literatura e Sociedade 3, p. 62-76.
Wilsdon, James et al. (2015). The metric tide: report of the independent review of metrics in research. DOI:10.13140/RG.2.1.4929.1363Wouters, Paul (1999). The citation culture. PhD thesis. Faculty of Science, University of Amsterdam.