12 Abril 2016
"La cuestión es que sepamos entonces qué repercusión podría tener la difusión de este tipo de tecnología, por ejemplo, sobre la producción académica de los nuevos investigadores que necesitan defender sus disertaciones de maestrías o tesis de doctorado en plazos cada vez más cortos y después publicar una enorme cantidad de artículos científicos para garantizar su inserción en la vida académica", escribe Marcelo de Araujo, tiene maestría y doctorado en Filosofia, es profesor de Ética en la Universidad del Estado de Río De Janeiro-UERJ y profesor de Filosofía del Derecho de la UFRJ. La traducción es de Giselle Vallo.
Este es el artículo.
Hace poco más de dos décadas que las computadoras sustituirían a las viejas máquinas de escribir. Pero ahora nuevas “máquinas de escribir” están volviendo, y lo más aterrador es que ellas nos ahorran hasta el mismo trabajo de escribir. Sofisticados programas de computadora vienen siendo utilizados para generar miles de noticias que son publicadas diariamente en la prensa americana. Pero los lectores no perciben que por detrás de esos artículos no hay una persona de verdad, sino un “periodista robot”. El diario The New York Times, por ejemplo, posee una página en internet en la cual desafía a los lectores a descubrir si los textos allí publicados fueron escritos por una máquina o por un ser humano. Y no es solamente en la prensa que la producción de textos viene siendo relegada a la inteligencia artificial. Miles de libros vendidos por la librería Amazon, y disponibles también en algunas librerías en Brasil, fueron generados por algoritmos. Ya surgirán, inclusive, concursos literarios en los que el premio se dirija al “autor” del algoritmo capaz de generar la mejor historia. En marzo de 2016 los organizadores del tercer Premio Nikkei Hoshi Shinichi de Literatura, en Japón, anunciaron que entre los 1450 romances inscriptos, once habían sido escritos en “coautoría” con algoritmos. Uno de esos romances llegó a las finales.
La cuestión que tenemos que analizar ahora es si las nuevas “máquinas de escribir” podrían también ser utilizadas un día para generar trabajos académicos como monografías, disertaciones de maestría y tesis de doctorado. El objetivo de este artículo es llamar la atención sobre el surgimiento de tecnologías para la generación automática de textos y sobre el impacto que eso puede tener en la vida académica.
Narrative Science, Automate Insights e Ken Schwencke
Las empresas más conocidas hasta el momento, responsables por la creación de algoritmos para la generación de textos en la prensa son la Narrative Science y la Automated Insights. La Narrative Science creó un software llamado Quill, capaz de transformar informaciones contenidas en planillas, gráficos, tablas y diagramas en textos de prosa simple y poco compleja. La empresa Automated Insights desarrolló un software semejante llamado Wordsmith. Cuando Marvin Minsky falleció en enero del 2016, Wordsmith generó un obituario, publicado posteriormente en la revista Wired. Sería tal vez difícil de imaginar una forma más creativa para homenajear a uno de los pioneros en el área de la inteligencia artificial.
Kristian Hammond, uno de los fundadores de Narrative Science, cree que en los próximos años la mayor parte de los textos publicados en la prensa serán generados por algoritmos, sin la intervención directa de los seres humanos. Hammond tiene la expectativa, inclusive, de que en el futuro el premio Pulitzer del periodismo pueda ir para algún reportaje generado por un software. La cuestión mientras tanto, es si sabremos a quien le corresponderá el mérito del premio en este caso: al programa que generó la historia, o al programador que generó el programa? Ese es un problema que afecta a la “autoría” de cualquier texto creado por un algoritmo.
En mayo del 2015, un terremoto de baja intensidad afectó a Los Ángeles, en Estados Unidos. El primer diario que publicó una noticia online sobre el evento fue Los Angeles Times, pocos minutos después del sismo. Como “autor” del artículo posteado aparecía un tal Quakebot, que es un algoritmo creado por el programador Ken Schwencke. Pero quién sería entonces el verdadero “autor” de la noticia sobre el terremoto en este caso, Quakebot o Ken Schwencke? La respuesta para esta cuestión, a mi modo de ver, es más compleja de lo que parece, y tiene implicaciones importantes para la producción y validación de textos académicos.
El “autor” del algoritmo no puede ser exactamente el mismo “autor” de la noticia sobre el terremoto publicado en el diario. Supongamos que Schwencke hubiese muerto durante el terremoto. Y supongamos también, además de eso, que Quakebot pudiese rastrear informaciones online, o datos compartidos por los equipos de socorro, y encontraran el nombre de Schwencke en la lista de las víctimas fatales. Quakebot podría entonces escribir un boletín sobre el terremoto y mencionar el nombre de Schwencke entre los muertos. Pero Schwencke no podría ser “autor” de un texto que anuncie su propia muerte. El problema en cuanto a la “autoría” de textos generados por algoritmos se agrava si consideramos además la existencia de una tecnología llamada deep learning, que permite algunos algoritmos aprender de sus propios errores y auto corregirse sin la intervención de un programador. Quakebot podría, por ejemplo, detectar una gradual disminución del número de “me gusta” en los textos que genera e intentar identificar enseguida estrategias para reconquistar a sus lectores. Un robot como Quakebot podría, en principio, continuar generando textos por varios años después de la muerte de Schwencke, en un estilo enteramente diferente de aquel previsto por su creador original. Eso vuelve aún más problemática la suposición ingenua de que podríamos atribuir a Schwencke la “autoría” de los textos escritos por Quakebot.
Philip Parker: cómo escribir más de diez mil libros
El problema sobre la atribución de la “autoría” de los textos generados por algoritmos afecta también los millares de libros generados por Philips Parker, vendidos en las librerías de Amazon. Parker, evidentemente no escribió esos libros como los escribiría un investigador. Parker creó un algoritmo que es capaz de reconstruir paso a paso todas las etapas que un investigador acostumbra a seguir al escribir un texto académico. Lo que Parker hizo, básicamente, fue transformar las instrucciones contenidas en un manual para la redacción de trabajos académicos en líneas de un programa de computadora. Pero como hoy en día la mayor parte de las informaciones que un investigador precisa para escribir un libro están disponibles en internet, el algoritmo creado por Parker es capaz de generar un libro sobre prácticamente cualquier tema. En una entrevista concedida en 2013, Parker afirma estar interesado ahora en crear un algoritmo capaz de generar tesis de doctorado que presenten conclusiones originales:
“Una de las áreas en las que estoy trabajando es sobre si podemos crear una tesis con nivel de doctorado y que sea enteramente automatizada - para ahorrarnos el trabajo de 4 años de doctorado - y al final tenemos entonces una conclusión original. Si pudiéramos hacer eso de modo automático aumentaríamos la velocidad de los descubrimientos”.
Esta cuestión fue retomada en marzo de 2016 en un artículo sobre Parker publicado en el Business Times. El material tiene como título: “Subvirtiendo incluso mismo el mundo de los académicos”. Según Parker, científicos e investigadores profesionales son, de hecho, responsables por la producción de nuevo conocimiento. Pero una buena parte de los textos que ellos escriben consiste en la sistematización de lo que ya fue escrito y publicado por otros investigadores. En muchos programas de posgrado, inclusive en Brasil, la “revisión de la literatura” es considerada una parte fundamental de la investigación. La revisión de la literatura aparece también, a veces, al inicio de los artículos académicos, y capítulos de disertaciones de maestría y tesis de doctorado. La revisión de la literatura constituye también una parte fundamental de muchos libros, textos y obras de referencia indispensables para la formación de nuevas generaciones de investigadores. Pero según Parker este tipo de producción académica podría estar fácilmente delegada a algoritmos, pues lo que está aquí en cuestión no es la producción de una nueva idea sino la sistematización de lo que se fue escrito y publicado por los otros. El surgimiento de tecnologías para la generación automatizada de trabajos académicos, según Parker, permitiría a los investigadores concentrarse en los hard problems, esto es, en aquellas cuestiones que no pueden ser analizados y resueltas por programas de computación.
La cuestión es que sepamos entonces qué repercusión podría tener la difusión de este tipo de tecnología, por ejemplo, sobre la producción académica de los nuevos investigadores que necesitan defender sus disertaciones de maestrías o tesis de doctorado en plazos cada vez más cortos y después publicar una enorme cantidad de artículos científicos para garantizar su inserción en la vida académica. Los algoritmos no podrían ser usados, por ejemplo, para generar artículos y proyectos de investigación sin que las agencias de fomento o los editores de las revistas tuviesen algún control sobre quiénes son los verdaderos “autores” de los trabajos?
Trabajos académicos generados por algoritmos, a mi modo de ver, no deberían ser clasificados como plagios. La mayor parte de los casos de plagio en la Academia son con respecto a transcripciones literales de pasajes de textos ya publicados por otras personas, pero sin la debida identificación de las fuentes. La compilación de ideas disponibles en otros textos, de modo general, no está vista como una forma de plagio. En verdad, muchos trabajos académicos producidos hoy en día en el Brasil son compilaciones de ideas ya publicadas en libros y artículos. Pero como los textos usados como fuente son generalmente mencionados en notas al pie del texto, y listados en la bibliografía, raramente encontramos razones para descalificar esos trabajos académicos como “plagio”. El surgimiento de tecnologías para la generación de textos académicos, a mi modo de ver nos obligará a rever el modo como escribimos y evaluamos los trabajos académicos.
Por otro lado, si dejamos por un momento abierta la pregunta sobre el mérito académico del “autor” o “autora” de un trabajo académico generado por un algoritmo, y consideramos el problema del punto de vista de las personas que son beneficiadas por la difusión del conocimiento, qué objeción podríamos hacer a la existencia de libros técnicos generados por algoritmos? Parker sostiene que existen temas sobre los cuales nadie quiere escribir, o libros que ninguna editorial estaría interesada en publicar, porque el público objetivo es muy restringido, o de bajo poder adquisitivo. Ese público, de modo general, está compuesto por personas que no tendrían tiempo o competencia para realizar una investigación por cuenta propia con vistas a una publicación del resultado. Pero esas personas pueden, de todas maneras, tener interés en leer una obra sobre un tema bastante específico y aún poco explorado. Piense, por ejemplo, en un libro de ejercicios de lengua extranjera, con palabras cruzadas en inglés, para parlantes del portugués de Brasil que están preparándose para el TOEFL (Test of English as a Foreign Language). Tal vez pocas editoriales estuviesen interesadas en publicar y mantener en catálogo un libro como ese. Pero para Parker el costo de “producción” de ese libro es irrisorio, y es por eso que él ya publicó ese título también: Webster’s English to Brazilian Portuguesse Crossword Puzzles: Levels 1. Cuesta US 0,95 en la tienda de Amazon. En la librería de Saraiva el mismo libro cuesta R$ 44 ,85. Sólo que el lector no está informado sobre “el autor” del libro.
Una obra generada por computadora podría también ser ofrecida para venta, en prácticamente cualquier idioma, antes mismo de haber sido escrita. La patente que Parker obtiene para el programa consta de la siguiente información: “el título puede ser escrito (authored) bajo demanda, en cualquier idioma deseado y con versión y contenido más recientes”. La ventaja para el lector es evidente: el libro generado en el momento de la compra estará en conformidad con la literatura actualizada sobre el tema en cuestión.
Si las previsiones de Kristian Hammond y Philip Parker fueran correctas, algunas ideas aparentemente triviales en la academia como, por ejemplo,” autoría” y “originalidad” deberán ser redefinidas en los próximos años. Los casos de plagio en la academia serán un problema menor, porque para eso ya existen muchas herramientas online para la detección de fraudes. El gran problema será saber si los estudiantes e investigadores son, de hecho, los autores de los trabajos que publican, o encaminan para las agencias de fomento en busca de patrocinio, o si ellos no serían en verdad, apenas coautores de sus propias investigaciones.
*El artículo fue publicado originalmente en la Revista IHU On-line, edición 482, de 04-04-2016.