El imperio de los scrapers: La máquina de tragar poemas

LA MINERÍA DE LOS VERSOS

Cada segundo, miles de robots recorren la web con una misión silenciosa: extraer poemas. No para leerlos, no para emocionarse con ellos, no para guardarlos en la memoria como se guarda un tesoro. Los extraen para disgregarlos en datos lingüísticos, para descomponerlos en partículas elementales, para alimentar las máquinas de significado que luego venderán esos fragmentos al mejor postor.

La imagen tiene algo de pesadilla borgeana: bibliotecas infinitas recorridas por autómatas que nunca leen, que solo procesan, que extraen de cada verso su esencia cuantificable y desechan el resto. Pero no es ficción. Es el presente. Es lo que ocurre cada vez que un poema de Emily Dickinson es escaneado por Google Books, cada vez que un soneto de Shakespeare es procesado por los servidores de JSTOR, cada vez que un haiku de Bashō es analizado por los algoritmos de sentiment analysis que luego venderán sus conclusiones a departamentos de marketing.

El poema se ha convertido en materia prima. La lírica, en mineral. La poesía, en dato.

EXTRACTIVISMO LITERARIO

 

Para comprender lo que está ocurriendo, debemos retroceder unos siglos. La relación entre poesía y explotación no es nueva. Los trovadores ya eran explotados por los señores feudales que los protegían. Los poetas del Siglo de Oro dependían del mecenazgo de nobles que esperaban glorificación a cambio de sustento. Los románticos vivieron la transición hacia el mercado editorial, donde el poema se convirtió en mercancía que se compraba y vendía como cualquier otra.

Pero lo que ocurre hoy es cualitativamente diferente. Antes, la explotación era del trabajo del poeta: se le pagaba mal, se le reconocía poco, se le exigía mucho. Hoy, la explotación es del poema mismo. No de su creación, sino de su esencia. No del trabajo que costó escribirlo, sino del valor que puede extraerse de él una vez escrito.

El poema ya no se vende. Se mina. Ya no se lee. Se procesa. Ya no se disfruta. Se descompone en sus elementos constitutivos para alimentar máquinas que nunca lo entenderán pero que lo usarán para entender(nos) mejor.

NUEVOS COLONIZADORES

 

Las empresas que lideran esta extracción tienen nombres que conocemos: JSTOR, Project MUSE, Google Books. Se presentan como benefactoras de la cultura, como democratizadoras del saber, como archiveras de la memoria humana. Y en parte lo son. Gracias a ellas, millones de textos que antes solo estaban disponibles en bibliotecas físicas pueden ser consultados desde cualquier lugar del mundo.

Pero esa es solo la mitad de la historia. La otra mitad ocurre en los términos de uso que nadie lee, en las cláusulas que aceptamos sin saber, en los metadatos que acompañan a cada poema digitalizado. Mientras tú lees un soneto en la pantalla, tus ojos recorriendo sus versos, tu corazón tal vez conmovido por su belleza, los servidores de Google están haciendo otra cosa: están extrayendo de ese soneto todo lo que puede ser cuantificado.

Frecuencia de palabras. Estructuras sintácticas. Patrones emocionales. Correlaciones semánticas. El poema es descompuesto en una nube de datos que luego alimentará algoritmos de sentiment analysis. Y esos algoritmos, entrenados con siglos de poesía, serán vendidos a departamentos de marketing que los usarán para saber qué emociones despiertan sus anuncios, qué palabras conmueven a sus clientes, qué estructuras narrativas venden más productos.

El soneto de amor que escribió un poeta del siglo XVI, pensado para una sola mujer, leído durante siglos por amantes que encontraban en él sus propias emociones reflejadas, termina siendo usado para vender champú.

LA PARADOJA DE LA PRESERVACIÓN

 

Los defensores de estas prácticas argumentan que sin ellas los poemas se perderían. Que la digitalización masiva es la única forma de preservar la literatura para las generaciones futuras. Que los metadatos son solo un subproducto inevitable de un proceso benéfico.

Hay verdad en eso. Los incendios, las guerras, la humedad, los insectos: todo ello destruye libros. La biblioteca digital es, en teoría, inmortal. Una copia en mil servidores diferentes es una copia que sobrevivirá a cualquier cataclismo.

Pero la paradoja es que, en el proceso de salvar los poemas, los estamos transformando en otra cosa. El poema que existe como archivo digital no es el mismo poema que existía como objeto físico o como experiencia de lectura. Es un poema acompañado de metadatos, de información adicional, de contexto cuantificable. Es un poema que ya no es solo poema, sino también dato.

Y cuando ese dato es explotado comercialmente, cuando las emociones que el poema codifica son vendidas al mejor postor, el poema deja de ser un fin para convertirse en un medio. Deja de ser aquello que merece ser preservado para convertirse en el instrumento de preservación de otra cosa: del negocio de las empresas que lo alojan.

Preservamos los poemas para que sigan siendo poemas. Pero en el proceso, dejamos de tratarlos como poemas. Los tratamos como recursos. Como minerales. Como materia prima para algo que no es ellos.

 LA FICCIÓN DE LA GRATUIDAD

 

“Es gratis”, nos dicen. “Puedes acceder a millones de poemas sin pagar nada”. Y es cierto: podemos leer a Quevedo, a Sor Juana, a Whitman, a Neruda, sin desembolsar un centavo. La biblioteca universal está a un clic de distancia.

Pero nada es gratis. Lo que pagamos no es dinero. Es otra cosa. Pagamos con nuestros datos de lectura: qué poemas consultamos, cuánto tiempo pasamos en cada uno, qué palabras buscamos, qué rutas seguimos. Pagamos con la atención que prestamos, que es también un dato. Pagamos con el hecho mismo de que nuestra lectura sea registrada, analizada, procesada.

Y pagamos, sobre todo, con los poemas mismos. Porque cuando accedemos a ellos a través de estas plataformas, estamos participando en su transformación en dato. Nuestra lectura no es inocente. Nuestra lectura es también extracción. Cada vez que abrimos un poema en Google Books, estamos contribuyendo a que ese poema sea minado, procesado, vendido.

La gratuidad es la coartada. El acceso universal es la justificación. Pero debajo de ellos, lo que ocurre es la mayor operación de extracción cultural de la historia.

MERCADO DE LAS EMOCIONES CUANTIFICADAS

 

¿Qué hacen las empresas con los datos extraídos de los poemas? La respuesta es más inquietante de lo que parece.

Los algoritmos de sentiment analysis no son meras curiosidades académicas. Son herramientas comerciales. Empresas como IBM Watson, Google Cloud NLP o Amazon Comprehend ofrecen servicios de análisis de sentimientos a corporaciones que quieren saber qué opinan sus clientes, qué emociones despiertan sus productos, cómo deben ajustar sus mensajes para maximizar el impacto.

Para entrenar estos algoritmos, necesitan grandes cantidades de texto etiquetado emocionalmente. Y qué mejor texto que la poesía, donde las emociones están codificadas de manera explícita, donde el amor, la tristeza, la alegría, la melancolía son la materia misma de la obra.

Los poemas de amor enseñan a los algoritmos a reconocer el amor en los tuits de los clientes. Las elegías les enseñan a detectar la tristeza en las reseñas de productos. Las odas les enseñan a identificar el entusiasmo en los comentarios de Instagram. La poesía, que durante siglos fue el lenguaje de lo íntimo, de lo incomunicable, de lo que solo podía compartirse entre almas sensibles, se ha convertido en el manual de instrucciones de las máquinas de la emoción.

Y esas máquinas, una vez entrenadas, se alquilan a quienes pueden pagarlas. El resultado es un mercado de emociones cuantificadas donde nuestros sentimientos más profundos son reducidos a coordenadas en un espacio vectorial, a puntuaciones en una escala, a inputs para algoritmos que deciden qué anuncios mostrarnos.

EL POETA EXTRACTIVO

 

Frente a este imperio de la extracción, algunos poetas han comenzado a resistir. No pueden impedir que sus obras sean digitalizadas: los clásicos están en dominio público, los contemporáneos han firmado contratos que ceden esos derechos. Pero pueden resistir de otras maneras.

Algunos escriben poesía deliberadamente “inminable”: textos que confunden a los algoritmos, que usan estructuras que el sentiment analysis no puede procesar, que incorporan elementos visuales o sonoros que escapan a la cuantificación. Es la poesía como guerrilla, como sabotaje, como forma de hacer que los scrapers trabajen en vano.

Otros han optado por el regreso a lo analógico. Publican en papel, en ediciones limitadas, en formatos que no pueden ser escaneados fácilmente. Organizan lecturas en vivo, donde el poema existe solo en el momento de ser recitado, sin dejar rastro digital. Escriben en servilletas que luego se desechan, en paredes que luego se pintan, en la memoria de quienes escuchan y luego olvidan.

Algunos han llevado la resistencia al terreno legal. Exigen que sus obras sean retiradas de los repositorios digitales. Demandan a las empresas que explotan sus datos sin compensación. Crean licencias que prohíben explícitamente el uso de sus poemas para entrenar algoritmos.

Son gestos pequeños, casi simbólicos, frente a la enormidad del imperio extractivo. Pero son gestos. Y los gestos importan.

 

Hay una ironía que los poetas no pueden ignorar: ellos mismos han sido, durante siglos, extractores. Han extraído emociones de sus vidas, experiencias de sus amores, dolores de sus pérdidas, y los han convertido en poemas. Han explotado su propia intimidad para crear obras que luego venden.

¿Qué derecho tienen, entonces, a quejarse cuando otros hacen lo mismo con ellos? ¿No es la historia de la poesía la historia de la extracción de lo íntimo para convertirlo en público? ¿No es cada poema una forma de minería de la experiencia?

La diferencia, quizás, está en el destino de lo extraído. El poeta extrae de su vida para crear algo que otros puedan compartir, para comunicar, para conectar. El extractor corporativo extrae del poema para crear algo que otros puedan comprar, para segmentar, para vender. Uno busca comunidad. El otro, mercado. Uno busca sentido. El otro, beneficio.

No es lo mismo convertir el dolor en poesía que convertir la poesía en datos. No es lo mismo ofrecer una experiencia que vender un perfil emocional. La dirección de la extracción importa: hacia la comunidad o hacia el capital, hacia la conexión o hacia el control.

ÉTICA DE LA DIGITALIZACIÓN POÉTICA

Cuando un poema es reducido a datos, algo se pierde. Algo que los algoritmos no pueden capturar. Algo que los metadatos no pueden codificar.

Se pierde el ritmo de la respiración que lo recita. Se pierde el temblor de la voz que lo dice. Se pierde la memoria de las veces que fue leído, de las lágrimas que hizo derramar, de los amantes que lo compartieron. Se pierde el contexto: la hora del día, la estación del año, la edad del lector, el estado de su corazón. Se pierde la materialidad: el olor del papel, el peso del libro, el sonido de la página al girar.

Se pierde, sobre todo, lo que no puede ser cuantificado. El misterio. La ambigüedad. La posibilidad de que el poema signifique cosas diferentes para cada lector, para el mismo lector en momentos diferentes, para nadie más que para quien lo escribe. La poesía, que siempre fue el arte de lo inefable, de lo que no puede decirse de otra manera, se convierte en su opuesto: en material perfectamente procesable, completamente traducible, totalmente reducible a información.

El algoritmo puede decirnos que un poema contiene 73% de emociones positivas y 27% de negativas. Pero no puede decirnos por qué ese poema nos hace llorar cada vez que lo leemos. No puede decirnos por qué lo recordamos años después, en momentos inesperados, como si hubiera quedado grabado en algún lugar que no es la memoria consciente. No puede decirnos por qué, a pesar de todo, seguimos volviendo a él.

Eso que no puede decir el algoritmo es, precisamente, el poema.

No se trata de renunciar a la digitalización. Sería hipócrita pretenderlo desde un texto que se escribe y se lee en pantallas. Se trata, más bien, de pensar las condiciones éticas bajo las cuales la digitalización puede ocurrir sin destruir lo que pretende preservar.

Algunas preguntas pueden orientar esa reflexión:

¿Quién se beneficia de la digitalización? Si son solo las corporaciones, algo falla.

¿Quién controla los metadatos? Si son solo las plataformas, algo falla.

¿Quién decide qué poemas se digitalizan y cuáles no? Si son solo los algoritmos de relevancia, algo falla.

¿Qué uso se hace de los datos extraídos? Si es solo comercial, algo falla.

¿Pueden los poetas y los lectores participar en las decisiones sobre el destino de sus obras? Si no pueden, algo falla.

Una digitalización ética sería aquella que preserva no solo los textos, sino también su carácter de textos. Que reconoce que un poema no es solo información, sino también experiencia. Que respeta el misterio, la ambigüedad, lo inefable. Que permite el acceso sin exigir la extracción. Que ofrece gratuidad sin pedir datos a cambio.

Una digitalización ética sería aquella que trata los poemas como fines, no como medios. Como obras, no como recursos. Como voces, no como datos.

 LA GUERRILLA DE LOS METADATOS

 

La resistencia contra los scrapers poéticos ha adoptado formas inesperadas. Una de las más efectivas es la guerra de los metadatos. Si los extractores se alimentan de la información que acompaña a los poemas, ¿por qué no darles información falsa?

En los foros clandestinos de poetas digitales circulan manuales de “desinformación poética”. Enseñan a etiquetar un poema de amor como si fuera una elegía, un soneto como si fuera verso libre, un haiku como si fuera prosa. Enseñan a insertar etiquetas emocionales contradictorias, a marcar poemas tristes como “alegres” y viceversa. Enseñan a crear autorías falsas, fechas imposibles, contextos inexistentes.

El objetivo no es engañar a los lectores humanos, sino a los algoritmos. Un scraper que extrae un poema etiquetado como “elegía” cuando en realidad es una oda alegre alimentará sus modelos con datos erróneos. Un sentiment analysis entrenado con estos datos aprenderá a confundir la tristeza con la alegría. Las empresas que usen esos modelos tomarán malas decisiones. Y los poetas, desde su anonimato, habrán causado un pequeño pero significativo daño al imperio extractivo.

Hay quienes llevan esto más lejos. Crean “poemas cebo”: textos diseñados específicamente para ser extraídos, pero que contienen trampas lógicas, paradojas semánticas, estructuras recursivas que colapsan los algoritmos. Un poema que se refiere a sí mismo, que niega lo que afirma, que dice “este poema no contiene emociones” con una emoción inconfundible. Los algoritmos procesan, intentan clasificar, no pueden, fallan. El poema se convierte en un virus, en un error, en un agujero negro en medio del corpus.

La guerrilla de los metadatos es pequeña, dispersa, a menudo anónima. Pero es persistente. Y en la guerra contra el imperio, la persistencia es una forma de victoria.

DISEÑO DE LA EXTRACCIÓN

 

Para comprender la magnitud del fenómeno, es necesario mirar debajo de la superficie. Los scrapers no son entidades abstractas. Son programas informáticos, scripts que recorren sistemáticamente las páginas web, identifican elementos con etiquetas específicas (“poema”, “soneto”, “haiku”, “verso”), extraen su contenido y lo almacenan en enormes bases de datos.

 Un scraper básico funciona así:

  1. Recibe una lista de URLs (o las genera automáticamente a partir de patrones).

  2. Descarga el contenido de cada página.

  3. Analiza el HTML en busca de elementos con clases o identificadores específicos.

  4. Extrae el texto de esos elementos.

  5. Limpia el texto (elimina etiquetas, normaliza espacios, corrige codificación).

  6. Lo almacena junto con metadatos: URL de origen, fecha de extracción, título de la página, autor si está disponible.

La simplicidad del proceso contrasta con su escala. Un scraper bien configurado puede extraer millones de poemas en cuestión de días. La única limitación es la cortesía: la mayoría de los scrapers respetan el archivo robots.txt, que indica qué partes de un sitio no deben ser escaneadas. Pero no todos. Y el robots.txt, además, es una convención, no una ley.

Lo que los scrapers extraen no es solo el texto visible. También extraen todo lo que los rodea: metadatos, etiquetas, comentarios, información sobre el contexto. Un poema publicado en un blog no llega solo; llega con la fecha de publicación, el nombre del autor, los comentarios de los lectores, las etiquetas que lo categorizan, los enlaces que lo conectan con otros poemas. Todo eso también es extraído. Todo eso también es dato.

Más allá de los scrapers individuales, existen verdaderas granjas de extracción poética. Empresas dedicadas exclusivamente a recolectar, procesar y vender datos literarios. Sus servidores trabajan las 24 horas, alimentándose de la producción poética mundial, sin descanso, sin vacaciones, sin pausas.

Estas granjas tienen nombres que la mayoría de los poetas nunca han escuchado: DataPoem Inc., LyricMetrics, VerseAnalytics. Sus sitios web son anodinos, llenos de jerga técnica, diseñados para parecer inofensivos. Ofrecen “soluciones de análisis de contenido”, “plataformas de inteligencia emocional”, “herramientas de procesamiento de lenguaje natural”. Nunca mencionan la palabra “poesía”. Prefieren “corpus lírico” o “conjuntos de datos afectivos”.

El negocio funciona así: extraen poemas gratis, los procesan con sus algoritmos, extraen de ellos patrones emocionales y estilísticos, y luego venden esos patrones a empresas que quieren entender mejor a sus clientes. Un solo poema puede generar ingresos múltiples: la estructura métrica se vende a una empresa de asistentes de escritura, los patrones emocionales a un departamento de marketing, las imágenes poéticas a una agencia de publicidad, las rarezas léxicas a una empresa de inteligencia artificial.

El poeta que escribió ese poema no recibe nada. Nunca supo que su obra estaba siendo explotada. Nunca firmó un contrato. Nunca dio su consentimiento. Su poema, que quizás escribió en un momento de intimidad, de dolor, de alegría, está generando dinero para personas que no conoce, en lugares que no imagina, para fines que probablemente desaprobaría.

Yuly Andrea Durango Florez (Medellín, Colombia). Filósofa y Especialista en Informática para el Aprendizaje en Red, con más de seis años de experiencia liderando la transformación educativa a través de la pedagogía crítica, el diseño instruccional innovador y la integración estratégica de TIC. Experta en la gestión de proyectos educativos, la implementación de metodologías activas y la formación docente, con un sólido historial en la creación de entornos virtuales de aprendizaje de alta calidad y recursos educativos digitales efectivos. Directora de la Revista Literaria Ouroboros (Medellín, 2016). Facilitadora de experiencias de aprendizaje innovador en Academia Ouroboros (Ouroverso, 2026). Coordinadora pedagógica de procesos de comunicación comunitaria (2019, 2018), y de proyectos culturales de la Corporación Ouróboros (2020-2021). Ha participado en eventos poéticos como el IV Encuentro Internacional Poetas al viento (2020), Tercer Congreso Internacional Cultura Viva Comunitaria (Quito-Ecuador, 2017). Ha sido coordinadora del programa literario Poesía Life 2.0. Su poesía ha sido incluida en el libro Antología del amanecer (2021). Gestora cultural del Festival Literario Ouroboros 2022 “Memorias e identidades rurales”.

Luis Eduardo Cano Álvarez (Medellín, Colombia). Creador Multimedial. Poeta Experimental . Editor Web (Ouroboros). Graduado en psicología de la Universidad de Antioquia. Mediador multimodal en los proyectos literarios: “Literatura, territorio e identidad en los corregimientos de Medellín (2017)”, “Reconociendo a los buenos vecinos” (2018) y “Narrativas para el reconocimiento comunitario” (2019). Ha publicado de manera independiente los siguientes libros con la editorial Ouroboros. Poesía: Guía poética de flores (2017) y Extinción de luz (2018). Magia: El círculo de piedra (2017), El jaguar volador (2018). Ciencia ficción: Beth: ciudad viviente (2018). Coordinador del taller online Poesia Life 2.0 de la Revista Ouroboros.

Comparte este contenido

Facebook
WhatsApp
Twitter
Email
LinkedIn

Deja un comentario

ILUMINACIONES EDICIÓN 31/ Poesía/ Poesía antioqueña/ Poesía Colombia/ San Cristóbal

Sebastián Botero Restrepo / ILUMINACIONES

Cuando te vayas Otra vez el desorden saldrá de su esconditelos objetos se quedarán dónde están, llenándose de polvolas máscaras...

Conoce Más
Edición 30 / ETERNIDADES

Leandro Múnera Gutiérrez / ETERNIDADES

En portada de ETERNIDADES : Sagaz, Carlos Alberto Jacanamijoy Quinchoa. CON LA AUSENCIA DEL AMARILLO la locura continuaría asechándonos gracias...

Conoce Más
Ensayo Literario/ Literatura y Filosofía

Reflexiones en torno al ensayo…

Por Mariana Balbin. La vida pasa… A veces pasa sin ser percibida, sin hacerle justicia a la maravilla que supone...

Conoce Más
Experiencias que conectan

Ramón Álvarez y Natalia Álvarez,…

En la vereda Las Playas, sector El Filo, el nombre de Ramon Álvarez es asociado con una antigua tradición de...

Conoce Más
Archivo Zeta/ Ensayo Literario/ Poesía

POÉTICA DEL ERROR: La belleza…

La poética del error es la exploración de esta paradoja: lo que falla es lo que vive. Lo que se...

Conoce Más
Arte/ Colombia/ Revista Ouroboros Edición 27/ San Cristóbal

Mónica María Correa Ortiz

En mi creación comparto el silencio para acercarnos a la intimidad del ser contemporáneo. Profundizar en mi obra pictórica deteniéndome...

Conoce Más
Poesía Colombia/ Poesía y voz/ San Cristóbal/ SIGNOS EXPANDIDOS / Edición 29

Marta Ligia Vélez

EL SILENCIO ¡Qué silencio tan profundo encuentro en mi habitación! No lo odio, yo lo amo porque allí encuentro a...

Conoce Más
Constelaciones literarias

Grupo literario “Bitácora de Fuego”

Por Kharim Socorro. El Grupo literario “Bitácora de Fuego”, es una agrupación literaria de Venezuela constituida el 12 de diciembre...

Conoce Más
Poesía/ Revista Ouroboros Edición 27

Patricio Vega Arrobo

CALLE AMOR destrucción en la calle amor demonios se disparan su sangre pinta inertes pájaros en el pedregal donde juegan...

Conoce Más