9 ago 2023 6 min read OpenAI

GPTBot, Il crawler di OpenAI: Problema etici, cosa vuol dire per i nostri contenuti e come sfruttarlo per il SEO.

GPTBot, il crawler di OpenAi pone molte sfide, ma apre anche la possibilità del GPTO- ottimizzazione per ChatBot.

midjourney (ah l'ironia): metaphor of OpenAI web crawler by gustav klimt --ar 2:1

E' uscita ieri la notizia che OpenAI ha creato un crawler supportato da AI, chiamato GPTBot. Questo è il prodromo della raccolta dati per il training di ChatGPT-5. Come vedremo potrebbe non essere una bella notizia se sei un creatore di contenuti o anche se hai un'azienda che ha lavorato bene con l'inbound marketing.

In questo articolo ti parlerò

dell'utilità di siffatto crawler.
delle implicazioni etiche/ morali del suo utilizzo.
di cosa potresti farne tu e la tua azienda (lasciargli prendere i dati o meno?)
chiuderò l'articolo con le due righe di comandi che devi mettere sul tuo sito per non farti ciulare i contenuti (perché di questo stiamo parlando).
Se usi Wordpress ti lascio il link a un Plugin che informa il bot da quali pagine è ok prendere i dati e da quali no.

Cosa è un crawler

Partiamo con le definizioni, così da avere una base comune. Un crawler è un programma che "legge" una pagina web, estrae le informazioni e le inserisce in un database. Detto così non è diverso da quando vai su Wikipedia o Statista a copiare e incollare i dati che ti servono.

Quello che è diverso è la velocità e la scala con cui un crawler può copiare questi dati. Dove un essere umano può fare qualche decina di pagina all'ora, un crawler ne fa 100 volte tante, con una precisione molto maggiore.

E' legale prendere contenuti da siti terzi?

Ci rendiamo ben conto che esiste un problema di appropiazione di contenuti altrui. Tollerabile se lo fa un privato con qualche pagina di contenuto, questionabile se lo fa un'azienda con una decina, ma assolutamente errato se quando qualcuno si appropria di migliaia di righe di contenuti appartenenti a terzi senza corrispondergli nulla.

I crawler sono molto più diffusi di quanto credi e ne esistono diverse soluzioni commerciali già pronte, senza bisogno di programmarlo da zero: rimangono comunque delle barriere tecniche per dire quali dati prendere e quali no.

L'uscita del Crawler di OpenAI toglierà queste barriere tecniche... e mette in luce il problema dell'appropriamento indebito.

Di sicuro questa notizia grida a gran voce di raggiungere una soluzione etica su questa appropriazione di dati PRIMA che questo si inizi a estrarre dati a una scala mai vista prima. Perchè se con Midjourney o ChatGPT-3 potevamo dire "non lo sapevamo" adesso nascondere la testa sotto la sabbia non ha senso.

Nella migliore tradizione di OpenAI, la ciliegina sulla torta prenderà i dati di tutto il web per allenare ChatGPT e lo farà senza chiederti il permesso.

E il fatto che non prenda i contenuti dietro Paywall non ammorbidisce il problema, anzi mostra il dolo.

"Ma Manolo, se i crawler sono sempre esistiti perchè tutta sta menata adesso?"

Ecco l'articolo cercherà di rispondere a questa domanda e ti darà gli strumenti per capire cosa proteggere e cosa lasciare "leggibile", comprese le 2 righe di codice da inserire nel robots.txt del sito.

Il Buono, il Brutto (e il Cattivo) di un crawler AI

Il Buono: Partiamo con le cose positive:

Sarò sincero: Il fatto che OpenAi abbia creato un crawler faciliterà tantissimo la vita a me e ai miei colleghi che fanno consulenze di Digital Transformation, perchè diventerà molto più facile creare dati strutturati dei propri contenuti testuali. In uno dei miei primissimi video che ho fatto per mostrare le potenzialità di ChatGpt-3 ho mostrato come convertire dei dati testuali in dati strutturati. Esperimento non perfetto ma abbastanza da far vedere le potenzialità dello strumento.

Il Brutto: Cose che mi piacciono molto meno.

Come dicevo sopra i crawler sono sempre esistiti. Il fatto che questa funzione sia a portata di mano di milioni di persone che prima non la conoscevano mi spaventa, esattamente come mi spaventa dare delle candele a dei bambini piccoli.

Attenzione: non è la democratizzazione che mi spaventa, quanto l'abuso di uno strumento a cui basterà dire "vai sul sito X raccogli tutti i dati circa l'informazione Y, modifica la parte testuale e proponimela in markdown".

Penso anche alla mole di dati inulti che si andranno a scaricare, banda intasata, siti su hosting condivisi che vengono tirati giù per le troppe risorse utilizzate etc.

Il Cattivo: L'approccio

La cosa che davvero mi spaventa è che OpenAI utilizza questo bot per prendere i dati da milioni di siti, non darne l'attribuzione, allenare la propria Intelligenza Artificiale e poi risputarla fuori in un prodotto commerciale senza dare nulla in cambio ai creatori.

Optin vs OptOut

La cosa che mi fa irritare è l'approccio. Non chiedono il permesso di farlo (Optin): personalmente mi farebbe piacere dare a chatGPT delle informazioni affidabili su molte cose.

OpenAI prende a priori e si trattengono dal farlo solo se tu dichiari che non vuoi (OptOut).

Ma Google non ha crawler? Twitter /X / Reddit non vendono già i tuoi contenuti? Perchè ti accanisci con OpenAI?

La domanda è lecita ma - in teoria - il crawler di Google indicizza le pagine e poi manda il traffico su quelle che ritiene migliori in base alla ricerca.

Siamo quindi nell'area del Do ut des. Ti permetto di leggere i miei contenuti e usarli come teaser per monetizzare ma in cambio mi mandi traffico al sito.

Con l'avvento dei zero-click content il giochino si è un po' incrinato e con Bard la cosa forse va anche a peggiorare: rimaniamo perà nell'ambito dello scambio.

Twitter/ X e Reddit utilizzano i contenuti degli utenti per le proprie AI (oppure li vendono tramite le API) ma anche in questo caso, do ut des. Si può utilizzare una piattaforma gratuitamente e io in cambio so che i miei contenuti possono venire utilizzati.

Open AI fa qualcosa di molto diverso. Utilizza i tuoi contenuti per insegnare a un bot le cose che sai tu, scavalcandoti. E in cambio cosa ti da? Nulla. se non costi aggiuntivi dovuti dal traffico.

OK Manolo, basta chiacchere, andiamo al sodo: Ho un sito cosa dovrei fare?

Come ho scritto sopra personalmente avrei piacere che su ChatGPT ci fossero delle informazioni vere quando si chiedono informazioni sul mio conto (o anche dei miei alias di vite passate nel mondo del clubbing). Quindi probabilmente lascerei volentieri che il crawler di OpenAI prendesse informazioni selezionate.

Nelle aziende a cui offro la consulenza, di sicuro dirò di lasciare aperte le pagine in cui c'è organigramma, descrizione dei prodotti e in generale tutte le informazioni puntuali che vorrei la gente trovasse.

Anche se un ChatBot NON è un motore di ricerca, dobbiamo metterci l'animo in pace. Tra qualche anno esso verrà utilizzato come tale, quindi prepariamoci

La parte del blog è più complessa. Mi studierei quali contenuti sia Hero, Hub, Help e capirei quali informazioni è utile che siano in giro e quali è meglio che siano sul mio sito. Sono comunque molto curioso di sapere le tua.

Appena si hanno più informazioni a riguardo prometto di aggiornare l'articolo.

Dopo la SEO nasce il campo del GPTOptimization?

Come al solito mi piace guardare avanti:

Sappiamo che la creazione dei contenuti un AI-GPT avviene seguendo un modello statistico.
Sappiamo che forse potranno essere istruite su dei contenuti in maniera selettiva
Sarà molto probabile che ci sia la possibilità di decidere quali dati dare in pasto e con quale frequenza.

GPTO - Strategie Base di GPT Optimization

Sono pessimo nella creazione di acronimo ma credo che potremmo essere all'alba della nascita di nuove strategie di ottimizzazione per GPT... un ChatGPTSEO? GPTO? AIO?

Essendo all'alba dell'ottimizzazione per Bot vediamo i ricorsi storici: qual'è stata la prima strategia di SEO prima che ci fosse Google?

Guestbook
Keyword stuffing

In che modo possiamo provare a fare lo stesso con i Chatbot? E se guardiamo al sempre verbe link building?

Immagino che come si compra(va)no guest post con link per migliorare il proprio ranking su Google, adesso si possano comprare gli stessi guest post e utilizzare in maniera strategica una sequenza di parole in modo da forzare l'associazioni statistiche tra parole.

Non è così banale e come sappiamo il training di una AI è una scatola nera, ma probabile che qualche tipo di servizio di questo genere verrà proposto.

Come evitare che GPTBot prenda i tuoi contenuti

Le informazioni per l'optout ce le da direttamente la documentazione di OpenAI

GPTBot è il web crawler di OpenAI e può essere identificato dal seguente user agent e dalla seguente stringa.

Token dell'agente utente: GPTBot

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Utilizzo

Ecco come impedire a GPTBot di accedere al vostro sito.
Per impedire a GPTBot di accedere al vostro sito, potete aggiungere GPTBot al robots.txt del vostro sito:

User-agent: GPTBot
Disallow: /

Personalizzare l'accesso di GPTBot

Per consentire a GPTBot di accedere solo a parti del sito, è possibile aggiungere il token GPTBot al robots.txt del sito in questo modo:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Robots.txt su Wordpress

Se hai wordpress modificare il robots.txt è abbastanza facile. Per ora ti lascio al link con dei plugin generici, ma sto pensando di svilupparne uno specifico per questo scopo.

Commenti finali

Se credi che sia un po' troppo allarmato lascami un commento. Se possiedi un'agenzia beh pensa bene quali sono i contenuti da far leggere e quali no

Articolazzo è venuto bello lungo... se ti è piaciuto, sappi che con manolo.macchetta.com faccio Curation di contenuti di Digital transformation, marketing produttività e ovviamente AI.