L’equilibrio tra intelligenza artificiale e umana – ma cosa succede se il carburante dell’IA si esaurisce?

I dati di addestramento stanno finendo? Il calo dei post degli sviluppatori e le sue conseguenze per l’IA

Foto di Henning Lorenzen
Da Henning Lorenzen
Fondatore, Direttore Editoriale & Editore presso NWS.magazine
23 Jul 2025 |NWS.focus|Tempo di lettura: 6 minuti
Intelligenza Artificiale (IA)
LinkedIn Discutere su LinkedIn 7
In breve

I grandi modelli linguistici sono stati sviluppati partendo dal presupposto che dati di addestramento di alta qualità, generati dagli esseri umani, sarebbero rimasti disponibili in modo continuo e su larga scala. Nel contesto degli sviluppatori, questo presupposto sta però iniziando a vacillare. Piattaforme come Stack Overflow, per anni una fonte centrale di conoscenza tecnica e di dati per l’addestramento dell’IA, registrano un calo significativo di nuovi contributi. Con la diffusione di strumenti di programmazione assistiti dall’IA, molti problemi vengono risolti direttamente tramite sistemi automatici, riducendo la produzione di conoscenza pubblica.

Questo articolo analizza le conseguenze strutturali della diminuzione dei contenuti generati dagli sviluppatori per l’addestramento e la qualità dei sistemi di intelligenza artificiale. L’argomentazione centrale è che il rischio principale non riguarda solo la quantità dei dati disponibili, ma soprattutto la loro qualità: minore aggiornamento, ridotta diversità e consolidamento di bias storici. Esaminando possibili contromisure — dalla curazione mirata dei dati alla generazione sintetica, fino a workflow ibridi umano-IA — emerge che il progresso futuro dell’IA dipenderà meno dall’architettura dei modelli e sempre più da strategie consapevoli di gestione dei dati. In assenza di tali strategie, l’IA rischia di apprendere sempre più dal proprio passato, anziché da una realtà in continua evoluzione.

Paradossalmente: più l’IA migliora, più scompare la base dei suoi dati di addestramento – una sorta di cannibalismo dei dati.

Negli ultimi anni, la comunità dell’IA si è fortemente affidata a contenuti pubblicamente disponibili generati da sviluppatori per addestrare i grandi modelli linguistici (LLM). Tuttavia, segnali recenti indicano un netto calo nei contributi su piattaforme chiave come Stack Overflow – un trend accentuato da eventi globali e cambiamenti tecnologici.

Il calo dei contributi: cosa dicono i numeri?

Stack Overflow, la più grande piattaforma di Q&A per sviluppatori, è stata a lungo una miniera d’oro di conoscenza e una fonte cruciale per l’addestramento dei modelli IA. Ma i dati dei Stack Overflow Developer Surveys mostrano una tendenza negativa negli ultimi anni:

  • Tra il 2019 e il 2023, il numero annuo di nuove domande è diminuito di circa il 15%.
  • Durante la pandemia del 2020, l’attività è calata bruscamente – con un calo dei post di quasi il 20% rispetto ai livelli pre-pandemici.
  • Il lancio e la diffusione di strumenti IA come ChatGPT nel 2023 ha coinciso con un ulteriore calo del 25% dei contenuti generati da sviluppatori.

Questo calo rappresenta una sfida critica: i modelli IA addestrati su dati storici rischiano di diventare obsoleti o meno efficaci se non viene più generato contenuto aggiornato e reale su larga scala.

Perché diminuiscono i contributi?

Diversi fattori influenzano questa tendenza:

  • Nuove abitudini degli sviluppatori: Con strumenti di codifica assistiti da IA (es. GitHub Copilot, ChatGPT), molti sviluppatori risolvono problemi tramite suggerimenti automatici, invece di cercare online o pubblicare domande.
  • Burnout e cambiamenti culturali: La pandemia ha aumentato lo stress e modificato il carico di lavoro, riducendo la partecipazione attiva alle community.
  • Saturazione dei contenuti: Molte domande fondamentali sono già state poste e risolte – rendendo più difficile proporre nuovi contenuti originali.

Impatti sull’addestramento e la qualità dei modelli

La scarsità di dati può compromettere i modelli IA in diversi modi:

  • Meno novità e diversità: I modelli potrebbero faticare con tecnologie emergenti o casi limite non rappresentati nei dati storici.
  • Overfitting su modelli obsoleti: Senza nuovi dati, i modelli rischiano di replicare pratiche superate.
  • Problemi etici e di equità: I bias presenti nei vecchi dataset rimangono incontestati e non corretti.

Soluzioni al problema dei dati

Per affrontare queste criticità, si stanno esplorando vari approcci:

  • Curazione attiva dei dati: Includere nuove fonti affidabili come discussioni su GitHub, blog tecnici, aggiornamenti ufficiali alla documentazione.
  • Generazione collaborativa: Incentivare sviluppatori e aziende a contribuire a dataset aggiornati, ad esempio tramite iniziative open-source o sovvenzioni.
  • Generazione sintetica: Utilizzare modelli IA per creare esempi realistici e diversificati che integrino i dati reali.
  • Apprendimento continuo: Progettare sistemi che integrino flussi di dati nuovi in modo incrementale, adattandosi in tempo reale.
  • Workflow ibridi umano-IA: Combinare suggerimenti generati dall’IA con revisione esperta per garantire qualità e pertinenza.

Prospettive future

Il calo dei contenuti organici sfida un presupposto chiave dello sviluppo IA: la disponibilità continua e abbondante di dati nuovi e vari. Senza interventi, l’IA rischia di diventare una macchina per ripetere il passato anziché guidare il futuro. Il successo richiede una combinazione tra creatività umana ed efficienza dell’IA – innovando non solo negli algoritmi, ma anche nelle strategie di raccolta dati. Solo così l’ecosistema IA potrà crescere, evolversi e rispondere alle esigenze reali.

Letture e fonti consigliate

Stack Overflow. Developer Survey Reports (2019–2023). URL: https://insights.stackoverflow.com/survey

Fonte dell'immagine: Jack_the_sparow – Shutterstock

Nota: Questo post si basa sulla traduzione dell’articolo originale in inglese. La versione tedesca è stata revisionata editorialmente.