Skip to main content

Quasi l’88% delle aziende usa oggi l’AI in almeno una funzione aziendale. Eppure, secondo McKinsey, circa il 78% di quelle stesse aziende non riesce a misurare alcun impatto materiale sui propri risultati economici. È quello che i ricercatori hanno definito il “gen AI paradox”: adozione diffusa, valore concentrato in pochissime mani.

Cosa distingue le organizzazioni che ottengono risultati concreti da quelle che restano bloccate in fasi pilota? La risposta non è nel modello di AI scelto, né nel budget tecnologico. È nella qualità della progettazione: quali processi si ridisegnano, come si misura il risultato, dove l’essere umano rimane indispensabile e dove invece può essere affiancato o sostituito da un agente autonomo.

Questo articolo analizza cinque case study verificati di organizzazioni che hanno implementato agenti AI in contesti reali. Per ognuno, i dati, le scelte progettuali, i risultati e le lezioni apprese. Comprese le cose che non hanno funzionato.

Cosa si intende per “agente AI”: una distinzione necessaria

Prima di entrare nei casi, vale la pena chiarire cosa distingue un agente AI da un semplice chatbot o da un modello di linguaggio.

Un agente AI è un sistema che non si limita a rispondere a domande: percepisce un contesto, prende decisioni in modo autonomo, esegue azioni su sistemi esterni, database, API, interfacce, e gestisce flussi di lavoro in più passaggi senza richiedere un intervento umano a ogni step. È la differenza tra un assistente che risponde alle e-mail e uno che legge l’e-mail, accede al CRM, aggiorna lo stato del cliente, invia una notifica al team commerciale e propone una risposta già bozza.

Secondo il MIT AI Agent Index 2025, il numero di paper accademici che citano “AI agent” o “agentic AI” ha superato nel solo 2025 il totale cumulato degli anni 2020-2024. Nel giugno-luglio 2025, McKinsey ha rilevato che il 62% delle aziende intervistate stava già sperimentando agenti AI in almeno una funzione aziendale, un numero in crescita rapida rispetto a qualsiasi altra forma di adozione tecnologica degli ultimi anni.

Case Study 1 — Klarna: il customer service che ha gestito 2,3 milioni di conversazioni in un mese

Il contesto. Klarna è una delle più grandi piattaforme di pagamento al mondo, con 150 milioni di utenti in 23 mercati. A febbraio 2024, l’azienda ha lanciato globalmente un assistente AI per il customer service, sviluppato in partnership con OpenAI, con accesso diretto ai sistemi interni: storico degli ordini, rimborsi, stato dei pagamenti.

I risultati nel primo mese. L’assistente AI ha gestito i due terzi di tutte le chat di customer service, risultando alla pari con gli agenti umani in termini di customer satisfaction score, riducendo del 25% i contatti ripetuti e abbassando il tempo medio di risoluzione da 11 minuti a meno di 2 minuti. Klarna ha stimato un miglioramento del profitto di 40 milioni di dollari per il 2024.

Cosa non ha funzionato. Il caso Klarna è anche uno dei più istruttivi per ciò che è andato storto. Entro il 2025, il CEO Sebastian Siemiatkowski ha ammesso pubblicamente che “il costo era diventato il principale fattore di valutazione”, con un conseguente calo della qualità. Per le query semplici — stato di un pagamento, informazioni su un ordine — l’AI performava eccellentemente. Per i casi complessi — dispute, blocchi di account, situazioni anomale — la soddisfazione del cliente calava significativamente. Klarna ha quindi reintrodotto agenti umani per le casistiche ad alta complessità e ha avviato un piano di riassunzione.

La lezione. Gli agenti AI eccellono nei processi ad alta ripetibilità e bassa variabilità. Il loro limite non è tecnico: è che i problemi semplici sono quelli che i clienti risolvono facilmente da soli. I problemi difficili — quelli che richiedono giudizio, empatia, gestione di eccezioni — rimangono terreno umano. Il modello ibrido non è un compromesso: è l’architettura corretta.

Case Study 2 — JPMorgan Chase: Coach AI e il +20% di vendite nella gestione patrimoniale

Il contesto. JPMorgan Chase ha un budget tecnologico di 17 miliardi di dollari nel 2024 e oltre 450 casi d’uso AI in sviluppo. Tra questi, Coach AI è il sistema di supporto in tempo reale per i gestori patrimoniali della divisione Asset & Wealth Management: un agente che accede istantaneamente a ricerche di mercato, dati storici del cliente e raccomandazioni personalizzate attraverso interfacce in linguaggio naturale.

I risultati. Coach AI ha permesso agli advisor di trovare le informazioni rilevanti fino al 95% più velocemente, e la divisione Asset & Wealth Management ha registrato un incremento del 20% delle vendite lorde tra il 2023 e il 2024, con gli strumenti AI citati come fattore chiave. Durante la volatilità di mercato dell’aprile 2025 — con i mercati in forte turbolenza e migliaia di clienti che chiedevano aggiornamenti simultaneamente — Coach AI ha permesso agli advisor di gestire il picco di richieste senza deteriorare la qualità del servizio. La banca stima che questi strumenti consentiranno agli advisor di espandere il proprio portafoglio clienti del 50% nei prossimi tre-cinque anni.

La chiave del design. JPMorgan ha scelto deliberatamente un modello in cui l’AI aggiunge qualcosa al professionista invece di sostituirlo. Il gestore rimane il decisore e il punto di relazione con il cliente; l’agente comprime i tempi di preparazione e ricerca. Questa scelta non è solo etica: è strategica. In wealth management, la relazione fiduciaria tra advisor e cliente è il prodotto. Automatizzarla significherebbe distruggerla.

La lezione. L’AI produce il maggiore valore quando amplifica le competenze ad alto valore di professionisti umani, liberandoli dalla componente a basso valore aggiunto del loro lavoro — ricerca, sintesi, redazione di bozze — e consentendo loro di concentrarsi sull’unica cosa che l’AI non può replicare: il giudizio contestuale e la fiducia relazionale.

Case Study 3 — McKinsey: Lilli e i 500.000 prompt al mese tra 45.000 consulenti

Il contesto. McKinsey ha lanciato Lilli, la propria piattaforma interna di AI generativa nell’estate 2023. Non si tratta di un singolo agente ma di un ecosistema: un motore di ricerca semantica sulla knowledge base interna dell’azienda (report, metodologie, case study, dati di mercato), combinato con agenti specializzati per funzioni specifiche come la redazione di presentazioni, la prenotazione di viaggi, la ricerca di expertise interna.

I risultati. Il 72% dei dipendenti McKinsey utilizza Lilli, generando oltre 500.000 prompt al mese e recuperando circa il 30% del tempo tipicamente dedicato a ricerca e knowledge management. La piattaforma consente a un consulente di trasformare un prompt testuale in una presentazione cliente in pochi secondi, un’attività che richiedeva ore a un analista junior. Il sistema viene aggiornato ogni otto settimane con nuove capacità e integrazioni con le banche dati interne.

L’elemento distintivo. McKinsey ha costruito Lilli su architettura RAG (Retrieval-Augmented Generation): prima di rispondere, il sistema recupera contesti verificati dalla knowledge base interna, riducendo il rischio di allucinazioni e garantendo che le risposte si basino su materiali reali dell’azienda. Questo ha reso il sistema affidabile in un contesto professionale dove l’accuratezza non è negoziabile. La governance è stata strutturata con un registro centralizzato degli agenti, controlli automatici sulle policy e checkpoint di validazione a ogni aggiornamento del modello.

La lezione. Il valore di un agente AI in un’organizzazione di knowledge workers non dipende principalmente dalla potenza del modello sottostante: dipende dalla qualità e dall’organizzazione della conoscenza su cui il modello opera. Lilli funziona perché McKinsey ha investito decenni nell’organizzare la propria knowledge base. Chi non ha questa base non può aspettarsi gli stessi risultati semplicemente abbonandosi a un LLM.

Case Study 4 — DoorDash: un agente di supporto che ha ridotto il carico sugli operatori umani del 50%

Il contesto. DoorDash gestisce milioni di ordini ogni giorno e riceve un volume enorme di richieste di supporto: ordini mancanti, rimborsi, problemi di consegna. L’azienda ha sviluppato su Amazon Bedrock Agents un sistema che gestisce in autonomia le categorie di richieste più frequenti, con accesso diretto ai sistemi di gestione degli ordini.

I risultati. Il sistema ha ridotto il carico sugli agenti umani del 50% sulle categorie di ticket gestite in autonomia, con tempi di risposta drasticamente inferiori e tassi di escalation controllati. L’agente è in grado di identificare autonomamente il tipo di problema, accedere allo storico dell’ordine, eseguire rimborsi entro parametri definiti e chiudere il ticket senza intervento umano — trasferendo ai colleghi solo i casi che richiedono valutazione discrezionale.

Il design dei guardrail. Il sistema non opera senza limiti: ogni azione con impatto economico — un rimborso, un credito — è vincolata a soglie di valore predefinite. Oltre quelle soglie, l’agente trasferisce automaticamente a un operatore umano con tutto il contesto già raccolto. Questo approccio riduce il rischio di abusi o errori sistemici mantenendo alta la velocità di gestione per la grande maggioranza dei casi.

La lezione. Un agente AI che opera su sistemi reali con accesso a dati transazionali richiede una progettazione attenta dei confini operativi: cosa può fare autonomamente, cosa richiede approvazione umana, come avviene il passaggio di consegne. Questi confini non limitano il valore del sistema: lo rendono sostenibile e sicuro nel tempo.

Case Study 5 — Paycor con Gong AI: +141% di chiusure commerciali

Il contesto. Paycor è un’azienda di software per HR e payroll che gestisce una forza commerciale distribuita. L’azienda ha adottato la piattaforma Gong, che utilizza agenti AI per analizzare chiamate di vendita, estrarre insight, identificare pattern di conversazione efficaci e generare coaching personalizzato per ogni commerciale.

I risultati. Paycor ha registrato un incremento del 141% nelle chiusure commerciali dopo l’adozione di Gong, grazie al miglioramento nella gestione della pipeline, nella previsione dell’accuratezza e nel coaching personalizzato dei venditori. Il sistema analizza ogni conversazione con un prospect, identifica i momenti di frizione, confronta le performance individuali con i pattern dei top performer e genera raccomandazioni specifiche per ciascun commerciale.

Perché funziona. L’AI non sostituisce il commerciale: analizza ciò che funziona e lo replica sistematicamente. In un team di vendita, la differenza di performance tra i top performer e la media è spesso enorme. Gong trasforma quell’intuizione tacita dei migliori — il modo in cui gestiscono un’obiezione, il timing di una domanda — in conoscenza esplicita, trasferibile e scalabile a tutto il team.

La lezione. Gli agenti AI che operano come “specchi analitici” su processi umani — vendita, negoziazione, relazione con il cliente — generano valore non automatizzando il processo ma accelerando l’apprendimento di chi lo esegue. È uno dei pattern più replicabili anche in organizzazioni di dimensioni medie.

Il paradosso del 78%: perché la maggior parte delle aziende non vede risultati

Tutti e cinque i casi descritti hanno in comune alcune caratteristiche che li distinguono dalla massa delle implementazioni AI che non producono impatto misurabile.

Ridisegnano il processo, non lo automatizzano. McKinsey ha rilevato che le aziende che ottengono i maggiori risultati non si limitano a “aggiungere AI” ai workflow esistenti: li riprogettano attorno alle capacità dell’agente. Chi aggiunge un chatbot a un processo di supporto mal strutturato ottiene un processo di supporto mal strutturato più veloce.

Misurano risultati di business, non metriche tecniche. I KPI rilevanti non sono “numero di query gestite dall’AI” o “percentuale di automazione”: sono conversioni, tempo di risoluzione, soddisfazione del cliente, vendite. Senza metriche di business ancorate agli obiettivi dell’organizzazione, è impossibile capire se l’AI sta generando valore o solo rumore.

Mantengono l’umano dove conta. Nessuno dei casi analizzati ha scelto l’automazione totale. Tutti hanno identificato la linea tra ciò che l’agente può fare meglio di un essere umano — velocità, consistenza, scalabilità su task ripetitivi — e ciò che rimane appannaggio della competenza umana: giudizio, empatia, gestione delle eccezioni, relazione fiduciaria.

Investono nella qualità dei dati prima che nel modello. Lilli funziona perché la knowledge base di McKinsey è strutturata e verificata. Coach AI funziona perché i dati dei clienti JPMorgan sono accessibili e organizzati. Un agente AI è esattamente buono quanto i dati su cui opera.

Cosa significa tutto questo per le PMI

I cinque casi analizzati provengono da organizzazioni con risorse enormi. Ma i principi che li rendono efficaci non dipendono dalla scala.

Una PMI con venti dipendenti non ha bisogno di un budget da 17 miliardi di dollari per implementare un agente che gestisce le richieste più frequenti dei clienti, che analizza le performance commerciali del team, che sintetizza documenti contrattuali o che mantiene aggiornata la knowledge base interna. Ha bisogno di tre cose: chiarezza su quale processo si vuole migliorare, dati in buono stato su cui l’agente possa operare e una progettazione realistica dei confini, cosa fa l’AI, cosa fa l’essere umano, come si integrano.

Meno del 10% dei casi d’uso AI arriva oggi oltre la fase pilota, secondo McKinsey. La differenza tra quelli che scalano e quelli che si fermano non è la tecnologia. È la chiarezza degli obiettivi, la qualità della progettazione e la disponibilità a ripensare il processo e non solo a velocizzarlo.