Spedite più velocemente, non più duramente: Consigli sulle prestazioni che evolvono realmente

📖 7 min read•1,240 words•Updated Apr 4, 2026

Siamo stati tutti lì. La tua applicazione funziona perfettamente in fase di sviluppo, gestisce i tuoi dati di test come un campione, poi appaiono utenti reali. All’improvviso, tutto rallenta. I tempi di risposta esplodono. La tua fattura cloud assomiglia a un numero di telefono. Ti dice qualcosa?

Ho passato anni a ottimizzare sistemi che dovevano gestire un carico serio, e gli schemi che contano tornano ancora e ancora. Non sono buone pratiche teoriche tratte da un manuale. Sono gli elementi che fanno realmente la differenza quando il tuo sistema è sotto pressione.

Comincia da ciò che puoi misurare

Prima di ottimizzare qualsiasi cosa, devi sapere dove si trova realmente il collo di bottiglia. Indovinare è il modo più veloce per perdere una settimana a rifattorizzare un codice che non è mai stato il problema.

Inizia con l’osservabilità. Al minimo, vuoi tre cose: registrazione strutturata, tracciamento delle richieste e cruscotti delle metriche. Strumenti come OpenTelemetry rendono tutto questo semplice nella maggior parte degli ecosistemi linguistici.

Ecco un esempio veloce di come aggiungere un’instrumentazione di temporizzazione di base a una route Express:


app.use((req, res, next) => {
 const start = process.hrtime.bigint();
 res.on('finish', () => {
 const duration = Number(process.hrtime.bigint() - start) / 1e6;
 logger.info({ method: req.method, path: req.path, status: res.statusCode, durationMs: duration });
 });
 next();
});

Questo ti dirà da solo quali endpoint sono lenti e con quale frequenza vengono chiamati. Resteresti sorpreso di scoprire quanto il vero colpevole sia una route a cui nessuno ha pensato.

Le richieste di database sono quasi sempre il collo di bottiglia

Nove volte su dieci, le applicazioni lente lo sono a causa della layer di database. Non il framework, non il linguaggio, non il server. Le richieste.

Ecco le correzioni ad alto impatto a cui ritorno costantemente:

Aggiungi indici in base ai modelli di richiesta reali. Esegui EXPLAIN sulle tue richieste più lente. Cerca scansioni sequenziali su grandi tabelle. Un solo indice ben posizionato può trasformare una richiesta da 3 secondi a una di 5 millisecondi.
Elimina le richieste N+1. Se utilizzi un ORM, attiva la registrazione delle richieste in fase di sviluppo e monitora le richieste ripetute nei loop. Usa il caricamento anticipato o il caricamento per batch invece.
Paginare tutto. Non restituire mai set di risultati illimitati. Usa la paginazione basata su cursori per grandi set di dati invece di OFFSET, che rallenta man mano che il numero di pagina aumenta.
Cache i dati letti di frequente. Se il risultato di una richiesta non cambia spesso, mettilo in cache. Redis è una scelta solida. Anche un TTL di 60 secondi può ridurre notevolmente il carico del database durante i picchi di traffico.

Un semplice modello di caching in Python con Redis appare così:


import redis, json

cache = redis.Redis(host='localhost', port=6379, db=0)

def get_product(product_id):
 cache_key = f"product:{product_id}"
 cached = cache.get(cache_key)
 if cached:
 return json.loads(cached)
 product = db.query("SELECT * FROM products WHERE id = %s", (product_id,))
 cache.setex(cache_key, 300, json.dumps(product))
 return product

Cinque righe di logica di caching. Potenzialmente migliaia di richieste di database evitate al minuto.

Scalabilità orizzontale, ma solo quando è necessaria

La scalabilità orizzontale è potente, ma introduce complessità. Prima di creare più istanze, assicurati di aver estratto il massimo delle prestazioni da ciò che hai già.

La scalabilità verticale, dando al tuo server esistente più CPU e memoria, è sottovalutata. È più semplice, non ha l’overhead dei sistemi distribuiti e spesso ti dà più margine di manovra di quanto la gente si aspetti.

Quando devi espanderti, tieni a mente questi principi:

Rendi la tua applicazione senza stato. I dati di sessione, i caricamenti di file e lo stato temporaneo devono vivere in archivi esterni come Redis o un’archiviazione di oggetti, e non sul file system locale.
Utilizza il pooling delle connessioni. Ogni nuova istanza che apre le proprie connessioni al database esaurirà rapidamente il tuo limite di connessioni. Usa un pooler come PgBouncer per PostgreSQL.
Fai un load balancing intelligente. Il round-robin è accettabile per carichi di lavoro uniformi. Per tutto il resto, considera il routing per le connessioni meno numerose o il routing pesato.

Le prestazioni del frontend sono le prestazioni visibili dall’utente

L’ottimizzazione del backend conta, ma gli utenti percepiscono direttamente le prestazioni del frontend. Un tempo di risposta API di 200 ms non significa nulla se il browser impiega 4 secondi a rendere la pagina.

Ecco alcuni guadagni rapidi che fanno una vera differenza:

Carica immagini e componenti pesanti in modo pigro. Carica solo ciò che è visibile nella finestra di visualizzazione. L’API Intersection Observer rende questo chiaro ed efficiente.
Comprimi e servi formati moderni. Usa WebP o AVIF per le immagini. Attiva la compressione Brotli sul tuo server. Questi sono cambiamenti a basso sforzo e alta ricompensa.
Suddivisione dei bundle. Spedisci solo il JavaScript necessario per la pagina attuale. Gli import dinamici in React o Vue rendono questo quasi banale.
Utilizza un CDN. Gli asset statici devono essere serviti da posizioni edge vicine ai tuoi utenti. Questo può da solo ridurre notevolmente i tempi di caricamento per un pubblico globale.

Una nota sui Core Web Vitals

Google utilizza i Core Web Vitals come segnale di ranking. Largest Contentful Paint, Cumulative Layout Shift e Interaction to Next Paint contano tutti per il SEO e l’esperienza utente. Esegui Lighthouse regolarmente e considera le regressioni come bug.

Elaborazione asincrona per compiti pesanti

Non tutto deve avvenire nel ciclo di richiesta-risposta. Se un’azione dell’utente attiva qualcosa di costoso come l’invio di un’email, la generazione di un rapporto o l’elaborazione di un download, spingilo in una coda di fondo.

Le code di messaggi come RabbitMQ, Amazon SQS, o anche soluzioni basate su Redis come BullMQ ti permettono di disaccoppiare il lavoro dalla risposta. L’utente riceve una conferma immediata, e l’elaborazione pesante avviene in background alla velocità che i tuoi lavoratori possono gestire.

Questo modello è anche un punto di scalabilità naturale. Hai bisogno di più throughput? Aggiungi più lavoratori. Nessun cambiamento necessario nella tua API.

Non ottimizzare ciò che puoi eliminare

Il codice più veloce è quello che non viene mai eseguito. Prima di ottimizzare un processo lento, chiediti se deve esistere affatto.

Calcoli qualcosa a ogni richiesta che potrebbe essere pre-calcolato?
Chiamate un’API esterna quando un cache locale sarebbe sufficiente?
Esegui un job cron ogni minuto quando una esecuzione ogni ora sarebbe sufficiente?

La semplificazione prevale quasi sempre sull’ottimizzazione. Meno parti mobili significano meno cose che possono rompersi, meno cose da monitorare e meno cose da scalare.

In sintesi

L’ottimizzazione delle prestazioni non è un progetto unico. È un’abitudine. Misura prima, correggi il collo di bottiglia più grande, controlla il miglioramento e ripeti. Resisti alla tentazione di ottimizzare prematuramente elementi che non sono realmente lenti. Concentrati dove i dati ti dicono che conta.

I consigli qui coprono gli schemi che forniscono sistematicamente il maggiore impatto in sistemi del mondo reale. Inizia con l’osservabilità, correggi le tue richieste, metti in cache in modo aggressivo e sposta i compiti pesanti in background. Rimarrai sorpreso di vedere fino a dove ti porta tutto questo.

Se stai costruendo qualcosa che deve funzionare su larga scala, agntmax.com è il posto dove ci occupiamo di questi problemi ogni giorno. Rimani con noi, esplora i nostri altri articoli sulla progettazione di sistemi e sull’architettura cloud, e facci sapere quali sfide sulle prestazioni devi affrontare. Saremmo felici di aiutarti a risolverle.

Spedite più velocemente, non più duramente: Consigli sulle prestazioni che evolvono realmente

Comincia da ciò che puoi misurare

Le richieste di database sono quasi sempre il collo di bottiglia

Scalabilità orizzontale, ma solo quando è necessaria

Le prestazioni del frontend sono le prestazioni visibili dall’utente

Una nota sui Core Web Vitals

Elaborazione asincrona per compiti pesanti

Non ottimizzare ciò che puoi eliminare

In sintesi

Articoli correlati

Related Articles

Comincia da ciò che puoi misurare

Le richieste di database sono quasi sempre il collo di bottiglia

Scalabilità orizzontale, ma solo quando è necessaria

Le prestazioni del frontend sono le prestazioni visibili dall’utente

Una nota sui Core Web Vitals

Elaborazione asincrona per compiti pesanti

Non ottimizzare ciò che puoi eliminare

In sintesi

Articoli correlati

You May Also Like

📚 You Might Also Like

Related Articles