Spedite più velocemente, non più difficile: Consigli sulle prestazioni che si evolvono realmente

📖 7 min read•1,234 words•Updated Apr 4, 2026

Siamo tutti passati per questo. La tua applicazione funziona perfettamente in sviluppo, gestisce i tuoi dati di test come un campione, e poi arrivano gli utenti reali. All’improvviso, tutto diventa lento. I tempi di risposta esplodono. La tua fattura del cloud somiglia a un numero di telefono. Ti dice qualcosa?

Ho trascorso anni a ottimizzare sistemi che dovevano gestire carichi pesanti, e gli schemi che contano si ripetono ancora e ancora. Non sono best practice teoriche tratte da un manuale. Sono gli elementi che fanno davvero la differenza quando il tuo sistema è sotto pressione.

Inizia da ciò che puoi misurare

Prima di ottimizzare qualsiasi cosa, devi sapere dove si trova realmente il collo di bottiglia. Indovinare è il modo più veloce per perdere una settimana a refattorizzare un codice che non è mai stato il problema.

Implementa prima l’osservabilità. Al minimo, vuoi tre cose: log strutturati, tracciamento delle richieste e dashboard delle metriche. Strumenti come OpenTelemetry rendono tutto ciò semplice nella maggior parte degli ecosistemi linguistici.

Ecco un esempio rapido di aggiunta di un’istrumentazione temporale di base a una rotta Express:


app.use((req, res, next) => {
 const start = process.hrtime.bigint();
 res.on('finish', () => {
 const duration = Number(process.hrtime.bigint() - start) / 1e6;
 logger.info({ method: req.method, path: req.path, status: res.statusCode, durationMs: duration });
 });
 next();
});

Con questo, saprai quali endpoint sono lenti e con quale frequenza vengono sollecitati. Rimarrai sorpreso di vedere con quale frequenza il vero colpevole è una rotta a cui nessuno ha pensato.

Le richieste di database sono quasi sempre il collo di bottiglia

Nove volte su dieci, le applicazioni lente lo sono a causa del layer del database. Non del framework, non del linguaggio, non del server. Le richieste.

Ecco le correzioni ad alto impatto che continuo ad applicare:

Aggiungi indici basati su modelli di richiesta reali. Esegui un EXPLAIN sulle tue richieste più lente. Cerca scansioni sequenziali su grandi tabelle. Un solo indice ben posizionato può trasformare una richiesta da 3 secondi a una di 5 millisecondi.
Elimina le richieste N+1. Se usi un ORM, attiva il logging delle richieste in sviluppo e monitora le richieste ripetute all’interno dei loop. Usa il caricamento anticipato o il raggruppamento delle recuperazioni al posto loro.
Paginare tutto. Non restituire mai insiemi di risultati non limitati. Utilizza la paginazione basata su cursori per grandi insiemi di dati invece di OFFSET, che diventa più lento man mano che il numero della pagina aumenta.
Cache i dati pesanti in lettura. Se il risultato di una richiesta non cambia spesso, mettilo nella cache. Redis è una buona scelta. Anche un TTL di 60 secondi può ridurre notevolmente il carico del database durante i picchi di traffico.

Un semplice modello di caching in Python con Redis appare così:


import redis, json

cache = redis.Redis(host='localhost', port=6379, db=0)

def get_product(product_id):
 cache_key = f"product:{product_id}"
 cached = cache.get(cache_key)
 if cached:
 return json.loads(cached)
 product = db.query("SELECT * FROM products WHERE id = %s", (product_id,))
 cache.setex(cache_key, 300, json.dumps(product))
 return product

Cinque righe di logica di caching. Migliaia di richieste al database potenzialmente evitate al minuto.

Scalate orizzontalmente, ma solo quando necessario

Lo scaling orizzontale è potente, ma introduce complessità. Prima di creare più istanze, assicurati di aver massimizzato le prestazioni di ciò che hai già.

Lo scaling verticale, che consiste nel dare più CPU e memoria al tuo server esistente, è sottovalutato. È più semplice, non ha gli svantaggi dei sistemi distribuiti, e spesso ti offre più margine di manovra di quanto la gente si aspetti.

Quando hai davvero bisogno di espanderti, tieni a mente questi principi:

Rendi la tua applicazione senza stato. I dati di sessione, i file caricati e lo stato temporaneo dovrebbero trovarsi in store esterni come Redis o storage di oggetti, e non sul filesystem locale.
Usa il pooling delle connessioni. Ogni nuova istanza che apre le proprie connessioni al database esaurirà rapidamente il tuo limite di connessione. Usa un pooler come PgBouncer per PostgreSQL.
Bilancia il carico in modo intelligente. Il round-robin è sufficiente per carichi uniformi. In qualsiasi altro caso, considera un routing basato sul numero di connessioni o ponderato.

Le prestazioni frontend sono le prestazioni visibili all’utente

Ottimizzare il backend è importante, ma gli utenti percepiscono direttamente le prestazioni frontend. Una risposta API di 200 ms non significa nulla se il browser impiega 4 secondi a rendere la pagina.

Guadagni rapidi che fanno una vera differenza:

Carica le immagini e i componenti pesanti in modo pigro. Carica solo ciò che è visibile nel viewport. L’API Intersection Observer lo facilita in modo pulito ed efficiente.
Comprimi e servi formati moderni. Usa WebP o AVIF per le immagini. Abilita la compressione Brotli sul tuo server. Questi sono cambiamenti a basso sforzo e alto impatto.
Divisione dei bundle. Spedisci solo il JavaScript necessario per la pagina attuale. Gli import dinamici in React o Vue rendono tutto ciò quasi triviale.
Usa un CDN. Le risorse statiche dovrebbero essere servite da localizzazioni vicine ai tuoi utenti. Questo è sufficiente a ridurre notevolmente i tempi di caricamento per un pubblico globale.

Una nota sui Core Web Vitals

Google utilizza i Core Web Vitals come segnale di ranking. Largest Contentful Paint, Cumulative Layout Shift e Interaction to Next Paint contano tutti per il SEO e l’esperienza utente. Esegui Lighthouse regolarmente e tratta le regressioni come bug.

Elaborazione asincrona per compiti pesanti

Non tutto deve avvenire nel ciclo di richiesta-risposta. Se un’azione dell’utente attiva qualcosa di costoso come l’invio di un’email, la generazione di un rapporto o l’elaborazione di un download, invialo a una coda in background.

Code di messaggi come RabbitMQ, Amazon SQS, o anche soluzioni basate su Redis come BullMQ ti permettono di disaccoppiare il lavoro dalla risposta. L’utente riceve un riconoscimento istantaneo, e l’elaborazione pesante avviene in background alla velocità con cui i tuoi lavoratori possono gestire.

Questo modello è anche un punto di scaling naturale. Hai bisogno di più throughput? Aggiungi più lavoratori. Nessun cambiamento necessario nella tua API.

Non ottimizzare ciò che puoi eliminare

Il codice più veloce è quello che non viene mai eseguito. Prima di ottimizzare un processo lento, chiediti se deve addirittura esistere.

Calcoli qualcosa a ogni richiesta che potrebbe essere pre-calcolato?
Chiami un’API esterna quando una cache locale sarebbe sufficiente?
Esegui un cron job ogni minuto quando una volta all’ora sarebbe sufficiente?

La semplificazione prevale quasi sempre sull’ottimizzazione. Meno pezzi mobili significano meno cose che possono rompersi, meno cose da monitorare e meno cose da scalare.

Conclusione

Ottimizzare le prestazioni non è un progetto occasionale. È un’abitudine. Misura prima, correggi il collo di bottiglia più grande, verifica il miglioramento e ripeti. Resisti all’impulso di ottimizzare prematuramente cose che non sono realmente lente. Concentrati sulla tua energia dove i dati ti dicono che conta.

I suggerimenti qui coprono schemi che portano sistematicamente il maggiore impatto in sistemi reali. Inizia con l’osservabilità, correggi le tue richieste, fai caching in modo aggressivo e sposta il lavoro pesante in background. Rimarrai sorpreso di vedere fino a dove questo può portarti.

Se stai costruendo qualcosa che deve funzionare su larga scala, agntmax.com è il posto dove approfondiamo questi problemi ogni giorno. Rimani in contatto, esplora i nostri altri articoli sulla progettazione di sistemi e architettura cloud, e facci sapere quali sfide di prestazioni stai affrontando. Saremmo felici di aiutarti a risolverle.

Spedite più velocemente, non più difficile: Consigli sulle prestazioni che si evolvono realmente

Inizia da ciò che puoi misurare

Le richieste di database sono quasi sempre il collo di bottiglia

Scalate orizzontalmente, ma solo quando necessario

Le prestazioni frontend sono le prestazioni visibili all’utente

Una nota sui Core Web Vitals

Elaborazione asincrona per compiti pesanti

Non ottimizzare ciò che puoi eliminare

Conclusione

Articoli correlati

Related Articles

Inizia da ciò che puoi misurare

Le richieste di database sono quasi sempre il collo di bottiglia

Scalate orizzontalmente, ma solo quando necessario

Le prestazioni frontend sono le prestazioni visibili all’utente

Una nota sui Core Web Vitals

Elaborazione asincrona per compiti pesanti

Non ottimizzare ciò che puoi eliminare

Conclusione

Articoli correlati

You May Also Like

📚 You Might Also Like

Related Articles