Scatenare la velocità d’inferenza: un tutorial pratico di ottimizzazione GPU

📖 13 min read•2,562 words•Updated Apr 4, 2026

Introduzione : La ricerca di un’inferenza più rapida

Nel rapido universo in evoluzione dell’intelligenza artificiale, addestrare modelli è solo metà della battaglia. La vera misura dell’utilità di un modello risiede spesso nella sua capacità di effettuare inferenze — fare previsioni o generare risultati — rapidamente ed efficacemente. Per molte applicazioni nel mondo reale, dalla rilevazione di oggetti in tempo reale alle risposte di modelli linguistici di grandi dimensioni, la velocità di inferenza è fondamentale. Sebbene l’inferenza basata su CPU abbia la sua importanza, la potenza di elaborazione parallela delle unità di elaborazione grafica (GPU) le rende indiscusse campionesse dell’inferenza IA ad alta capacità e bassa latenza.

Questo tutorial ti guiderà attraverso strategie e tecniche pratiche per ottimizzare l’uso delle GPU durante l’inferenza. Andremo oltre i concetti teorici ed esploreremo passaggi concreti, accompagnati da esempi di codice, per aiutarti a ottenere il massimo della performance dal tuo hardware. Alla fine, avrai una comprensione solida di come identificare i colli di bottiglia e implementare ottimizzazioni efficaci per i tuoi carichi di lavoro di inferenza in deep learning.

Comprendere i colli di bottiglia dell’inferenza GPU

Prima di ottimizzare, è cruciale capire cosa potrebbe rallentare la tua inferenza. L’inferenza GPU non è sempre limitata dal calcolo; spesso, altri fattori fungono da colli di bottiglia. I colpevoli comuni includono:

Trasferimento di dati (Host verso Dispositivo/Dispositivo verso Host) : Il movimento dei dati tra la memoria della CPU (host) e la memoria della GPU (dispositivo) è lento. Minimizza ciò.
Dimensione del batch piccola : Le GPU prosperano grazie al parallelismo. Dimensioni di batch molto piccole potrebbero non sfruttare pienamente le unità di calcolo della GPU.
Carichi utili del kernel : Ogni volta che un kernel GPU (un piccolo programma eseguito sulla GPU) viene avviato, c’è un piccolo sovraccarico. Molte operazioni piccole e sequenziali possono accumulare un sovraccarico significativo.
Modelli di accesso alla memoria : Un accesso alla memoria inefficiente (ad esempio, letture non contigue) può causare miss di cache e prestazioni più lente.
Unità di calcolo sotto-utilizzate : L’architettura del modello o la strategia di inferenza potrebbero non sfruttare pienamente la potenza di elaborazione della GPU.
Forme dinamiche/Flussi di controllo : Operazioni che impediscono la compilazione di grafi statici (ad esempio, rami if-else basati sui dati di input) possono ostacolare l’ottimizzazione.
Sovraccarico del framework : Il framework di deep learning stesso potrebbe introdurre sovraccarichi.

Strategie di ottimizzazione pratiche

1. Quantizzazione del modello : Ridurre la tua impronta e aumentare la velocità

La quantizzazione è il processo di riduzione della precisione dei numeri utilizzati per rappresentare i pesi e le attivazioni di un modello, generalmente da 32 bit in virgola mobile (FP32) a formati di precisione inferiore come 16 bit in virgola mobile (FP16 o BFloat16) o 8 bit interi (INT8). Questo presenta diversi vantaggi:

Riduzione dell’impronta di memoria : Modelli più piccoli richiedono meno memoria, consentendo dimensioni di batch più grandi o il deploy su dispositivi a risorse limitate.
Calcolo più veloce : Le operazioni aritmetiche di inferiore precisione sono generalmente più rapide e consumano meno energia. Le GPU moderne possiedono spesso hardware specializzato (ad esempio, i Tensor Cores) per le operazioni FP16 e INT8.
Riduzione del trasferimento dati : Meno dati devono essere spostati.

Esempio : Quantizzazione con PyTorch (FP16)

La maggior parte delle GPU moderne supporta FP16 (mezza precisione). PyTorch facilita la conversione del tuo modello.


import torch
import torch.nn as nn

# Supponiamo che 'model' sia il tuo modello PyTorch addestrato (ad esempio, un ResNet)
model = nn.Sequential(
 nn.Linear(784, 128),
 nn.ReLU(),
 nn.Linear(128, 10)
)
model.eval() # Metti il modello in modalità valutazione

# Sposta il modello sulla GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# Opzione 1 : Precisione mista automatica (AMP) per l'inferenza
# Questo è generalmente raccomandato in quanto gestisce le conversioni solo dove è vantaggioso
from torch.cuda.amp import autocast

# Esempio di ciclo di inferenza con AMP
input_data = torch.randn(64, 784).to(device)

with autocast():
 output = model(input_data)
print(f"Tipo di uscita d'inferenza AMP : {output.dtype}")

# Opzione 2 : Convertire esplicitamente l'intero modello in FP16 (meno comune per l'inferenza)
# model_fp16 = model.half() # Converte tutti i parametri e buffer in FP16
# input_data_fp16 = input_data.half()
# output_fp16 = model_fp16(input_data_fp16)
# print(f"Tipo di uscita d'inferenza FP16 esplicita : {output_fp16.dtype}")

# Per la quantizzazione INT8, utilizzeresti generalmente gli strumenti nativi di quantizzazione di PyTorch
# o esportare verso un ambiente di esecuzione come ONNX Runtime/TensorRT che gestisce ciò.

2. Ottimizzare la dimensione del batch : Trovare il giusto equilibrio

Le GPU raggiungono un elevato throughput elaborando molti punti dati in parallelo. Aumentare la dimensione del batch consente alla GPU di effettuare più calcoli in modo concorrente, il che porta spesso a un miglior utilizzo e a un tempo di inferenza complessivo più veloce, fino a un certo punto. Tuttavia, una dimensione del batch troppo grande può portare a errori di memoria insufficiente o a rendimenti decrescenti se la larghezza di banda della memoria della GPU o le sue unità di calcolo diventano sature.

Strategia : Regolazione della dimensione del batch

Sperimenta con diverse dimensioni del batch. Inizia con una dimensione del batch piccola (ad esempio, 1, 4, 8) e aumentala gradualmente fino a quando non osservi rendimenti decrescenti nella velocità di inferenza o non incontri limiti di memoria. Sfrutta il tuo modello per comprendere come la dimensione del batch influisce sull’uso della GPU.


import time

# ... (configurazione del modello e del dispositivo da sopra)

batch_sizes = [1, 16, 32, 64, 128, 256]
times = []

print("\nValutazione di diverse dimensioni di batch:")
for bs in batch_sizes:
 input_data = torch.randn(bs, 784).to(device)
 
 # Esecuzione di riscaldamento
 with autocast():
 _ = model(input_data)
 torch.cuda.synchronize() # Aspetta che la GPU finisca

 start_time = time.time()
 num_runs = 100
 for _ in range(num_runs):
 with autocast():
 _ = model(input_data)
 torch.cuda.synchronize()
 end_time = time.time()
 
 avg_time_per_batch = (end_time - start_time) / num_runs
 times.append(avg_time_per_batch)
 print(f"Dimensione del batch : {bs}, Tempo medio per batch : {avg_time_per_batch:.4f}s")

# La tracciabilità o l'analisi della lista 'times' mostrerebbe la dimensione del batch ottimale.

3. Compilazione di grafi e compilatori JIT (Just-In-Time)

I framework di deep learning come PyTorch e TensorFlow eseguono generalmente i modelli in modo interpretativo (modalità immediata). Sebbene sia flessibile, ciò può introdurre sovraccarichi Python e impedire le ottimizzazioni globali che un compilatore potrebbe effettuare. La compilazione di grafi converte il tuo modello in un grafo di calcolo statico, che può poi essere ottimizzato e compilato in codice macchina altamente efficiente.

Esempio : TorchScript con PyTorch

TorchScript è un modo per creare modelli serializzabili e ottimizzabili a partire da codice PyTorch. Può tracciare un modulo esistente o convertirlo tramite lo scripting.


# ... (configurazione del modello e del dispositivo)

# Opzione 1 : Tracciamento (per modelli con un flusso di controllo statico)
# Fornire un input fittizio per tracciare le operazioni
example_input = torch.randn(1, 784).to(device)
traced_model = torch.jit.trace(model, example_input)
print("\nTipo di modello tracciato :", type(traced_model))

# Inferenza con il modello tracciato
start_time = time.time()
num_runs = 100
for _ in range(num_runs):
 with autocast():
 _ = traced_model(example_input)
torch.cuda.synchronize()
end_time = time.time()
print(f"Tempo di inferenza del modello tracciato (per esecuzione) : {(end_time - start_time)/num_runs:.6f}s")

# Opzione 2 : Scripting (per modelli con un flusso di controllo dinamico, ma richiede una sintassi specifica)
# @torch.jit.script
# def my_scripted_function(x):
# if x.mean() > 0:
# return x * 2
# else:
# return x / 2
# scripted_output = my_scripted_function(torch.randn(10, 10).to(device))

Torch.compile (PyTorch 2.0+)

PyTorch 2.0 ha introdotto torch.compile, un potente compilatore JIT che utilizza tecnologie come TorchInductor per accelerare significativamente i modelli senza richiedere conversioni manuali in TorchScript. Questa è spesso l’ottimizzazione a livello di grafo più semplice ed efficace.


# ... (configurazione del modello e del dispositivo)

# Compilare il modello
compiled_model = torch.compile(model)

# Inferenza con il modello compilato
example_input = torch.randn(64, 784).to(device) # Utilizzare una dimensione del batch più grande per un effetto migliore

# Esecuzione di riscaldamento per la compilazione
with autocast():
 _ = compiled_model(example_input)
torch.cuda.synchronize()

start_time = time.time()
num_runs = 100
for _ in range(num_runs):
 with autocast():
 _ = compiled_model(example_input)
torch.cuda.synchronize()
end_time = time.time()
print(f"\nTempo di inferenza con Torch.compile (per esecuzione) : {(end_time - start_time)/num_runs:.6f}s")

4. Ambienti di esecuzione di inferenza dedicati: oltre i framework

Per una massima performance e flessibilità di distribuzione, considera ambienti di esecuzione di inferenza dedicati. Questi ambienti sono ottimizzati per le produzioni e includono spesso ottimizzazioni avanzate dei grafi, fusione dei kernel e supporto per vari acceleratori hardware.

NVIDIA TensorRT: Un ottimizzatore di inferenza di deep learning ad alte prestazioni e un ambiente di esecuzione di NVIDIA. Prende una rete addestrata, la ottimizza (ad esempio, quantizzazione, fusione di layer, tuning automatico dei kernel) e produce un motore di esecuzione ottimizzato. È specificamente progettato per le GPU NVIDIA.
ONNX Runtime: Supporta modelli nel formato Open Neural Network Exchange (ONNX). Fornisce un motore di inferenza unificato su vari hardware e sistemi operativi, con backend per CPU, GPU (CUDA, ROCm, DirectML) e acceleratori IA specializzati.

Strategia: Esportare in ONNX e inferenza con ONNX Runtime

Esportare il tuo modello PyTorch in ONNX è un passaggio comune per utilizzare ambienti come ONNX Runtime o TensorRT.


import onnx
import onnxruntime as ort

# ... (configurazione del modello)

# Esportare il modello PyTorch in ONNX
onnx_path = "model.onnx"
example_input = torch.randn(1, 784).to(device)

torch.onnx.export(
 model.cpu(), # L'esportazione ONNX viene solitamente eseguita prima sulla CPU
 example_input.cpu(),
 onnx_path,
 input_names=["input"],
 output_names=["output"],
 dynamic_axes={
 "input": {0: "batch_size"}, # Consentire una dimensione del batch dinamica
 "output": {0: "batch_size"}
 },
 opset_version=14
)

print(f"Modello esportato in {onnx_path}")

# Controllare il modello ONNX
onnx_model = onnx.load(onnx_path)
onnx.checker.check_model(onnx_model)
print("Modello ONNX verificato con successo.")

# Inferenza con ONNX Runtime
# Creare una sessione di inferenza
sess_options = ort.SessionOptions()
# Facoltativo: Impostare il livello di ottimizzazione del grafo per migliori performance
sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL

# Utilizzare il provider CUDA per l'inferenza GPU
providers = ['CUDAExecutionProvider', 'CPUExecutionProvider']
ort_session = ort.InferenceSession(onnx_path, sess_options=sess_options, providers=providers)

# Preparare l'input per ONNX Runtime
input_name = ort_session.get_inputs()[0].name
output_name = ort_session.get_outputs()[0].name

# Esempio di inferenza con una dimensione del batch di 64
input_data_np = torch.randn(64, 784).cpu().numpy().astype(import numpy as np; np.float32)

start_time = time.time()
num_runs = 100
for _ in range(num_runs):
 ort_outputs = ort_session.run([output_name], {input_name: input_data_np})
end_time = time.time()

print(f"\nTempo di inferenza ONNX Runtime (per esecuzione) : {(end_time - start_time)/num_runs:.6f}s")

5. Esecuzione Asincrona e Pipelining

Le operazioni GPU sono asincrone. La CPU avvia un kernel e passa immediatamente ad altro, mentre la GPU lo esegue in background. Comprendere questo è fondamentale per un pipelining efficace.

Strategia: Sovrapporre il Trasferimento Dati e il Calcolo

Invece di aspettare che un batch sia completamente elaborato prima di trattare il successivo, puoi sovrapporre il caricamento dei dati per il prossimo batch con il calcolo dell’attuale. Il DataLoader di PyTorch con num_workers > 0 e pin_memory=True aiuta a trasferire i dati verso la memoria pin, che è più veloce per l’accesso GPU.


import torchvision.datasets as datasets
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# Dataset e DataLoader fittizi
transform = transforms.Compose([
 transforms.ToTensor(),
 transforms.Normalize((0.5,), (0.5,))
])
dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# Importante: pin_memory=True per trasferimenti host-a-dispositivo più veloci
dataloader = DataLoader(dataset, batch_size=64, shuffle=False, num_workers=4, pin_memory=True)

# ... (configurazione del modello e del dispositivo, ad esempio, utilizzando torch.compile o traced_model)
compiled_model = torch.compile(model)

# Ciclo di inferenza con caricamento dati asincrono
start_time = time.time()
for i, (images, labels) in enumerate(dataloader):
 images = images.view(images.shape[0], -1).to(device, non_blocking=True) # non_blocking=True è fondamentale
 
 with autocast():
 outputs = compiled_model(images)
 
 # Se necessario utilizzare gli outputs sulla CPU, aggiungere un punto di sincronizzazione
 # Ad esempio, per calcolare metriche dopo un certo numero di batch
 # if (i+1) % 100 == 0: 
 # torch.cuda.synchronize()
 # # Elabora gli outputs qui

torch.cuda.synchronize() # Assicurati che tutte le operazioni GPU siano terminate prima della fine del timing
end_time = time.time()

print(f"\nTempo di inferenza asincrona per {len(dataloader.dataset)} campioni : {end_time - start_time:.4f}s")

6. Gestione e Allocazione della Memoria

Un utilizzo efficace della memoria è cruciale. Errori di memoria insufficiente interrompono l’inferenza e allocazioni frequenti possono introdurre sovraccarico.

Strategia: Svuotare la Cache e Utilizzare Gestori di Contesto

Svuota regolarmente la cache della memoria GPU, specialmente se carichi/svuoti modelli o tratti dimensioni di input molto diverse.


import gc

# ... alcune operazioni di inferenza ...

del model # Rimuovi il modello se non è più necessario
gc.collect()
torch.cuda.empty_cache() # Svuota la cache della memoria GPU di PyTorch
print("Cache GPU svuotata.")

Strategia: Pre-allocare Tensori (per input di dimensione fissa)

Se la dimensione del tuo tensore di input è fissa, pre-alloca i tensori di input e output sulla GPU per evitare allocazioni ripetute.


# ... (configurazione del modello e del dispositivo)

# Pre-allocare i tensori di input e output
fixed_batch_size = 64
fixed_input_shape = (fixed_batch_size, 784)

pre_allocated_input = torch.empty(fixed_input_shape, dtype=torch.float32, device=device)
# Esecuzione fittizia per ottenere la forma di output
with autocast():
 dummy_output = model(pre_allocated_input)
pre_allocated_output = torch.empty(dummy_output.shape, dtype=dummy_output.dtype, device=device)

# Ora, nel tuo ciclo di inferenza, copia i dati in pre_allocated_input
# e usa pre_allocated_output per memorizzare i risultati
# Esempio: (supponendo che hai un array numpy 'new_batch_data')
# pre_allocated_input.copy_(torch.from_numpy(new_batch_data))
# with autocast():
# model(pre_allocated_input, out=pre_allocated_output) # Alcuni modelli/operazioni supportano l'argomento 'out'

Profilazione e Debugging delle Performance

L’ottimizzazione è un processo iterativo. Hai bisogno di strumenti per identificare dove viene speso il tuo tempo.

PyTorch Profiler: Utilizza torch.profiler per ottenere rapporti dettagliati sulle operazioni CPU e GPU, i tempi di avvio del kernel, l’utilizzo della memoria e il trasferimento di dati.
NVIDIA Nsight Systems / Nsight Compute: Strumenti potenti e autonomi per una profilazione approfondita della GPU, mostrando le cronologie di esecuzione del kernel, la larghezza di banda della memoria e l’utilizzo di calcolo.
Modulo time di Python: Semplice ma efficace per cronometraggi di alto livello su blocchi di codice.

Esempio: PyTorch Profiler


from torch.profiler import profile, schedule, tensorboard_trace_handler, ProfilerActivity

# ... (configurazione del modello e del dispositivo)

with profile(
 schedule=schedule(wait=1, warmup=1, active=3, repeat=1),
 on_trace_ready=tensorboard_trace_handler("./log/profiler_inference"),
 activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
 record_shapes=True,
 with_stack=True
) as prof:
 for step in range(1 + 1 + 3 + 1): # wait, warmup, active, repeat_delay
 input_data = torch.randn(64, 784).to(device)
 with autocast():
 _ = model(input_data)
 prof.step()

print("\nRisultati del profiler salvati in ./log/profiler_inference. Vedi con 'tensorboard --logdir=./log'")

Conclusione

L’ottimizzazione dell’inferenza GPU è una sfida multi-faccettata, ma applicando sistematicamente le strategie descritte in questo tutorial, puoi ottenere guadagni di velocità significativi. Inizia con la quantizzazione, sperimenta con le dimensioni dei batch, utilizza compilatori di grafo come torch.compile, e considera runtime dedicati come ONNX Runtime o TensorRT per i deployment in produzione. Non dimenticare mai di fare profiling del tuo codice per identificare i veri colli di bottiglia, poiché un’ottimizzazione prematura può essere controproducente. Con questi strumenti e tecniche, sei ben equipaggiato per liberare il pieno potenziale delle tue GPU per un’inferenza IA ultra-rapida.

🕒 Published: April 4, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →