Related articles

Modelli Predittivi e AI nelle Scommesse sul Baseball: Possibilità, Limiti e Approccio Pratico

Modelli predittivi e AI nelle scommesse sul baseball: possibilità e limiti pratici

Il mio primo modello predittivo per il baseball era un foglio Excel con 6 colonne e una formula che produceva una probabilità di vittoria per ogni partita. Era rudimentale, pieno di difetti e mi ha fatto perdere soldi per due mesi. Il terzo mese, dopo aver aggiunto tre variabili e corretto un errore nella ponderazione del park factor, ha iniziato a produrre un CLV positivo. Non perché fosse diventato geniale – ma perché aveva raggiunto una soglia minima di accuratezza sufficiente a battere le quote più sbilanciate.

Con un mercato globale delle scommesse sportive da 112 miliardi di dollari, i bookmaker investono milioni in modelli predittivi sofisticati alimentati da machine learning e reti neurali. La domanda che ogni scommettitore si pone è: un individuo con un foglio di calcolo e dati gratuiti può ancora trovare un edge contro questa potenza computazionale? La risposta è sì, ma solo se comprende i limiti di qualsiasi modello – incluso il proprio.

Le Basi di un Modello Predittivo per il Baseball

Non serve una laurea in data science per costruire un modello funzionale. Serve capire la logica, scegliere le variabili giuste e resistere alla tentazione di complicare le cose.

La regressione logistica è il punto di partenza accessibile. L’input è un set di variabili per ogni partita – le statistiche dei due pitcher e dei due lineup – e l’output è una probabilità di vittoria per ciascuna squadra. Le variabili chiave che ho selezionato dopo anni di sperimentazione sono quattro: il FIP dello starting pitcher di ciascuna squadra, il wOBA aggregato del lineup avversario (che misura la qualità offensiva), il park factor dello stadio e le statistiche aggregate del bullpen (FIP del bullpen, inning lanciati nelle ultime 48 ore).

Il processo è lineare. Raccogli i dati da FanGraphs per le ultime 30-60 partite di ciascun pitcher e lineup. Inseriscili nel modello. Il modello produce una probabilità – per esempio, 56% di vittoria per la squadra A. Confronta quella probabilità con la probabilità implicita nella quota del bookmaker. Se il bookmaker offre 2.10 sulla squadra A (probabilità implicita 47,6%), il tuo modello vede un edge del 8,4%. Se offre 1.70 (probabilità implicita 58,8%), non c’è edge.

La semplicità è un vantaggio, non un limite. Un modello con 4 variabili ben scelte è più robusto di uno con 20 variabili selezionate male. Ogni variabile aggiunta aumenta il rischio di overfitting – il fenomeno per cui il modello si adatta ai dati passati ma fallisce sui dati futuri.

Limiti dei Modelli: Overfitting e Varianza del Baseball

Ho imparato cos’è l’overfitting nel modo più costoso possibile: costruendo un modello che funzionava perfettamente sui dati della stagione precedente e perdeva soldi su ogni partita della stagione corrente.

L’overfitting si verifica quando il modello memorizza i pattern dei dati storici invece di catturare le relazioni fondamentali tra variabili e risultati. Un modello che usa 15 variabili su un campione di 200 partite troverà correlazioni spurie – relazioni che esistono per caso nei dati passati ma non si ripetono nel futuro. La regola empirica è brutale: non usare più di una variabile per ogni 50 osservazioni nel campione. Con 200 partite, 4 variabili sono il massimo ragionevole.

Il baseball amplifica il problema dell’overfitting perché la sua varianza intrinseca è alta. Gli underdog vincono il 44% delle partite – significa che anche un modello perfetto sbagliera’ quasi una previsione su due. Nel basket, la squadra migliore vince l’80% delle partite e i modelli raggiungono accuratezze del 70%+. Nel baseball, il ceiling realistico per un modello predittivo è intorno al 55-58% di accuratezza. Ogni punto percentuale sopra il 55% è un trionfo statistico, non un risultato mediocre.

Il sample size è l’altro nemico. Trenta partite non sono sufficienti per valutare nulla nel baseball. Un pitcher può avere un FIP di 2.50 in 30 partite per pura fortuna. Servono almeno 100 partite per un pitcher, 200+ per un lineup, per avere campioni minimamente affidabili. Questo significa che i modelli sono meno accurati ad aprile-maggio (campione piccolo) e più affidabili da luglio in poi.

C’è un altro limite che i venditori di modelli non ti diranno mai: il bookmaker ha accesso agli stessi dati pubblici che usi tu, più dati proprietari che non hai. Il tuo modello non deve battere il mercato su ogni partita – deve trovare le partite dove il mercato è meno efficiente. Queste partite esistono, ma sono la minoranza. Un buon modello ti dice su quante partite scommettere (poche), non ti dice di scommettere su tutte.

Strumenti Accessibili per Costruire il Tuo Modello

Non servono software da migliaia di euro. Il mio primo modello profittevole girava su Google Sheets. Il secondo su Python. Entrambi usavano dati completamente gratuiti.

Il modello base richiede solo un foglio di calcolo (Google Sheets o Excel) e dati FanGraphs. Scarica le statistiche dei pitcher (FIP, xFIP, K/9, BABIP) e dei lineup (wOBA, wRC+) per gli ultimi 30 giorni. Crea una formula che pondera queste variabili per produrre una probabilità di vittoria. Confronta con le quote. Non è sofisticato, ma è sufficiente per identificare le linee più sbilanciate.

Il modello avanzato richiede Python con pandas e scikit-learn. La regressione logistica in scikit-learn si implementa in meno di 50 righe di codice. Il vantaggio rispetto al foglio di calcolo è la possibilità di testare il modello sui dati storici (backtesting) e di automatizzare il download dei dati. Il rischio è la tentazione di complicare il modello – aggiungere reti neurali, random forest, gradient boosting – senza avere il campione di dati sufficiente a giustificarne la complessità.

Per il tracking del CLV, strumenti come Betstamp e Unabated permettono di registrare automaticamente la quota al momento della scommessa e confrontarla con la closing line. Questo feedback è essenziale per capire se il tuo modello sta trovando edge reale o se i risultati positivi sono frutto della varianza. Ciò che va evitato sono i modelli a pagamento senza track record verificabile – esattamente come per i pronostici. Se un venditore di modelli non pubblica il suo CLV storico, il suo prodotto non vale il prezzo richiesto. L’analisi dei pitcher resta il pilastro su cui qualsiasi modello baseball deve fondarsi.

Si può costruire un modello predittivo per il baseball senza sapere programmare?

Sì. Un foglio di calcolo con dati FanGraphs e formule di base è sufficiente per costruire un modello funzionale. Google Sheets o Excel permettono di creare modelli con 4-5 variabili chiave e confrontare le probabilità calcolate con le quote dei bookmaker. La programmazione amplia le possibilità ma non è indispensabile.

Perché i modelli AI non garantiscono profitti nelle scommesse?

La varianza intrinseca del baseball limita l’accuratezza massima di qualsiasi modello al 55-58%. L’overfitting – l’adattamento ai dati passati che non si ripete nel futuro – è un rischio costante. Inoltre, i bookmaker usano modelli propri sofisticati, quindi l’edge disponibile per un modello esterno è strutturalmente limitato.

Created by the "Scommesse sul Baseball" editorial team.

Pronostici Baseball MLB: Come Valutarli | DiamondBet

Come valutare i pronostici sul baseball MLB: criteri per distinguere analisi serie da opinioni, track…

Scommesse Baseball Underdog: Strategia con Dati | DiamondBet

Strategia underdog nel baseball con dati: win rate 44%, filtri per gli sfavoriti, domicilio vs…

Scommesse Spring Training MLB: Guida | DiamondBet

Guida alle scommesse sullo Spring Training MLB: rischi, opportunità limitate e cosa guardare nei dati…

Gioco Responsabile Scommesse Baseball Italia | DiamondBet

Guida al gioco responsabile per le scommesse sul baseball: come impostare limiti, riconoscere i segnali…

Scommesse Baseball NPB Giappone | DiamondBet

Guida alle scommesse sulla NPB giapponese: differenze con la MLB, regole, mercati disponibili sui bookmaker…