xG statistiky pro sázení: Jak expected goals změní váš přístup ke kurzům
Načítání...
Před třemi lety jsem tipoval zápas, kde domácí tým prohrál předchozí tři utkání. Kurz na jejich výhru byl 3,20 – krásně vysoký, nikdo jim nevěřil. Jenže když jsem se podíval na xG data, viděl jsem úplně jiný příběh: tým v těch třech prohrách vytvořil xG 1,8, 2,1 a 1,6. Prostě měli smůlu. Soupeři skórovali z minimálních šancí a oni naopak zahodili obrovské příležitosti. Vsadil jsem na ně – a vyhráli 3:1. Nebyla to magie, byla to data.
Opta, jeden z největších světových poskytovatelů sportovních dat, dnes využívá umělou inteligenci k analýze až dvaceti kontextuálních faktorů u každého střeleckého pokusu. Jejich modely se učí na přibližně milionu historických střel. To je úroveň analytické hloubky, kterou před deseti lety neměl ani nejlepší bookmaker. Dnes je dostupná každému sázkaři, který ví, kde hledat a jak data interpretovat. Tento průvodce vám ukáže obojí.
Co je xG a jak se počítá
Na konferenci o sportovní analytice v roce 2022 jsem slyšel přednášejícího říct: „xG je nejlepší nástroj, který většina sázkařů používá špatně.“ Po letech práce s touto metrikou musím souhlasit – problém není v xG samotném, ale v tom, jak ho lidé interpretují.
Expected goals (xG) je statistická metrika, která každému střeleckému pokusu přiřazuje pravděpodobnost, že skončí gólem. Střela z penalty má xG kolem 0,76 – historicky totiž asi 76 % penalt skončí gólem. Hlavička z malého vápna po centru má xG kolem 0,15. Střela z 30 metrů mimo vápno má xG kolem 0,03. Když sečtete xG všech střel jednoho týmu v zápase, dostanete celkovou hodnotu xG – tedy kolik gólů by tým „měl“ vstřelit, kdyby byl průměrně efektivní.
Jak se xG konkrétně počítá? Model bere v úvahu pozici střelce na hřišti, úhel ke bráně, vzdálenost od brány, typ střely (noha, hlavička), situaci (otevřená hra, standardní situace, protiútok), pozici obránců a brankáře. Moderní modely přidávají kontext jako rychlost útoku, počet hráčů v pokutovém území nebo to, zda střela následovala po driblingu. Čím víc faktorů, tím přesnější model – ale i jednoduchý xG model založený jen na pozici a typu střely je dramaticky lepší než žádný model.
Důležité je pochopit, co xG není. Není to předpověď výsledku zápasu. Je to měřítko kvality vytvořených šancí. Tým s xG 2,3, který prohrál 0:1, nevyhrál „podle statistik“ – prostě vytvořil šance za 2,3 expected goals, ale neproměnil je. Rozdíl mezi xG a skutečnými góly je informace – a pro sázkaře mimořádně cenná informace.
Ještě jedna věc, která mate začátečníky: xG se počítá pro každou střelu, ne pro držení míče nebo celkovou dominanci. Tým může mít 70 % držení míče a xG 0,6, zatímco soupeř se 30 % držení má xG 1,8. Proč? Protože držení míče ve středu hřiště nevytváří šance – střely z nebezpečných pozic ano. Tohle je zásadní rozdíl, který xG oproti tradičním statistikám zachycuje.
xG versus skutečné góly: proč se liší a co to znamená
Kdyby každý tým skóroval přesně tolik gólů, kolik odpovídá jeho xG, sázení by bylo triviální. Ale fotbal tak nefunguje. Rozdíl mezi xG a realitou vzniká ze tří důvodů – a pochopení každého z nich vám pomůže lépe sázet.
První důvod: kvalita zakončení. Někteří útočníci jsou nadprůměrní střelci a dlouhodobě překonávají své xG. To je reálná schopnost, ne náhoda. Ale pozor – i ten nejlepší střelec překonává své xG jen o 15-20 %. Pokud tým výrazně překonává xG (řekněme vstřelil 25 gólů při xG 18), je pravděpodobnější, že šlo o sérii štěstí než o systematicky nadprůměrné zakončení. A štěstí se nevydrží.
Druhý důvod: kvalita brankáře. Brankář, který pravidelně chytá střely s vysokou xG, snižuje gólový výstup soupeřů pod jejich xG. To je měřitelné přes metriku PSxG (post-shot expected goals), která zohledňuje přesnost střely. Pokud tým inkasuje výrazně méně gólů než jejich xGA (expected goals against), může to být skvělý brankář – nebo smůla soupeřů.
Třetí důvod: nahodilost. Fotbal je hra s nízkým skóre, kde jeden gól rozhoduje. Výzkum publikovaný ve Frontiers in Sports and Active Living ukázal, že xG přístup dosahuje přesnosti 65,6 % při predikci výsledků zápasů – to je slušné, ale znamená to, že ve třetině případů výsledek neodpovídá tomu, co data napovídaly. Pro sázkaře to znamená jediné: krátkodobě budete mít zápasy, kde vám xG analýza „nefunguje“. Dlouhodobě funguje – ale musíte vydržet.
Pro sázení je klíčový tento princip: když tým dlouhodobě překonává nebo podstřeluje své xG, čekejte regresi k průměru. Tým, který vstřelil 30 gólů při xG 22, bude pravděpodobně v dalších zápasech skórovat méně. Trh ale často reaguje na skutečné výsledky, ne na xG – a tam leží vaše příležitost.
xG diferenciál: jak odhalit formu týmu
Tabulka nikdy neřekne celý příběh. Viděl jsem desítky případů, kdy tým na sedmém místě měl lepší xG diferenciál než tým na třetím. A hádejte, kdo měl lepší výsledky v následujících deseti kolech?
xG diferenciál (xGD) je rozdíl mezi xG a xGA týmu – tedy kolik šancí vytváří versus kolik povoluje. Tým s xGD +0,8 za zápas vytváří v průměru o 0,8 expected goals víc, než kolik jich povoluje soupeři. To je silný indikátor kvality – mnohem spolehlivější než body v tabulce, které jsou ovlivněné štěstím v zakončení, červenými kartami a dalšími náhodnými faktory.
Proč je xGD spolehlivější než tabulka? Protože izoluje kvalitu výkonu od štěstí. Tabulka odráží výsledky – a výsledky jsou kombinací výkonu a nahodilosti. xGD odstraňuje nahodilost zakončení a ukazuje, jak tým skutečně hraje. Tým, který má devět bodů z devíti, ale xGD jen +0,2, pravděpodobně měl štěstí. Tým, který má čtyři body z devíti, ale xGD +1,1, pravděpodobně měl smůlu. Pro sázkaře je druhý tým zajímavější – protože trh (a kurzy) reagují na tabulku, ne na xGD.
Pro sázkové účely je xGD za posledních pět zápasů (rolling xGD) mimořádně užitečný. Týmy s výrazně pozitivním xGD za pětizápasové období častěji přinášejí value bety na handicap a přímé výhry. To dává intuitivní smysl: tým, který konzistentně vytváří víc a lepší šance než soupeř, je v dobré formě bez ohledu na to, jestli poslední zápas vyhrál nebo prohrál.
Konkrétní příklad: tým prohrál poslední dva zápasy 0:1 a 1:2, ale jeho xGD za posledních pět zápasů je +1,2 za zápas. Tabulka a bodové zisky vypadají špatně, média píšou o krizi, a kurz na výhru tohoto týmu v dalším zápase je 2,60. Jenže xGD říká, že tenhle tým hraje skvěle – jen nemá štěstí. Kurz 2,60 může být výrazný value bet. Můj model v takových situacích dosahoval hit rate kolem 48 %, což při kurzu 2,60 znamená kladnou expected value přes 20 %.
xGA a predikce čistého konta
Většina sázkařů sleduje, kolik gólů tým střílí. Já se naučil sledovat, kolik gólů tým povoluje – a to mi vydělalo víc peněz.
xGA (expected goals against) měří kvalitu šancí, které tým povoluje soupeřům. Nízká xGA znamená, že tým brání dobře – ne v tom smyslu, že chytá střely, ale že vůbec nedovoluje soupeři vytvářet kvalitní příležitosti. To je udržitelnější než výborný brankář, protože brankářská forma kolísá víc než defenzivní organizace celého týmu.
Týmy, které průměrně inkasují méně než 1,0 xGA za zápas, drží čisté konto přibližně ve 45 % svých zápasů. To je statistika, se kterou se dá pracovat. Pokud bookmaker nabízí kurz 2,40 na čisté konto takového týmu v domácím zápase proti průměrnému soupeři, implicitní pravděpodobnost je 41,7 %. Váš odhad založený na xGA říká 45 %. Value bet.
Praktické využití xGA jde ale dál než sázky na čisté konto. xGA je klíčový vstup do under/over analýzy. Pokud domácí tým má xGA 0,8 a hosté mají xG 1,1, očekávaný gólový výstup hostů v tomto zápase bude někde mezi těmito dvěma čísly – pravděpodobně kolem 0,9 až 1,0. Když totéž uděláte pro domácí (jejich xG versus xGA hostů), dostanete odhad celkového počtu gólů, který můžete porovnat s liniemi bookmakera.
Kde xGA data získat? FBref nabízí xGA pro hlavní evropské ligy zdarma. Understat pokrývá pět top lig s detailními xG a xGA na úrovni jednotlivých zápasů i celé sezony. Pro českou Fortunu ligu je situace horší – data jsou méně dostupná a méně detailní, což paradoxně může být výhoda, pokud si dokážete vytvořit vlastní model.
Zajímavé je sledovat xGA v kombinaci s trendem. Tým, jehož xGA klesá za posledních pět zápasů (zlepšuje se defenziva), je kandidát na sázky under a čisté konto – i když jeho celosezónní xGA vypadá průměrně. Naopak tým s rostoucí xGA může mít problémy, které se v tabulce ještě neprojevily. Tohle je druh analýzy, kterou dělá minimum sázkařů – a proto nabízí edge.
Jak aplikovat xG data při výběru sázky
Mám tabulku, do které si před každým sázkovým dnem zapisuji pět čísel pro každý analyzovaný zápas: xG domácích (posledních 5 zápasů), xGA domácích, xG hostů, xGA hostů a xGD obou týmů. Trvá mi to patnáct minut – a ty minuty jsou nejhodnotnějších patnáct minut celé mé sázkové rutiny.
Studie Stephana Wilkense z TSG Hoffenheim analyzovala xG model na jedenácti sezonách Bundesligy a dosáhla ROI kolem 10 % při průměrných tržních kurzech. Při nejlepších dostupných kurzech ROI vzrostl na přibližně 15 %. To jsou čísla, která ukazují, že xG model nejen funguje, ale funguje konzistentně přes dlouhé období.
Můj postup aplikace xG dat má čtyři kroky. Zaprvé: spočítám očekávaný gólový výstup obou týmů na základě jejich xG, xGA a xG soupeře. Zadruhé: porovnám svůj odhad s linií bookmakera (over/under, BTTS). Zatřetí: podívám se na xGD a tabulkovou pozici – pokud xGD a tabulka silně nesouhlasí, hledám value na 1X2. Začtvrté: ověřím, zda kurz nabízí dostatečnou hodnotu oproti mému odhadu. Pokud ano, sázím. Pokud ne, jdu dál.
Zásadní je nepřeceňovat xG. Data vám řeknou, co by se mělo stát v průměru – ne co se stane v konkrétním zápase. Jedna sázka je vždy hazard. Sto sázek založených na kvalitním xG modelu je investice. Rozdíl je v horizontu a v disciplíně.
Konkrétní scénář, který ilustruje sílu xG přístupu: sledujete zápas, kde domácí tým má rolling xG 1,9 a xGA 0,7 za posledních pět zápasů. Hosté mají xG 1,1 a xGA 1,4. Váš odhad gólového výstupu domácích: přibližně 1,6 (průměr jejich xG a hostovy xGA). Hosté: přibližně 0,9. Celkový odhad: 2,5 gólů. Bookmaker nabízí over 2,5 s kurzem 2,10. Implicitní pravděpodobnost po očištění: asi 46 %. Váš odhad říká, že pravděpodobnost over 2,5 je kolem 52 %. Máte value bet s edge 6 % – a celá analýza vám zabrala deset minut.
Kde najít spolehlivá xG data zdarma i placeně
Když jsem začínal s xG analýzou, strávil jsem týden hledáním spolehlivých zdrojů. Ušetřím vám ten čas – tady je přehled toho, co skutečně funguje.
FBref je můj primární zdroj. Pokrývá hlavní evropské ligy (Premier League, La Liga, Bundesliga, Serie A, Ligue 1) s detailními xG daty na úrovni hráčů i týmů. Je zdarma, aktualizuje se rychle a data pocházejí ze StatsBomb, což je jeden z nejrespektovanějších poskytovatelů v oboru. Pro většinu sázkařů je FBref dostatečný.
Understat je specializovaný na xG a nabízí vizuálně přehledné rozhraní s historickými daty za několik sezon. Pokrývá stejných pět top lig, ale prezentuje data jiným způsobem – situační mapy střel, xG trendy v čase, porovnání hráčů. Je taky zdarma.
Pro pokročilejší analytiky existují placené služby. StatsBomb nabízí API s nejdetailnějšími xG daty na trhu – včetně freeze frame dat, která ukazují pozice všech hráčů v momentě střely. Opta (Stats Perform) je standardní zdroj dat pro profesionální kluby a bookmakery. Ceny těchto služeb se pohybují od stovek do tisíců dolarů měsíčně – to dává smysl jen pro profesionální sázkaře s velkým bankrollem.
Pro českou Fortuna ligu je situace komplikovanější. FBref Fortunu ligu nepokrývá se stejnou hloubkou jako top pět lig. InStat a Wyscout nabízejí data i pro české soutěže, ale za poplatek. Pokud sázíte primárně na český fotbal, budete pravděpodobně muset kombinovat víc zdrojů nebo si vytvořit vlastní zjednodušený model na základě veřejně dostupných statistik.
Můj tip pro začátečníky: začněte s FBref a jednou ligou. Naučte se pracovat s xG daty na Premier League (nejlépe pokrytá liga s nejvíc dostupnými daty) a teprve pak expandujte na další ligy. Snažit se pokrýt pět lig od začátku je recept na povrchní analýzu všude – a hlubokou analýzu nikde.
Ještě jeden zdroj, který stojí za zmínku: Twitter (X) a specializované analytické účty. Komunita fotbalových analytiků sdílí xG vizualizace, rolling xGD grafy a detailní rozbory po každém ligovém kole. Tyto účty často ukazují věci, které byste v surových datech přehlédli – a jsou zdarma. Jen si dávejte pozor na to, zda autor pracuje s kvalitními daty, nebo jen přebírá čísla bez kontextu.
Limity xG: kdy metrika selhává
Jednou jsem vsadil na základě xG dat na tým, který měl za poslední měsíc fenomenální čísla. Prohrál jsem – a když jsem se podíval proč, zjistil jsem, že tým mezitím prodal svého nejlepšího útočníka. xG model tohle nezachytí, dokud se nová data neobjeví v číslech. A to trvá zápasy, někdy týdny.
Umělá inteligence ve sportovním sázení vytváří stále sofistikovanější modely, ale ani ty nejlepší nejsou všemocné. xG má konkrétní limity, které musíte znát, abyste je nepřeceňovali.
Za prvé, xG nezahrnuje kontext mimo hřiště. Změny trenéra, přestupová okna, problémy v kabině, únava z reprezentačních přestávek – tohle jsou faktory, které zásadně ovlivňují výkon, ale v xG datech se neobjeví okamžitě. Pokud se v týmu něco zásadně změní, historická xG data ztrácejí vypovídající hodnotu, dokud se nová realita neprojeví v dostatečném počtu zápasů.
Za druhé, xG modely mají problém s nestandardními situacemi. Přímé kopy, dlouhé auty, specifické standardní situace – to jsou akce, kde kontext (kdo kope, jaká je zeď, jak se brání) má větší vliv než samotná pozice střely. Většina modelů tyto situace nezachycuje dostatečně přesně.
Za třetí, xG funguje nejlépe u ligových zápasů s velkým vzorkem dat. U pohárových zápasů, kde se týmy setkávají poprvé, nebo u zápasů s extrémní motivací (finále, derby), může být kontext důležitější než xG historie. V těchto situacích používám xG jako jeden z faktorů, ne jako hlavní rozhodovací kritérium.
Za čtvrté, malý vzorek. xG za tři zápasy neříká téměř nic. xG za deset zápasů dává hrubý obraz. Teprve xG za dvacet a více zápasů je statisticky spolehlivý základ pro predikce. Na začátku sezony, kdy máte data za dvě tři kola, je xG analýza založená na těchto datech nespolehlivá – pracujte s daty z předchozí sezony a přidávejte aktuální pozorování postupně.
Za páté, defenzivní xG (xGA) je méně stabilní než ofenzivní xG. Defenzivní výkon závisí na kolektivní organizaci, která se mění s každou změnou v sestavě. Nový obránce, jiný defenzivní záložník nebo změna rozestavení mohou dramaticky ovlivnit xGA – více než ekvivalentní změna v útoku ovlivní xG. Berte xGA s větší rezervou než xG, zvlášť po personálních změnách v defenzivě.
Přes všechny tyto limity zůstává xG nejlepší veřejně dostupnou metrikou pro hodnocení fotbalové výkonnosti. Hledání value betů bez xG dat je jako řízení auta se zavřenýma očima – technicky možné, prakticky sebevražedné. Znáte-li limity, dokážete s nimi pracovat. A to je přesně to, co odlišuje analytického sázkaře od toho, kdo si jen přečte čísla a myslí si, že rozumí fotbalu.
Jaký je rozdíl mezi pre-match xG a post-match xG?
Pre-match xG je odhad založený na historických datech obou týmů – kolik gólových šancí tým typicky vytváří a povoluje. Post-match xG je součet xG hodnot všech reálných střel, které v zápase padly. Pre-match xG používáte k predikci výsledku, post-match xG k hodnocení, zda výsledek odpovídal kvalitě šancí. Pro sázkové účely je důležitější pre-match xG pro výběr sázky a post-match xG pro zpětnou evaluaci vašeho modelu.
Kde najdu xG statistiky pro českou Fortuna ligu?
FBref pokrývá českou Fortunu ligu, ale s menší hloubkou než top pět evropských lig. Placené služby jako InStat nebo Wyscout nabízejí detailnější data i pro české soutěže. Alternativně můžete pracovat s veřejně dostupnými základními statistikami (střely, střely na bránu, držení míče) a vytvořit si zjednodušený vlastní model.
Stačí xG data sama o sobě k úspěšnému sázení?
Ne. xG je nejlepší veřejně dostupná metrika pro hodnocení fotbalové výkonnosti, ale nezachycuje kontext mimo hřiště – změny trenéra, zranění, motivaci, taktické posuny. Úspěšný sázkař kombinuje xG data s kontextuální analýzou a porovnává svůj celkový odhad s kurzem bookmakera. xG samo o sobě vám dá edge, ale kombinace xG s dalšími faktory vám dá větší edge.
