Interview Data Engineer & Analist PEC Zwolle: Gerhard van Dijkhuizen

In een tijd waarin data-analyse steeds crucialer wordt in de sportsector, speelt Gerhard van Dijkhuizen, Data Engineer & Analist bij PEC Zwolle, een sleutelrol. In een exclusief interview deelt hij zijn inzichten en ervaringen over de onmisbare IT-functies in de sport. Gerhard, met een wiskundige achtergrond, heeft zichzelf de vaardigheden van data-analyse en databasebeheer eigen gemaakt, wat hem een uniek perspectief geeft in zijn vakgebied. Hij bespreekt de verschillende soorten data die worden verzameld, van fysieke tracking tot tactische event data, en hoe deze data wordt opgeslagen en beveiligd. Daarnaast geeft hij waardevolle tips voor IT-professionals die een carrière als data-analist in de sportsector ambiëren. Gerhard benadrukt hoe data-analyse niet alleen ter ondersteuning dient, maar ook concrete verbeteringen in teamprestaties kan opleveren, vooral wanneer fysieke en event data effectief worden gecombineerd.

Welke rol speelt IT binnen jouw vakgebied en hoe ben je erin terechtgekomen? Wat is jouw achtergrond?

Gerhard van Dijkhuizen: Als data analist heb ik natuurlijk vaak met IT’ers te maken omdat ik gebruik maak van de database of het ‘data warehouse’ dat in veel organisaties door IT beheerd wordt. Dat leidt soms wel eens tot spanningen in het bijzonder als ik zware ‘queries’ moet draaien op productiesystemen. Vandaag de dag hebben de meeste bedrijven wel een schaduw database (mirror) of iets dergelijks draaien, maar dat was vroeger lang niet altijd het geval. Dat heeft natuurlijk alles te maken met de enorme ontwikkeling die datagedreven werken de afgelopen decennia heeft doorgemaakt. Ik heb zelf overigens een wiskundige achtergrond en ben tijdens mijn opleiding eigenlijk nooit met een database in aanraking gekomen. Dus die vaardigheden heb ik mijzelf na mijn opleiding aangeleerd. Maar bij het ontsluiten van databases komt mijn wiskundige achtergrond, het logisch denken, natuurlijk zeer goed van pas én bij het analyseren van data al helemaal!

Tijdens de EK-wedstrijden worden door de regen de wearables onder de shirts van de spelers duidelijk zichtbaar. Wat wordt er precies gemeten met de wearables die de spelers tijdens de wedstrijden en trainingen dragen? Kun je wat meer vertellen over de gebruikte technologie en het systeem?

Gerhard van Dijkhuizen: Ik weet natuurlijk niet welke wearables de spelers op dit EK precies gebruikten maar voor zover mij bekend bestaan er twee soorten meetapparatuur: één die vrijwel continu onder andere met behulp van Global Positioning System (GPS), de positie, de snelheid en de versnelling van een speler meet en bijhoudt en één die dat voor de hartslag doet.

Met hoeveel en welke collega’s werk je samen om de data-analyse bij PEC Zwolle te realiseren? Wat zijn hun specifieke rollen?

Gerhard van Dijkhuizen: Dat is lastig aan te geven. Data analyse is binnen PEC nog een relatief jong aandachtsgebied dat nog volop in ontwikkeling is. Naast mijzelf zijn er meerdere mensen – denk hierbij aan scouts, video-analisten en (fysiek) trainers – met data bezig, elk met hun eigen expertise en invalshoek.

Welke specifieke data wordt gemeten bij de spelers? Is deze data voor alle spelers hetzelfde, of zijn er verschillen per positie of individu?

Gerhard van Dijkhuizen: Naast de data die worden verzameld via de meetapparatuur die spelers op hun lichaam dragen worden er via diverse dataleveranciers, al dan niet gecoördineerd via de Eredivisie CV, diverse databronnen ontsloten, waaronder de zogenaamde “event” data van Opta (StatsPerform). Deze data is in de basis voor iedereen hetzelfde, maar er zijn wel specifieke data elementen die puur betrekking hebben op bijvoorbeeld het keepen, verdedigen, opbouwen en aanvallen. Dus zo beschouwd wordt er voor verschillende typen spelers wel verschillende soorten data verzameld.

Hoe slaan jullie de verzamelde data op en hoe wordt deze beveiligd?

Gerhard van Dijkhuizen: De data die via de meetapparatuur worden verzameld worden voor zover mij bekend op de servers van de leverancier van de meetapparatuur opgeslagen. Zij leveren daarbij ook diverse analysetools en rapportages. Desgewenst kan de data ook worden gedownload, bijvoorbeeld in CSV-formaat, voor nadere analyses. De event data wordt gedownload van de dataleveranciers en ondergebracht in een eigen relationele SQL-database. Deze database, inclusief bijbehorende Power BI rapportages, draait momenteel op een eigen fysieke server waarop remote kan worden ingelogd, bijvoorbeeld vanaf de bank of vanaf de tribune, maar enkel vanaf goedgekeurde IP-adressen. De leveranciers van event data leveren via hun eigen platform ook tools voor analyses en rapportages maar daarbij blijft de data op hun server staan. De event data bevatten overigens geen privacygevoelige informatie.

Wat vind jij persoonlijk de meest waardevolle of interessante ‘datapoints’ die jullie verzamelen? Kun je daar wat meer over vertellen?

Gerhard van Dijkhuizen: Persoonlijk vind ik de event data het meest interessant. Hierin wordt eigenlijk alles wat er op het veld met de bal gebeurt tot in een extreem hoge mate van detail vastgelegd. Op basis van deze data kunnen per speler relevante ‘key metrics’ uit de database worden afgeleid. Binnen deze data is de zogenaamde ‘expected goal’ of ‘xG-metric’ voor mij als wiskundige wel de meest interessante. Deze berekent voor elke doelpoging op basis van een groot aantal factoren hoe groot de kans is dat die doelpoging gegeven alle omgevingsvariabelen gemiddeld genomen tot een doelpunt zou leiden. Met deze informatie kun je iets zeggen over het vermogen van een aanvaller om doelpunten te maken, het vermogen van een middenvelder om doelkansen voor te bereiden of van een keeper om doelpunten te voorkomen, ten opzichte van het gemiddelde. Als wiskundige geef ik daarbij natuurlijk ook aan hoe significant een eventuele afwijking boven of beneden het gemiddelde is.

Zijn er concrete resultaten of verbeteringen in de prestaties van het team die direct toe te schrijven zijn aan jullie data-analyse? Of dient de data-analyse voornamelijk ter ondersteuning?

Gerhard van Dijkhuizen: Als die er al zijn gaan we daar natuurlijk niet te veel over vertellen, haha (redactie: Gerhard), maar ja die zijn er wel degelijk. Toch dient de data-analyse voornamelijk ter ondersteuning. Vaak van bestaande inzichten, die we met behulp van data onderschrijven en daarmee binnen de staf en spelersgroep proberen te ‘verankeren’, soms ook van nieuwe inzichten, die op basis van data naar boven zijn gekomen. Een concrete toepassing is in elk geval dat we aan de hand van data bepalen van welke wedstrijden in zijn geheel én van welke spelhervattingen in het bijzonder, van onze eerstvolgende tegenstander, we de beelden moeten terugkijken en dat wordt met name het seizoen vordert steeds belangrijker.

Zijn er aspecten van jullie huidige data-analyse die je graag zou willen verbeteren voor het komende seizoen? Zijn er plannen om nog meer in te zetten op data-analyse?

Gerhard van Dijkhuizen: Wat op dit moment echt nog een uitdaging is, is om de fysieke data te combineren met de event data. Wat daarvan precies de toegevoegde waarde is moet nog blijken. Maar dat kunnen we pas goed onderzoeken als we de data eerst bij elkaar brengen in één gezamenlijke database. Daarnaast is de data analyse op dit moment meer gericht op aanvallende prestaties, bijvoorbeeld passen, dribbelen, kansen creëren, kansen afronden en spelhervattingen dan op verdedigende prestaties, bijvoorbeeld de bal onderscheppen, duels winnen en omschakelen, zowel van onszelf als van onze tegenstanders. Terwijl aanvallen en verdedigen natuurlijk even belangrijke onderdelen van het voetbalspel zijn.

Profdesk © 2024 | gerealiseerd door De Digitale Marketing Specialist | Privacybeleid