Data belangrijker dan methode – 10 jaar RDNL en Dutch Data Prize

september 8, 2023

“Als je de juiste dingen wil ontdekken of de juiste antwoorden wil geven, moet de data goed zijn.”

Door Kimberley Zwiers en Samantha Willemsen

In het kader van 10 jaar RDNL spreken we met drie winnaars van de Nederlandse Dataprijs, dat sinds 2013 onderdeel is van RDNL. Wat bracht de prijs voor hen met zich mee, waarom vinden zij FAIR data belangrijk en waarom zouden onderzoekers zichzelf moeten nomineren voor deze prijs? In de tweede editie van het drieluik spreken we met Joaquin Vanschoren. Zijn overtuiging is dat onderzoeksdata belangrijker wordt dan de methode. 

Na zijn PhD ging Joaquin Vanschoren verder waar hij gebleven was; het beschikbaar maken van data over machine learning, zodat men ervan kon leren en evalueren. In 2016 werd hij hiervoor bekroond met de Nederlandse Dataprijs (tegenwoordig Dutch Data Prize) in de categorie Natural and Engineering Science (NES). “De Dutch Data Prize heeft ons onderzoek op een cruciaal moment in de kijker gezet”, vertelt Vanschoren, professor Machine Learning aan de Technische Universiteit Eindhoven en oprichter van OpenML. Hij is gestart vanuit de frustratie om machine learning resultaten te kunnen reproduceren en er een overzicht van te krijgen. Het doel was het vereenvoudigen van machine learning en inzicht krijgen in nuttige regels die men kan gebruiken om de modellen van machine learning optimaal te ontwerpen of hergebruiken.

Open, interoperabel en reproduceerbaar 

In het begin was het enkel een website met een database gebaseerd op de technologie van toen. Nu, ruim 10 jaar verder, bevat OpenML miljoenen evaluaties van modellen en een kwart miljoen gebruikers. Het platform is volledig open source en wordt doorontwikkeld door een groep vrijwilligers van doorgaans twintig core developers. Het platform wordt uitgebreid naar andere codetalen, zoals Python en wordt voorzien van de nieuwste nuttige informatie. “We kijken naar de nieuwe ontwikkelingen en hoe we deze kunnen integreren. Hierbij houden we vast aan onze kernwaarden. Alles moet open, interoperabel en reproduceerbaar zijn, zodat de community het kan gebruiken.” 

De data zelf is volgens Vanschoren tegenwoordig belangrijker dan de manier waarop het wordt gemodelleerd. “Als je de juiste dingen wil ontdekken of de juiste antwoorden wil geven, moet de data goed zijn.” Daarom vereist OpenML dat data aan bepaalde voorwaarden voldoet, voordat het gedeponeerd kan worden. “Omdat we weten dat niet iedereen zich bewust is van het FAIR maken van data, hebben we een tool ontwikkeld die het gemakkelijk maakt om metadata te onttrekken en op te slaan om FAIRness te verhogen.” Daarnaast komen door een automatische analyse ‘problemen’ in de dataset snel naar boven. “Het is meer werk, maar het houdt de kwaliteit van de data hoog en daarmee ook de mogelijkheid tot hergebruik van modellen.” 

“Open source kan werk van een lange adem zijn”, beaamt Vanschoren. Het winnen van de Dutch Data Prize was een opsteker voor hem en zijn team. “Het geeft waardering voor al het werk dat er is ingestoken.” Ook helpt het volgens hem bij het schrijven van nieuwe projecten en het aantrekken van funding. Hij moedigt dan ook iedereen aan om zich te nomineren voor de Dutch Data Prize. 

Lees het eerste deel van de drieluik hier: Een interview met Maarten Marx, een van de eerste winnaars van de Dutch Data Prize.

De Dutch Data Prize is onderdeel van Research Data Netherlands (RDNL), een consortium bestaande uit 4TU.ResearchData, DANS, Health-RI en SURF. De volgende ronde van de Dutch Data Dataprijs wordt gehouden in 2024. 

Joaquin Vanschoren with the Dutch Data Prize
Joaquin Vanschoren met de Dutch Data Prize