Home Nieuws Waarom het belangrijk is om verder te gaan dan overgeaggregeerde machine learning-statistieken...

Waarom het belangrijk is om verder te gaan dan overgeaggregeerde machine learning-statistieken | MIT-nieuws

7
0
Waarom het belangrijk is om verder te gaan dan overgeaggregeerde machine learning-statistieken | MIT-nieuws

MIT-onderzoekers hebben significante voorbeelden geïdentificeerd van machine learning-modellen die falen wanneer ze worden toegepast op andere gegevens dan de gegevens waarop ze zijn getraind, waardoor vragen rijzen over de noodzaak van testen elke keer dat het model in een nieuwe omgeving wordt toegepast.

“We laten zien dat zelfs als je een model traint op een grote hoeveelheid data en het beste gemiddelde model kiest, dit ‘beste model’ onder nieuwe omstandigheden het slechtste model kan zijn voor 6 tot 75 procent van de nieuwe data”, zegt Marzyeh Ghassemi, hoogleraar aan de afdeling Electrical Engineering and Computer Science (EECS) van MIT, lid van het Institute for Medical Engineering and Science, en hoofdonderzoeker bij het Information and Decision Systems Laboratory.

In een paper dat werd gepresenteerd op de conferentie Neural Information Processing Systems (NeurIPS 2025) in december, toonden onderzoekers aan dat een model dat bijvoorbeeld in het ene ziekenhuis is getraind om ziekte effectief te diagnosticeren via röntgenfoto’s van de borst, in een ander ziekenhuis gemiddeld als effectief kan worden beschouwd. Uit de prestatiebeoordeling van de onderzoekers bleek echter dat sommige van de best presterende modellen in het eerste ziekenhuis het slechtst presteerden bij 75 procent van de patiënten in het tweede ziekenhuis, hoewel, wanneer alle patiënten in het tweede ziekenhuis werden gecombineerd, deze mislukking door de hoge gemiddelde prestaties werd verborgen.

Hun bevindingen laten zien dat hoewel valse correlaties – een eenvoudig voorbeeld hiervan is wanneer een machinaal leersysteem, dat niet veel koeien op een strand ‘ziet’, een foto van een koe die op het strand loopt als een orka classificeert simpelweg vanwege zijn achtergrond – verondersteld wordt te worden verzacht door simpelweg de prestaties van het model op de waargenomen gegevens te verbeteren, ze feitelijk nog steeds voorkomen en een risico blijven voor het vertrouwen van het model in nieuwe omgevingen. In veel gevallen – inclusief door onderzoekers onderzochte gebieden zoals röntgenfoto’s van de borstkas, histopathologische beelden van kanker en de detectie van haatzaaiende uitlatingen – zijn dergelijke valse correlaties veel moeilijker op te sporen.

In het geval van een medisch diagnostisch model dat is getraind op röntgenfoto’s van de borstkas, kan het model bijvoorbeeld hebben geleerd specifieke en irrelevante tekens op een röntgenfoto van een ziekenhuis te correleren met een bepaalde pathologie. In andere ziekenhuizen waar geen markering wordt gebruikt, kan een dergelijke pathologie over het hoofd worden gezien.

Uit eerder onderzoek van de groep van Ghassemi bleek dat modellen factoren als leeftijd, geslacht en ras ten onrechte kunnen correleren met medische bevindingen. Als een model bijvoorbeeld is getraind om röntgenfoto’s van de borstkas te maken bij oudere mensen met een longontsteking en niet zoveel röntgenfoto’s heeft ‘gezien’ als de röntgenfoto’s die bij jongere mensen zijn gemaakt, zou het model kunnen voorspellen dat alleen oudere patiënten een longontsteking hebben.

‘We willen dat het model leert hoe we naar de anatomische kenmerken van een patiënt moeten kijken en op basis daarvan beslissingen kunnen nemen’, zegt Olawale Salaudeen, een MIT-postdoc en hoofdauteur van het artikel, ‘maar eigenlijk alles in de gegevens dat correleert met een beslissing kan door het model worden gebruikt. En die correlaties zijn mogelijk niet erg robuust voor veranderingen in de omgeving, waardoor de voorspellingen van het model een onbetrouwbare bron van besluitvorming worden.’

Valse correlaties dragen bij aan het risico van vooringenomen besluitvorming. In een NeurIPS-conferentiepaper laten onderzoekers zien dat bijvoorbeeld een thoraxfotomodel dat de algehele diagnostische prestaties verbetert, feitelijk slechtere resultaten oplevert bij patiënten met pleurale aandoeningen of cardiomediastinale vergroting, wat betekent vergroting van het hart of de middelste borstholte.

Andere auteurs van het artikel zijn onder meer promovendi Haoran Zhang en Kumail Alhamoud, EECS-assistent-professor Sara Beery en Ghassemi.

Hoewel uit eerder onderzoek algemeen is aangenomen dat modellen, gerangschikt van beste naar slechtste op basis van prestaties, die volgorde zullen behouden wanneer ze worden toegepast in een nieuwe setting, genaamd ‘accuratesse-on-the-line’, kunnen onderzoekers voorbeelden aanwijzen waarbij het best presterende model in de ene setting en het slechtst presterende model in een andere setting is.

Salaudeen ontwierp een algoritme genaamd OODSelect om gevallen te vinden waarin de online nauwkeurigheid wordt geschonden. Kortom, hij traint duizenden modellen met behulp van gegevens in de distributie, wat betekent dat de gegevens afkomstig zijn van de eerste opstelling, en berekent de nauwkeurigheid ervan. Vervolgens paste hij het model toe op de gegevens uit de tweede setting. Wanneer de gegevens met de hoogste nauwkeurigheid in de eerste gegevensinstelling onjuist zijn wanneer ze worden toegepast op de meeste voorbeelden in de tweede instelling, identificeert dit een probleemsubset of subpopulatie. Salaudeen benadrukt ook de gevaren van geaggregeerde statistieken voor evaluatie, die meer gedetailleerde en belangrijke informatie over de prestaties van modellen kunnen verdoezelen.

In hun werk hebben de onderzoekers de ‘meest verkeerd berekende voorbeelden’ gescheiden om valse correlaties in de dataset niet gelijk te stellen aan situaties die moeilijk te classificeren zijn.

Het NeurIPS-artikel heeft de code van de onderzoekers en verschillende geïdentificeerde subsets vrijgegeven voor toekomstig werk.

Wanneer een ziekenhuis, of een organisatie die machine learning toepast, een subset identificeert waar het model slecht presteert, kan die informatie worden gebruikt om het model voor specifieke taken en instellingen te verbeteren. De onderzoekers bevelen aan dat toekomstige werkzaamheden OODSelect gebruiken om evaluatiedoelen te benadrukken en benaderingen te ontwerpen om de prestaties consistenter te verbeteren.

“We hopen dat de vrijgegeven code en de OODSelect-subset als opstap zullen dienen”, schreven de onderzoekers, “naar benchmarks en modellen die de negatieve gevolgen van valse correlaties aanpakken.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in