Naarmate LLM vordert, is er in de branche enige discussie over de behoefte aan zelfstandige tools voor het labelen van gegevens, aangezien LLM steeds beter in staat is om met alle soorten gegevens te werken. Menselijk signaal, De belangrijkste commerciële leverancier achter het open-sourceprogramma Label Studio denkt daar echter anders over. In plaats van minder vraag naar datalabels te zien, zien bedrijven juist meer vraag.
Eerder deze maand nam HumanSignal Erud AI over en lanceerde zijn fysieke Frontier Data Labs voor nieuwe gegevensverzameling. Maar het creëren van data is slechts de helft van de uitdaging. Nu werkt het bedrijf aan zijn volgende poging: bewijzen dat AI-systemen die op die gegevens zijn getraind, echt werken. Met de nieuwe multimodale agentevaluatiemogelijkheid kunnen bedrijven complexe AI-agents valideren die applicaties, afbeeldingen, code en video genereren.
“Als je je richt op het enterprise-segment, moeten alle AI-oplossingen die ze bouwen nog steeds worden geëvalueerd, wat een ander woord is voor het labelen van data door mensen en nog meer door experts”, vertelde Michael Malyuk, medeoprichter en CEO van HumanSignal, aan VentureBeat in een exclusief interview.
Het kruispunt tussen gegevenslabeling en evaluatie van AI-agenten
Het hebben van de juiste data is geweldig, maar het is niet het uiteindelijke doel van een bedrijf. Het doel van moderne datalabeling is evaluatie.
Dit is een fundamentele verschuiving in wat bedrijven moeten valideren: niet of hun modellen afbeeldingen correct classificeren, maar of hun AI-agenten goede beslissingen nemen in complexe, uit meerdere stappen bestaande taken waarbij redeneren, gereedschapsgebruik en het genereren van code een rol spelen.
Als evaluatie eenvoudigweg het labelen van data voor AI-output is, betekent de verschuiving van modellen naar agents een stapsgewijze verandering in termen van wat er gelabeld moet worden. Waar bij traditionele datalabeling het taggen van afbeeldingen of het categoriseren van tekst betrokken kan zijn, vereist de evaluatie van agenten het beoordelen van redeneerketens in meerdere stappen, beslissingen over gereedschapsselectie en multimodale output – allemaal in één interactie.
“Er is een zeer sterke behoefte om niet langer alleen maar mensen erbij te betrekken, maar experts in de kring”, zei Malyuk. Hij noemde toepassingen met een hoog risico, zoals de gezondheidszorg en juridisch advies, als voorbeelden waarbij de kosten van fouten zeer hoog blijven.
De relatie tussen datalabeling en AI-evaluatie gaat dieper dan alleen de semantiek. Voor beide activiteiten zijn dezelfde basisvaardigheden vereist:
-
Gestructureerde interface voor menselijk oordeel: Of reviewers nu afbeeldingen labelen voor trainingsgegevens of beoordelen of een agent een tool correct instelt, ze hebben een speciaal gebouwde interface nodig om hun beoordelingen systematisch vast te leggen.
-
Consensus van meerdere recensenten: Voor een trainingsdataset van hoge kwaliteit zijn veel labelers nodig die meningsverschillen kunnen verzoenen. Evaluatie van hoge kwaliteit vereist hetzelfde: veel experts beoordelen de resultaten en lossen verschillen in beoordelingen op.
-
Domeinexpertise op schaal: Voor het trainen van moderne AI-systemen zijn experts in het veld nodig, en niet alleen werknemers die op knoppen klikken. Het evalueren van de productie-output van AI vereist dezelfde diepgaande expertise.
-
Feedback gaat het AI-systeem in: Ontwikkeling van een gelabeld trainingsdatafeedmodel. Evaluatiegegevens zorgen voor voortdurende verbetering, verfijning en benchmarking.
Evalueer de voetafdruk van de agent volledig
De uitdaging bij het evalueren van agenten is niet alleen de hoeveelheid gegevens, maar ook de complexiteit van wat moet worden beoordeeld. De agent produceert geen eenvoudige tekstuitvoer; ze genereren redeneerketens, maken gereedschapkeuzes en produceren artefacten op meerdere modaliteiten.
Nieuwe mogelijkheden in Label Studio Enterprise adresagentvalidatievereisten:
-
Multimodale sporeninspectie: Het platform biedt een uniforme interface waarmee u de volledige tracering van de agentuitvoering kunt bekijken: redeneerstappen, toolaanroepen en uitvoer over verschillende modaliteiten heen. Hiermee wordt het veelvoorkomende probleem opgelost waarbij teams afzonderlijke logboekstromen moeten parseren.
-
Interactieve evaluatie in meerdere rondes: Beoordelaars beoordelen de gespreksstroom terwijl agenten de status gedurende meerdere rondes behouden, waarbij het volgen van de context en de intentie-interpretatie gedurende een reeks interacties worden gevalideerd.
-
Arena-agent: Een vergelijkend evaluatiekader voor het testen van verschillende agentconfiguraties (basismodellen, snelle sjablonen, guardrail-implementaties) onder dezelfde omstandigheden.
-
Flexibele evaluatierubrieken: Teams definiëren domeinspecifieke evaluatiecriteria programmatisch in plaats van vooraf gedefinieerde statistieken te gebruiken, ter ondersteuning van vereisten zoals begripsnauwkeurigheid, responsgeschiktheid of uitvoerkwaliteit voor specifieke gebruiksscenario’s
Agentevaluatie is een nieuw strijdtoneel voor leveranciers van datalabels
HumanSignal is niet de enige die erkent dat agentevaluatie de volgende fase in de datalabelmarkt betekent. Concurrenten voeren soortgelijke veranderingen door nu de sector reageert op technologische veranderingen en marktverstoring.
etiket doos lanceerde Evaluation Studio in augustus 2025, met de nadruk op rubriekgebaseerde evaluatie. Net als HumanSignal breidt het bedrijf zich verder uit dan de traditionele datalabeling naar productie-AI-validatie.
Het algehele concurrentielandschap voor datalabeling veranderde dramatisch in juni toen Meta $14,3 miljard investeerde voor een belang van 49% in Scale AI, de voormalige marktleider. De deal leidde tot een uittocht van enkele van de grootste klanten van Scale. HumanSignal profiteerde van deze verstoring, waarbij Malyuk beweerde dat zijn bedrijf het afgelopen kwartaal veel concurrerende deals kon binnenhalen. Malyuk noemde platformvolwassenheid, configuratieflexibiliteit en klantenondersteuning als onderscheidende factoren, hoewel concurrenten hetzelfde zeiden.
Wat dit betekent voor AI-makers
Voor bedrijven die AI-productiesystemen bouwen, heeft de convergentie van datalabeling- en evaluatie-infrastructuur verschillende strategische implicaties:
Begin met fundamentele waarheden. Investeringen in het bouwen van hoogwaardige gelabelde datasets met meerdere deskundige reviewers die geschillen oplossen, zullen hun vruchten afwerpen gedurende de hele levenscyclus van de AI-ontwikkeling – van de initiële training tot de voortdurende opschaling van de productie.
Waarneembaarheid bleek noodzakelijk, maar niet voldoende. Hoewel het monitoren van wat AI-systemen doen belangrijk blijft, meten observatie-instrumenten de activiteit en niet de kwaliteit. Bedrijven hebben een speciale evaluatie-infrastructuur nodig om de output te beoordelen en verbeteringen te stimuleren. Dit zijn verschillende problemen die verschillende vaardigheden vereisen.
De trainingsdata-infrastructuur functioneert tevens als evaluatie-infrastructuur. Organisaties die hebben geïnvesteerd in een datalabelplatform voor modelontwikkeling kunnen dezelfde infrastructuur uitbreiden naar productie-evaluatie. Dit zijn geen afzonderlijke problemen waarvoor afzonderlijke tools nodig zijn; het is dezelfde onderliggende workflow die in verschillende fasen van de levenscyclus wordt toegepast.
Voor bedrijven die AI op grote schaal inzetten, is de hindernis verschoven van het bouwen van modellen naar het valideren ervan. Organisaties die deze veranderingen vroegtijdig onderkennen, zullen een voordeel hebben bij de levering van productie-AI-systemen.
De kritische vraag voor bedrijven is geëvolueerd: niet of AI-systemen geavanceerd genoeg zijn, maar of organisaties systematisch kunnen bewijzen dat ze voldoen aan kwaliteitseisen in specifieke risicovolle domeinen.



