Home Nieuws Meer dan advies: agentvaardigheden gebruiken in datawetenschap

Meer dan advies: agentvaardigheden gebruiken in datawetenschap

3
0
Meer dan advies: agentvaardigheden gebruiken in datawetenschap

In mijn laatste artikel heb ik gedeeld hoe u MCP kunt gebruiken om LLM te integreren in uw volledige data science-workflow. Andere heb ik ook kort genoemd.

Vaardigheden zijn herbruikbare instructiepakketten en optionele ondersteunende bestanden. Hierdoor kan AI repetitieve workflows betrouwbaarder en consistenter afhandelen. Minstens een SKILL.md bestanden met metadata (naam en beschrijving) en gedetailleerde instructies over hoe de vaardigheid werkt. Mensen combineren ze vaak met scripts, sjablonen en voorbeelden voor standaardisatie en nauwkeurigheid.

Op dit punt vraag je je misschien af ​​waarom we vaardigheden gebruiken in plaats van alles rechtstreeks in de context van de Claude Code of Codex te schrijven. Eén voordeel is dat de vaardigheid de hoofdcontext helpt condenseren. De AI hoeft in eerste instantie slechts lichte metadata te laden; hij kan de resterende instructies en gebundelde bronnen lezen wanneer hij besluit dat de vaardigheden relevant zijn. Je kunt een grote verzameling openbare vaardigheden vinden op skills.sh.

Laat ik dit idee concreter maken met een eenvoudig voorbeeld.


Mijn voorbeeld: wekelijkse visualisatievaardigheden

Context

Sinds 2018 maak ik elke week één visualisatie. Als je nieuwsgierig bent: in dit artikel heb ik over mijn reis geschreven. Dit proces is zeer iteratief en duurt gewoonlijk ongeveer een uur per week. Daarom denk ik dat het een goede kandidaat is voor automatisering met vaardigheden.

Voorbeeld van mijn visualisatie van 2025

Workflow zonder AI

Dit is mijn wekelijkse routine:

  1. Zoek een dataset die mij interesseert. Websites die ik meestal gebruik om inspiratie op te doen zijn onder meer Tableau Viz of the Day, Voronoi, Economics Daily van BLS, r/dataisbeautiful, enz.
  2. Open Tableau, speel met de data, ontdek inzichten en bouw één visualisatie die intuïtief een verhaal vertelt.
  3. Publiceer op mijn persoonlijke site.

AI-workflow

Hoewel de stap voor het zoeken naar datasets nog steeds handmatig is, heb ik twee vaardigheden gemaakt om stap 2 en 3 te automatiseren:

  • A verhalen vertellen, d.w.z vaardigheden die datasets analyseren, inzichten identificeren, visualisatietypen voorstellen en interactieve visualisaties produceren die intuïtief, beknopt en op verhalen gericht zijn.
  • A ie-publiceren vaardigheid die visualisaties op mijn website publiceert als ingebedde HTML – ik zal deze niet delen, omdat deze zeer specifiek is voor de repo-structuur van mijn website.

Hieronder ziet u een voorbeeld waarin ik de storytelling-vaardigheid in Codex Desktop heb geactiveerd. Ik gebruikte dezelfde Apple Health-dataset als de vorige keer, vroeg Codex om de gegevens uit een Google BigQuery-database op te vragen en gebruikte die vaardigheden vervolgens om visualisaties te maken. Dit rapport kan inzichten genereren over jaarlijkse versus jaarlijkse sporttijden. verbrande calorieën en raad grafiektypen aan met redenen en afwegingen.

Schermafbeelding van vaardigheidstrigger door auteur (deel 1)
Schermafbeelding van vaardigheidstrigger door auteur (deel 2)

Het hele proces duurt minder dan 10 minutenen hier is het resultaat: het begint met een op inzichten gebaseerde kop, gevolgd door een overzichtelijke interactieve visualisatie, waarschuwingen en gegevensbronnen. Ik heb de vaardigheid getest met de afgelopen paar wekelijkse visualisaties, en je kunt meer visualisatievoorbeelden vinden in de vaardighedenrepository.

resulterende visualisatie van vertelvaardigheden, d.w.z. (screenshot door auteur)

Hoe ik het eigenlijk heb gebouwd

Nu we de resultaten hebben gezien, wil ik u laten zien hoe ik mijn vaardigheden heb opgebouwd.

Stap 1: Begin met een plan

Zoals ik in mijn laatste artikel deelde, vind ik het leuk om eerst een plan met AI op te stellen voordat ik het implementeer. Hier begin ik met het uitleggen van mijn wekelijkse visualisatieworkflow en mijn doel om deze te automatiseren. We bespraken de tech-stack, de vereisten en hoe een ‘goede’ output eruit ziet. Dit leidt tot mijn eerste versie van de vaardigheid.

Het mooie is dat je het SKILL.md-bestand niet handmatig hoeft te maken; vraag gewoon aan Claude Code of Codex om een ​​vaardigheid voor jouw gebruiksscenario te maken, en het kan een eerste versie voor je opstarten (dit zal de vaardigheid activeren om een ​​vaardigheid te creëren).

Vaardigheden opbouwen (screenshot van auteur)
Vaardigheden opbouwen (screenshot van auteur)

Stap 2: Test en herhaal

Die eerste versie gaf me echter slechts 10% van mijn ideale visualisatieworkflow: het kon visualisaties produceren, maar de diagramtypen waren vaak niet optimaal, de visuele stijl was inconsistent en de belangrijkste punten werden niet altijd benadrukt, enz.

De resterende 90% vereist herhaalde reparaties. Hier zijn enkele strategieën die helpen.

1. Deel mijn eigen kennis

De afgelopen acht jaar heb ik mijn eigen beste visualisatiepraktijken en -voorkeuren ontwikkeld. Ik wil dat de AI deze patronen volgt in plaats van steeds verschillende stijlen te creëren. Daarom deel ik screenshots van mijn visualisatie samen met mijn stijlgids. AI kan algemene principes samenvatten en de vaardigheidsinstructies dienovereenkomstig bijwerken.

Vaardigheden verbeteren met mijn kennis (screenshot van auteur)

2. Onderzoek externe bronnen

Er zijn zoveel bronnen online over een goed ontwerp van datavisualisatie. Een andere nuttige stap die ik zette was de AI te vragen betere visualisatiestrategieën te onderzoeken uit bekende bronnen en soortgelijke publieke vaardigheden. Dit voegt perspectief toe dat ik niet expliciet heb gedocumenteerd, en maakt deze vaardigheid meetbaarder en krachtiger.

Verbeter vaardigheden met externe bronnen (screenshot van auteur)
Verbeter vaardigheden met vergelijkbare vaardigheden (screenshot van auteur)

3. Leer van examens

Testen is van cruciaal belang om verbeterpunten te identificeren. Ik heb deze vaardigheid getest met meer dan vijftien verschillende datasets om te observeren hoe deze zich gedroeg en hoe de output zich verhield tot mijn eigen visualisaties. Het proces helpt mij concrete updates voor te stellen, zoals:

  • Standaardiseer lettertype- en lay-outkeuzes
  • Controleer zowel desktop- als mobiele voorbeelden om overlappende labels en annotaties te voorkomen
  • Het maken van diagrammen is zelfs zonder tooltips begrijpelijk
  • Vraag altijd naar databronnen en relateer deze in visualisaties
Vaardigheidsverbetering vanaf test 1 (screenshot van auteur)
Vaardigheidsverbetering vanaf test 2 (screenshot van auteur)
Vaardigheidsverbetering vanaf test 3 (screenshot van auteur)

De nieuwste versie van storytellingvaardigheden vind je hier. Speel het alsjeblieft en laat me weten wat je ervan vindt 🙂


Conclusie voor datawetenschappers

Wanneer vaardigheden nuttig zijn

Mijn wekelijkse visualisatieproject is slechts één voorbeeld, maar de vaardigheden kunnen nuttig zijn in veel iteratieve datawetenschapsworkflows. Ze zijn van onschatbare waarde als je die taak hebt verschijnt herhaaldelijk, volgt een semi-gestructureerd proces, vertrouwt op domeinkennis en is moeilijk af te handelen met één enkele opdracht.

  • Onderzoek bijvoorbeeld de beweging van metriek X. Mogelijk kent u de algemene drijfveren hiervan al
  • Nog een voorbeeld: stel dat u van plan bent een experiment uit te voeren in regio A, en dat u andere experimenten wilt controleren die in dezelfde regio worden uitgevoerd. In het verleden zocht u naar trefwoorden in Slack, zocht u in Google Documenten en ging u naar het interne experimenteerplatform om experimenten te beoordelen die met die regio waren getagd. Nu kunt u deze algemene stappen samenvatten in een vaardigheid en de LLM vragen om uitgebreid onderzoek uit te voeren en experimentrapporten op te stellen die relevant zijn voor hun doelen, duur, verkeer, status en documenten.

Als uw workflow uit verschillende onafhankelijke, herbruikbare componenten bestaat, moet u deze in afzonderlijke vaardigheden verdelen. In mijn geval heb ik twee vaardigheden gecreëerd: een om visualisaties te produceren en een andere om ze op mijn blog te publiceren. Dit maakt de onderdelen modulair en gemakkelijker later opnieuw te gebruiken in andere workflows.

Vaardigheden en MCP werken goed samen. Ik gebruikte BigQuery MCP en visualisatievaardigheden in één opdracht en genereerde met succes visualisaties op basis van mijn dataset in BigQuery. MCP helpt modellen soepel toegang te krijgen tot externe tools, en vaardigheden helpen hen de juiste processen voor specifieke taken te volgen. Daarom is deze combinatie zeer krachtig en complementair.


Laatste opmerking over mijn wekelijkse visualisatieproject

Waarom doe ik dat nog steeds, nu ik 80% van mijn wekelijkse visualisatieproces kan automatiseren?

Toen ik in 2018 voor het eerst met deze gewoonte begon, was het doel om Tableau te oefenen, de belangrijkste BI-tool die door mijn bedrijf wordt gebruikt. Het doel is echter in de loop van de tijd veranderd: nu gebruik ik dit wekelijkse ritueel om verschillende datasets te verkennen die ik nooit op de werkplek zou tegenkomen, mijn intuïtie aan te scherpen en dataverhalen te vertellen, en de wereld door een datalens te bekijken. Voor mij gaat het dus niet om de tools, maar om het ontdekkingsproces. En daarom ben ik van plan het te blijven doen, zelfs in het AI-tijdperk.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in