De feed van LinkedIn bereikt meer dan 1,3 miljard leden – en de architectuur erachter kan dat niet bijhouden. Het systeem heeft vijf afzonderlijke opnamepaden samengesteld, elk met zijn eigen infrastructuur en optimalisatielogica, die verschillende delen bedienen van wat een gebruiker zou willen zien. Ingenieurs van het bedrijf hebben het afgelopen jaar het systeem ontmanteld en vervangen door één enkel LLM-gebaseerd systeem. Het resultaat, zegt LinkedIn, is een feed die de professionele context nauwkeuriger begrijpt en minder kost om op grote schaal te gebruiken.
Dit herontwerp omvat drie lagen van de stapel: hoe inhoud wordt opgehaald, hoe deze wordt gerangschikt en hoe de onderliggende computer wordt beheerd. Tim Jurka, vice-president engineering bij LinkedIn, vertelde VentureBeat dat het team het afgelopen jaar honderden tests heeft uitgevoerd voordat het een mijlpaal bereikte waarbij, naar hij zei, een groot deel van de infrastructuur opnieuw werd uitgevonden.
“Vanuit een volledig systeem voor het vastleggen van inhoud zijn we overgegaan op het gebruik van LLM op zeer grote schaal om de inhoud op LinkedIn beter te begrijpen en deze op een persoonlijkere manier aan de leden te kunnen koppelen”, aldus Jurka. “Van de manier waarop we inhoud rangschikken, met behulp van enorme sequencing-modellen, generatieve aanbevelingen en het combineren van end-to-end-systemen om alles relevanter en betekenisvoller te maken voor leden.”
Eén feed, 1,3 miljard leden
De kernuitdaging is volgens Jurka tweeledig: LinkedIn moet de professionele interesses van zijn leden (functietitels, vaardigheden, bedrijfstakken) afstemmen op hun daadwerkelijke gedrag in de loop van de tijd, en LinkedIn moet inhoud weergeven die verder gaat dan wat hun directe netwerken posten. De twee signalen trekken vaak in verschillende richtingen.
Mensen gebruiken LinkedIn op verschillende manieren: sommigen willen in contact komen met anderen in hun branche, anderen geven prioriteit aan thought leadership, en werkzoekenden en recruiters gebruiken het om kandidaten te vinden.
Hoe LinkedIn vijf pipelines samenbrengt in één
LinkedIn heeft meer dan 15 jaar besteed aan het bouwen van op AI gebaseerde aanbevelingssystemen, waaronder eerder werk op het gebied van het zoeken naar werk en het zoeken naar mensen. De LinkedIn-feed, die u begroet wanneer u de website opent, is gebouwd op een heterogene architectuur, aldus het bedrijf in een verklaring een blogpost. Inhoud die aan gebruikers wordt aangeboden, is afkomstig uit verschillende bronnen, waaronder een chronologische index van gebruikersnetwerken, geografische trending onderwerpen, op interesses gebaseerd filteren, branchespecifieke inhoud en andere op insluiting gebaseerde systemen.
Het bedrijf zegt dat deze methode betekent dat elke bron zijn eigen infrastructuur en optimalisatiestrategie heeft. Maar ook al was het een succes, de onderhoudskosten stegen enorm. Jurka zei dat het gebruik van LLM om het nieuwe aanbevelingsalgoritme uit te breiden ook betekende dat de architectuur rond de feed moest worden bijgewerkt.
“Er moet nog veel gedaan worden, onder meer hoe we zo’n ledencontext snel kunnen behouden, en hoe we ervoor kunnen zorgen dat we de juiste gegevens leveren om het model te hydrateren, profielgegevens, gegevens over recente activiteiten, enz.”, zei hij. “De tweede is hoe je de meest betekenisvolle soorten datapunten bemonstert om vervolgens de LLM te verfijnen.”
LinkedIn testte verschillende iteraties van de datamix in een offline testomgeving.
Een van de eerste hindernissen van LinkedIn bij het verbeteren van het zoeksysteem was het omzetten van de gegevens in tekst voor verwerking door de LLM. Om dit te doen heeft LinkedIn een snelle bibliotheek gemaakt waarmee ze sjabloonreeksen kunnen maken. Voor berichten richt LinkedIn zich op het formaat, de auteursinformatie, de betrokkenheidscijfers, de metadata van het artikel en de berichttekst. Voor leden voeren ze profielgegevens, vaardigheden, werkgeschiedenis, opleiding en ‘chronologische volgorde van berichten in waaraan ze eerder hebben deelgenomen’ in.
Een van de belangrijkste bevindingen uit die testfase was de manier waarop LLM met cijfers omging. Wanneer een bericht bijvoorbeeld 12.345 views heeft, wordt dat aantal in de prompt weergegeven als “views:12345”, en het model behandelt het als elk ander teksttoken, waardoor de betekenis ervan als signaal van populariteit wordt verwijderd. Om dit op te lossen heeft het team de betrokkenheidstellingen in percentielgroepen verdeeld en deze in speciale tokens verpakt, zodat het model ze kon onderscheiden van ongestructureerde tekst. Deze interventie verbetert aanzienlijk de manier waarop het systeem postbereik beschouwt.
Leert feed om de professionele geschiedenis opeenvolgend te lezen
Als LinkedIn wil dat zijn feed persoonlijker aanvoelt en dat zijn berichten de juiste doelgroep bereiken, moet het natuurlijk ook opnieuw nadenken over de manier waarop het zijn berichten rangschikt. Traditionele rangschikkingsmodellen, aldus het bedrijf, begrijpen de manier waarop mensen omgaan met inhoud verkeerd: die inhoud is niet willekeurig, maar volgt eerder patronen die voortkomen uit iemands professionele reis.
LinkedIn heeft voor zijn feed een gepatenteerd Genative Recommendation (GR)-model ontwikkeld dat de interactiegeschiedenis behandelt als een reeks, oftewel ‘een professioneel verhaal dat wordt verteld via berichten die je in de loop van de tijd volgt’.
“In plaats van elk bericht afzonderlijk te beoordelen, verwerkt GR meer dan duizend van uw historische interacties om tijdelijke patronen en het belang op de lange termijn te begrijpen”, zegt de LinkedIn-blog. “Zoals elke dataverzameling is het rankingmodel gebaseerd op professionele signalen en betrokkenheidspatronen, niet op demografische kenmerken, en wordt het regelmatig gecontroleerd op een eerlijke behandeling binnen ons ledenbestand.”
Rekenkosten voor het uitvoeren van een LLM op LinkedIn-schaal
Nu de datapijplijn en feeds nieuw leven zijn ingeblazen, wordt LinkedIn geconfronteerd met een ander probleem: GPU-kosten.
LinkedIn investeert zwaar in nieuwe trainingsinfrastructuur om de afhankelijkheid van GPU’s te verminderen. De grootste architecturale verschuiving is het scheiden van CPU-gebonden featureverwerking en GPU-intensieve modelinferentie, waardoor elk type computer doet waarvoor het geschikt is, in plaats van de GPU-beschikbaarheid te belemmeren. Het team schreef ook een aangepaste C++-gegevenslader om de overhead die wordt toegevoegd door multiprocessing in Python te verminderen, en creëerde een aangepaste Flash Attention-variant om de aandachtsberekening tijdens inferentie te optimaliseren. Controlepunten worden parallel uitgevoerd en niet serieel, waardoor het beschikbare GPU-geheugen wordt gemaximaliseerd.
“Een van de dingen die we moesten bedenken was dat we meer GPU’s moesten gebruiken dan we wilden”, aldus Jurka. “Wees voorzichtig met het coördineren van CPU- en GPU-workloads, want het mooie van dit soort LLM en de snelle context die we gebruiken om insluitingen te genereren, is dat je ze dynamisch kunt schalen.”

Voor ingenieurs die aanbevelings- of ophaalsystemen bouwen, biedt het herontwerp van LinkedIn een praktijkvoorbeeld van wat er echt nodig is om gefragmenteerde pijplijnen te vervangen door uniforme inbeddingsmodellen: opnieuw nadenken over de manier waarop numerieke signalen worden weergegeven in opdrachten, het opzettelijk scheiden van CPU- en GPU-werklasten, en het bouwen van rangschikkingsmodellen die de gebruikersgeschiedenis als een reeks behandelen, niet als een reeks onafhankelijke gebeurtenissen. De les is niet dat de LLM het voedingsprobleem oplost, maar dat het op grote schaal toepassen ervan je zal dwingen een ander soort probleem op te lossen dan waarmee je begon.


