Home Nieuws Anthropic en OpenAI hebben zojuist de structurele tekortkomingen van SAST blootgelegd met...

Anthropic en OpenAI hebben zojuist de structurele tekortkomingen van SAST blootgelegd met gratis tools

2
0
Anthropic en OpenAI hebben zojuist de structurele tekortkomingen van SAST blootgelegd met gratis tools

OpenAI lanceerde Codex Security op 6 maarthet betreden van de app-beveiligingsmarkt die Anthropic veertien dagen eerder had verstoord Code Claude Beveiliging. Beide scanners gebruiken LLM-redenering en geen patroonafstemming. Beide bewijzen dat traditionele SAST-tools (Static Application Security Testing) structureel niet in staat zijn hele klassen van kwetsbaarheden te detecteren. De beveiligingsstacks van ondernemingen zitten in het midden.

Anthropic en OpenAI brachten onafhankelijk van elkaar op redenering gebaseerde kwetsbaarheidsscanners uit, en beiden ontdekten een klasse bugs waarvoor patroonmatching door SAST nooit was ontworpen om te detecteren. De concurrentiedruk tussen twee laboratoria met gecombineerde waarderingen op de particuliere markt van meer dan 1,1 biljoen dollar betekent dat de detectiekwaliteit sneller zal verbeteren dan welke leverancier dan ook alleen kan doen.

Noch Claude Code Security, noch Codex Security vervangt uw bestaande stapel. Beide tools veranderen inkoopberekeningen permanent. Momenteel zijn beide gratis voor zakelijke klanten. De onderlinge vergelijking en zeven maatregelen hieronder zijn wat u nodig heeft voordat het bord u vraagt ​​welke scanner u uitprobeert en waarom.

Hoe Anthropic en OpenAI op basis van verschillende architecturen tot dezelfde conclusies komen

Anthropic heeft het gepubliceerd zero-day onderzoek op 5 februari samen met de release van Claude Opus 4.6. Anthropic zegt dat Claude Opus 4.6 meer dan 500 voorheen onbekende kwetsbaarheden op hoog niveau heeft ontdekt in een open source-productiecodebasis die decennia van deskundige beoordeling en miljoenen uren van fuzzing heeft doorstaan.

In de CGIF-bibliotheek ontdekte Claude een heap-bufferoverflow door rekening te houden met het LZW-compressie-algoritme, een fout die dekkingsgestuurde fuzzing zelfs met 100% codedekking niet kan opvangen. Anthropic levert Claude Code Security op 20 februari als beperkte onderzoekspreview, beschikbaar voor Enterprise- en Team-klanten, met gratis directe toegang voor open source-onderhouders. Gabby Curtis, hoofd Antropische communicatie, zei VentureBeat in een exclusief interview dat Anthropic Claude Code Security heeft gebouwd om defensiecapaciteiten breder beschikbaar te maken.

De cijfers van OpenAI komen uit een andere architectuur en een breder scanoppervlak. Codex Security is voortgekomen uit Aardvark, een interne tool aangedreven door GPT-5 die in 2025 in de privé-bètafase terechtkwam. Tijdens de bètaperiode van Codex Security scanden OpenAI-agenten meer dan 1,2 miljoen commits in externe repository’s, waarbij volgens OpenAI 792 kritische bevindingen en 10.561 zeer ernstige bevindingen naar boven kwamen. OpenAI rapporteerde kwetsbaarheden in OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP en Chromium, resulterend in 14 toegewezen CVE’s. Volgens OpenAI daalde het percentage valse positieven van Codex Security tijdens de bètaperiode met meer dan 50% in alle repository’s. Het percentage overgerapporteerde ernst daalde met meer dan 90%.

Checkmarx Zero-onderzoekers tonen dit aan dat vrij complexe kwetsbaarheden soms aan de detectie van Claude Code Security ontsnappen. Ontwikkelaars kunnen agenten ertoe verleiden kwetsbare code te negeren. Tijdens een volledige codebasescan op productieniveau ontdekte Checkmarx Zero dat Claude acht kwetsbaarheden identificeerde, maar slechts twee waren echt positief. Als voldoende complexe verduistering de scanner verslaat, zal de bovenste detectielimiet lager zijn dan de voorgestelde koerswaarde. Noch Anthropic noch OpenAI hebben detectieclaims ingediend bij onafhankelijke audits door derden. Beveiligingsleiders moeten de gerapporteerde cijfers als indicatief beschouwen en niet als gecontroleerd.

Merritt Baer, ​​OMS bij AI-codering en voormalig plaatsvervangend CISO bij AWS, vertelde VentureBeat dat de competitieve scannerrace kansen biedt voor iedereen. Baer adviseert beveiligingsteams om patches prioriteit te geven op basis van exploiteerbaarheid in hun runtime-context versus CVSS-scores alleen, om de kloof tussen detectie, triage en patch te verkleinen en de zichtbaarheid van de softwarestuklijst te behouden, zodat ze onmiddellijk weten waar kwetsbare componenten worden uitgevoerd.

Verschillende methoden, er is bijna geen overlap in de codebases die ze scannen, maar de conclusies zijn hetzelfde. SAST-patroonmatching heeft een bovengrens, en LLM-redenering breidt de detectie uit tot voorbij die limiet. Wanneer twee concurrerende laboratoria deze mogelijkheden tegelijkertijd distribueren, wordt de wiskunde voor tweeërlei gebruik lastig. Elke financiële instelling of fintech die een commerciële codebase beheert, moet ervan uitgaan dat als Claude Code Security en Codex Security deze bug kunnen vinden, een tegenstander met API-toegang deze ook kan vinden.

Baer zei het ronduit: open source-kwetsbaarheden die door modelredenering naar voren komen, moeten nauwer worden behandeld als zero-day class-ontdekkingen, en niet als achterstandsitems. De kloof tussen ontdekking en exploitatie is simpelweg kleiner geworden, en de meeste programma’s voor kwetsbaarheidsbeheer werken nog steeds alleen op CVSS.

Wat de reactie van de leverancier bewijst

SluipHet ontwikkelaarsbeveiligingsplatform dat door technische teams wordt gebruikt om kwetsbaarheden in open source-code en afhankelijkheden te vinden en op te lossen, erkende de technische doorbraak, maar voerde aan dat het vinden van kwetsbaarheden niet moeilijk is. Het probleem is op grote schaal opgelost, in honderden opslagplaatsen, zonder iets kapot te maken. Dat is het obstakel. Snyk wijst op onderzoek dat door AI gegenereerde code aantoont 2,74 keer meer kans op beveiligingsproblemen vergeleken met door mensen geschreven code, aldus Veracode GenAI Code-beveiligingsrapport 2025. Dezelfde modellen die honderden zero-days ontdekten, introduceerden ook nieuwe soorten kwetsbaarheden toen ze de code schreven.

Cycode CTO Ronen Slavin schreef dat Claude Code Security een echte technische vooruitgang vertegenwoordigde op het gebied van statische analyse, maar dat was ook zo AI-modellen zijn inherent probabilistisch. Slavin stelt dat beveiligingsteams consistente, reproduceerbare auditresultaten nodig hebben, en dat de scanmogelijkheden die in IDE’s zijn ingebouwd nuttig zijn, maar geen infrastructuur. Het standpunt van Slavin: SAST is één discipline binnen een bredere reikwijdte, en gratis scans zijn geen vervanging voor een platform dat zich richt op governance, pijplijnintegriteit en runtime-gedrag op bedrijfsschaal.

“Als scanners voor het redeneren van code van grote AI-laboratoria effectief gratis zouden zijn voor zakelijke klanten, dan zou het scannen van statische codes van de ene op de andere dag een commodity zijn geworden”, vertelde Baer aan VentureBeat. Baer schat dat de begroting de komende twaalf maanden naar drie gebieden zal verschuiven.

  1. Runtime- en exploit-lageninclusief runtime-bescherming en aanvalspadanalyse.

  2. AI-beheer en modelbeveiliginginclusief vangrails, snelle injectieverdediging en surveillance van agenten.

  3. Automatisering van saneringen. “Het netto-effect is dat de AppSec-uitgaven weliswaar niet krimpen, maar dat het zwaartepunt verschuift van traditionele SAST-licenties naar tools die de herstelcycli verkorten”, aldus Baer.

Zeven dingen die u moet doen vóór uw volgende bestuursvergadering

  1. Voer beide scanners uit op een representatieve subset van de codebase. Vergelijk de bevindingen van Claude Code Security en Codex Security met uw bestaande SAST-uitvoer. Begin met één representatieve repository, niet met uw volledige codebasis. Beide tools bevinden zich in de onderzoekspreview-fase met toegangsbeperkingen die het scannen van het hele pand voorbarig maken. Delta is uw dodehoekinventaris.

  2. Bouw een bestuurskader vóór de rechtszaak, niet erna. Baer vroeg VentureBeat om een ​​van die tools te behandelen als een nieuwe gegevensverwerker voor het kroonjuweel, uw broncode. Het bestuursmodel van Baer omvat formele overeenkomsten voor gegevensverwerking met duidelijke uitspraken over trainingsuitzonderingen, het bewaren van gegevens en het gebruik van subprocessors, gesegmenteerde leveringspijplijnen zodat alleen de opslagplaatsen worden afgeleverd die u wilt scannen, en een intern classificatiebeleid dat onderscheid maakt tussen code die uw grenzen kan overschrijden en code die dat niet kan. In interviews met meer dan veertig CISO’s constateerde VentureBeat dat formeel bestuur een vereiste is een raamwerk voor op redeneren gebaseerde scantools bestaat nog niet. Baer markeerde afgeleide IP als een blinde vlek die de meeste teams nog moeten aanpakken. Kan de modelaanbieder inbeddings- of redeneringssporen bijhouden, en worden deze artefacten beschouwd als uw intellectuele eigendom? Een ander hiaat is de datalocatie voor code, die historisch gezien niet zo gereguleerd is als klantgegevens, maar in toenemende mate onderworpen is aan exportcontroles en nationale veiligheidscontroles.

  3. Breng in kaart wat deze twee tools niet dekken. Analyse van softwaresamenstelling. Scannen van containers. Infrastructuur als code. DAST. Runtime-detectie en -reactie. Claude Code Security en Codex Security opereren op de code-redeneringslaag. Uw bestaande stapel regelt alles. Het is het prijszettingsvermogen van de stapel dat verandert.

  4. Bereken de blootstelling voor tweeërlei gebruik. Elke zero-day van Anthropic en OpenAI verschijnt in een open source-project waar de applicaties van het bedrijf op vertrouwen. Beide laboratoria onthullen en patchen op verantwoorde wijze, maar de kloof tussen hun ontdekking en jouw toepassing van die patches is waar aanvallers opereren. AI-beveiligingsstartup AISLE ontdekte het allemaal onafhankelijk 12 zero-day-kwetsbaarheden in de OpenSSL-beveiligingspatch van januari 2026inclusief een stackbufferoverflow (CVE-2025-15467) die mogelijk op afstand kan worden misbruikt zonder geldig sleutelmateriaal. Fuzzers vochten jarenlang tegen OpenSSL en misten het allemaal. Stel dat de tegenstander hetzelfde model op dezelfde codebasis uitvoert.

  5. Zorg ervoor dat u een boardvergelijking gereed heeft voordat ze erom vragen. Claude Code Beveiligingsredenen over contextuele code, het volgen van gegevensstromen en het gebruik van meerfasige zelfverificatie. Codex Security bouwt projectspecifieke dreigingsmodellen voordat de bevindingen in een sandbox-omgeving worden gescand en gevalideerd. Elke tool bevindt zich in een onderzoekspreview en vereist menselijke goedkeuring voordat er patches worden toegepast. Boards hebben analyses naast elkaar nodig, niet slechts één leverancier. Wanneer het gesprek gaat over waarom uw huidige suite mist wat Anthropic heeft gevonden, biedt Baer framing die werkt op bestuursniveau. SAST-patroonmatching lost een verscheidenheid aan verschillende problemen op, vertelde Baer aan VentureBeat. Het is ontworpen om bekende antipatronen te detecteren. Dat vermogen blijft belangrijk en vermindert nog steeds het risico. Maar redeneermodellen kunnen de logica van meerdere bestanden, statusovergangen en de bedoelingen van de ontwikkelaar evalueren, en dat is waar veel moderne bugs zich bevinden. De kant-en-klare samenvatting van Baer: “We hebben de juiste hulpmiddelen gekocht om de bedreigingen van de afgelopen tien jaar het hoofd te bieden; de technologie gaat vooruit.”

  6. Volg competitieve cycli. Beide bedrijven zijn op weg naar beursintroducties, en de winsten op het gebied van de beveiliging van de bedrijven zijn de drijvende kracht achter het groeiverhaal. Als een van de scanners geen blinde vlek vindt, komt deze binnen een paar weken op de routekaart van een ander laboratorium terecht. Beide laboratoria sturen maandelijks modelupdates. Die cadans zal de releasekalender van elke leverancier overtreffen. Baer zegt dat het gebruik van beide de juiste zet is: “Verschillende modellen hebben verschillende redeneringen, en de delta ertussen kan bugs blootleggen die geen enkel hulpmiddel consistent kan opsporen. Op de korte termijn is het gebruik van beide geen redundantie. Het is verdediging door middel van diversiteit van redeneersystemen.”

  7. Stel een pilotperiode van 30 dagen in. Vóór 20 februari bestond deze test niet. Voer Claude Code Security en Codex Security uit op dezelfde codebase en laat delta inkoopgesprekken aansturen op basis van empirische gegevens, en niet op basis van leveranciersmarketing. Dertig dagen geeft u die gegevens.

Veertien dagen scheiden Anthropic en OpenAI. De kloof tussen volgende releases zal korter zijn. Aanvallers houden dezelfde kalender in de gaten.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in