Home Nieuws De oprichter van OpenCV lanceerde een video-AI-startup om te concurreren met OpenAI...

De oprichter van OpenCV lanceerde een video-AI-startup om te concurreren met OpenAI en Google

15
0
De oprichter van OpenCV lanceerde een video-AI-startup om te concurreren met OpenAI en Google

Een nieuwe startup voor kunstmatige intelligentie, opgericht door de maker de meest gebruikte computervisiebibliotheek ter wereld is uit stealth voortgekomen met technologie die realistische, mensgerichte video’s produceert van maximaal vijf minuten – een dramatische sprong voorbij de mogelijkheden van zijn concurrenten, waaronder OpenAI. Sora en Googlen O, ik zie het.

Ambachtelijke verhalendat dinsdag werd gelanceerd met $ 2 miljoen aan financiering, introduceert Model 2.0, een videocreatiesysteem dat een van de belangrijkste beperkingen aanpakt waar de opkomende AI-video-industrie mee kampt: lengte. Ondertussen Open AI Soera 2 Met een kloktijd van 25 seconden en de meeste concurrerende modellen die clips van 10 seconden of minder produceren, kan het CraftStory-systeem een ​​continue, samenhangende videoshow produceren die net zo lang duurt als een typische YouTube-tutorial of productdemonstratie.

Deze doorbraak zou enorme commerciële waarde kunnen opleveren voor bedrijven die moeite hebben met het opschalen van videoproductie voor training, marketing en klanteneducatie – markten waar door AI gegenereerde korte clips ontoereikend zijn gebleken ondanks de toch al goede beelden.

“Als je daadwerkelijk een video probeert te maken met een van deze videocreatiesystemen, zul je merken dat je vaak een bepaalde creatieve visie wilt implementeren, en hoe gedetailleerd de instructies ook zijn, het systeem negeert in feite een aantal van je instructies”, zegt Victor Erukhimov, oprichter en CEO van CraftStory, in een exclusief interview met VentureBeat. “We hebben een systeem ontwikkeld dat in principe video kan produceren zolang je het nodig hebt.”

Hoe parallelle verwerking het lange videoprobleem oplost

De vooruitgang van CraftStory berust op wat het bedrijf beschrijft als een parallelle diffusiearchitectuur – een fundamenteel andere benadering van de manier waarop AI-modellen video genereren vergeleken met de sequentiële methoden die door de meeste concurrenten worden gebruikt.

Traditionele videogeneratiemodellen werken door diffusie-algoritmen uit te voeren op een driedimensionaal volume dat groter wordt naarmate de tijd de derde as vertegenwoordigt. Om langere video’s te produceren, hebben deze modellen proportioneel grotere netwerken, meer trainingsgegevens en aanzienlijk meer computerbronnen nodig.

Ambachtelijke verhalen in plaats daarvan worden meerdere kleinere diffusie-algoritmen tegelijkertijd uitgevoerd over de gehele duur van de video, met tweerichtingsbeperkingen die ze met elkaar verbinden. “Het laatste deel van de video kan ook het vorige deel van de video beïnvloeden”, legt Erukhimov uit. “En dit is heel belangrijk, want als je het één voor één doet, zullen de artefacten die in het eerste deel verschijnen, zich naar het tweede deel verspreiden en zich dan ophopen.”

In plaats van acht seconden te genereren en vervolgens extra segmenten te combineren, verwerkt het CraftStory-systeem alle vijf minuten tegelijkertijd via een onderling verbonden diffusieproces.

Het belangrijkste is dat CraftStory zijn modellen traint op basis van eigen opnames, in plaats van alleen te vertrouwen op video’s die van internet zijn gehaald. Het bedrijf huurde studio’s in om acteurs vast te leggen met behulp van camerasystemen met een hoge framesnelheid die scherpe details vastlegden, zelfs in snel bewegende elementen zoals vingers, waardoor de bewegingsonscherpte werd vermeden die inherent is aan standaard YouTube-clips van 30 frames per seconde.

“Wat we hebben laten zien is dat je niet veel data en niet veel trainingsbudget nodig hebt om video’s van hoge kwaliteit te maken”, aldus Erukhimov. “Je hebt alleen data van hoge kwaliteit nodig.”

Het huidige 2.0-model werkt als een video-naar-videosysteem: gebruikers uploaden stilstaande beelden om te animeren en ‘rijdende video’s’ bevatten mensen wier bewegingen door AI worden nagebootst. CraftStory biedt rijdende video’s die zijn opgenomen met professionele acteurs, die een inkomstenaandeel ontvangen wanneer hun bewegingsgegevens worden gebruikt, of gebruikers kunnen hun eigen opnames uploaden.

Het systeem produceert in ongeveer 15 minuten een clip van 30 seconden met een lage resolutie. Een geavanceerd lipsynchronisatiesysteem synchroniseert mondbewegingen met het script of de audiotrack, terwijl een bewegingssynchronisatie-algoritme ervoor zorgt dat lichaamstaal overeenkomt met het spraakritme en de emotionele toon.

Vecht een geïmproviseerde strijd met $ 2 miljoen tegen miljarden

De financiering van CraftStory komt vrijwel volledig uit Andreas Filevdie zijn projectmanagementsoftwarebedrijf Wrike aan Citrix verkocht $ 2,25 miljard in 2021 en loopt nu Zencodereen AI-coderingsbedrijf. Deze bescheiden stijging staat in schril contrast met de miljarden die in de inspanningen van een concurrent, OpenAI, vloeien ruim 6 miljard dollar opgehaald alleen al in de laatste financieringsronde.

Erukhimov verwerpt het idee dat groot kapitaal een voorwaarde is voor succes. “Ik geloof niet noodzakelijkerwijs in de stelling dat computergebruik de weg naar succes is”, zei hij. “Natuurlijk helpt het als je een computer hebt. Maar als je via PowerPoint een miljard dollar ophaalt, zal uiteindelijk niemand blij zijn, noch de oprichters, noch de investeerders.”

Filev verdedigde de David-versus-Goliath-aanpak. “Als je in startups investeert, zet je in wezen in op menselijk kapitaal”, zei hij in een interview met VentureBeat. “Om Margaret Mead te citeren: onderschat nooit wat een kleine groep doordachte, toegewijde ingenieurs en wetenschappers kan bouwen.”

Hij stelt dat CraftStory baat heeft bij een gerichte strategie. “Grote laboratoria zijn bezig met het bouwen van universele videofunderingsmodellen”, zegt Filev. “CraftStory surft mee op de golf en duikt in een bepaald format: lange, boeiende, mensgerichte video.”

Waarom computer vision-vaardigheden belangrijk zijn in generatieve AI-video

De geloofwaardigheid van Erukhimov komt voort uit zijn diepe wortels in computervisie, en niet uit de transformatorarchitectuur die de recente AI-ontwikkelingen heeft gedomineerd. Hij was een vroege bijdrager OpenCV — Een open source computer vision-bibliotheek die de de facto standaard is geworden voor computer vision-toepassingen, en die nog veel meer te bieden heeft 84.000 sterren op GitHub.

Toen Intel halverwege de jaren 2000 zijn steun voor OpenCV verminderde, was Erukhimov medeoprichter van Itseez met het expliciete doel de bibliotheek in stand te houden en te bevorderen. Het bedrijf breidde OpenCV aanzienlijk uit en stapte over op autoveiligheidssystemen voordat Intel het in 2016 overnam.

Filev zei dat deze achtergrond Erukhimov in zo’n goede positie plaatst bij het maken van video’s. “Wat mensen soms missen is dat generatieve AI-video niet alleen over het generatieve deel gaat, maar over het begrijpen van beweging, gezichtsdynamiek, temporele coherentie en hoe mensen daadwerkelijk bewegen”, zegt Filev. “Victor heeft zijn hele carrière besteed aan het beheersen van deze kwesties.”

De focus van het bedrijf ligt op trainingsvideo’s en productdemonstraties

Terwijl een groot deel van het publieke enthousiasme voor AI-videocreatie zich concentreert op creatieve tools voor consumenten, volgt CraftStory een duidelijk ondernemingsgerichte strategie.

“We denken absoluut meer aan B2B dan aan consumenten”, zei Erukhimov. “We denken aan bedrijven, vooral softwarebedrijven, die coole trainingsvideo’s en productvideo’s kunnen maken en video’s kunnen lanceren.”

De logica is simpel: bedrijfstrainingen, producttutorials en klanteducatievideo’s duren vaak minuten en vereisen een consistente kwaliteit. Een AI-clip van 10 seconden kan niet effectief demonstreren hoe de software van een bedrijf moet worden gebruikt of hoe complexe productfuncties kunnen worden uitgelegd.

“Als je langere video’s nodig hebt, moet je met ons meekomen”, zei Erukhimov. “We kunnen video’s maken van maximaal vijf minuten, consistent en van hoge kwaliteit.”

Filev herhaalde deze beoordeling. “Een van de grote gaten in deze markt is het gebrek aan modellen die consistente video over langere reeksen kunnen produceren – en dit is van cruciaal belang voor gebruik in de echte wereld”, zei hij. “Als je een advertentie voor je bedrijf maakt, is een video van tien seconden, hoe goed die er ook uitziet, niet genoeg. Je hebt dertig seconden nodig, twee minuten, je hebt meer nodig.”

Het bedrijf verwacht kostenbesparingen voor klanten. Filev suggereert dat “eigenaren van kleine bedrijven binnen enkele minuten inhoud kunnen creëren die voorheen 20.000 dollar had gekost en twee maanden nodig had om te produceren.”

CraftStory heeft ook relaties met creatieve bureaus die videocontent produceren voor zakelijke klanten, met een waardepropositie die gericht is op kosten en snelheid: het bureau kan een acteur op camera opnemen en de beelden omzetten in een voltooide AI-video, in plaats van dure meerdaagse shoots te beheren.

De volgende belangrijke ontwikkeling op de routekaart van CraftStory is een tekst-naar-video-model waarmee gebruikers rechtstreeks vanuit scripts lange inhoud kunnen produceren. Het team ontwikkelde ook ondersteuning voor bewegende camerascenario’s, waaronder het populaire ‘walk-and-talk’-formaat dat vaak wordt gebruikt in hoogwaardige advertenties.

Waar CraftStory past in een gefragmenteerd concurrentielandschap

CraftStory betreedt een drukke en snelgroeiende markt. Open AI Soera 2hoewel het nog niet beschikbaar is voor het publiek, heeft het veel aandacht gegenereerd. eigendom van Google Ik zie modellen snel vooruitgang boeken. landingsbaan, PikaEn AI-stabiliteit ze bieden allemaal tools voor het maken van video’s met verschillende mogelijkheden.

Erukhimov erkende de concurrentiedruk, maar benadrukte dat CraftStory een andere niche bedient, gericht op mensgerichte video’s. Hij positioneerde snelle innovatie en marktdominantie als de belangrijkste strategie van het bedrijf, in plaats van te vertrouwen op technische sloten.

Filev ziet de markt fragmenteren in verschillende lagen, waarbij grote technologiebedrijven dienen als ‘krachtige API-aanbieders voor algemene doeleinden’, terwijl nichespelers zoals CraftStory zich richten op specifieke gebruiksscenario’s. “Waar de grote spelers de machines bouwen, bouwt CraftStory daarbovenop productiestudio’s en assemblagelijnen”, zei hij.

Model 2.0 is nu beschikbaar op app.craftstory.com/model-2.0 en het bedrijf biedt vroege toegang aan gebruikers en bedrijven die geïnteresseerd zijn in het testen van de technologie. Het valt nog te bezien of een startup met een kleine financiering een betekenisvol marktaandeel kan verwerven in vergelijking met gevestigde exploitanten met grote zakken, maar Erukhimov is karakteristiek optimistisch over de kansen die voor hem liggen.

“AI-gegenereerde video zal binnenkort de belangrijkste manier worden waarop bedrijven hun verhalen communiceren”, zei hij.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in