Home Nieuws Dankzij AI-stemdictatie onthullen steeds meer mensen hun e-mails, berichten en codes

Dankzij AI-stemdictatie onthullen steeds meer mensen hun e-mails, berichten en codes

9
0
Dankzij AI-stemdictatie onthullen steeds meer mensen hun e-mails, berichten en codes

Gavin McNamara heeft zijn toetsenbord verlaten en brengt de hele dag door met praten in plaats van typen.

Hij praat urenlang op zijn computer en telefoon, verzendt e-mails, schrijft presentaties, post op LinkedIn en codeert zelfs gesprekken met behulp van de AI-dicteerapp van Wispr Flow, een startup uit San Francisco.

AI interpuncteert, formatteert en past de omzwervingen aan tot een samenhangende kopie. McNamara had een gemiddelde van 125 woorden per minuut, het dubbele van de gemiddelde typsnelheid.

“Op dit moment doe ik alles wat ik kan doen door te typen, door te praten”, zegt de 32-jarige oprichter van softwarebureau Why Not Us. ‘Ik was alleen maar aan het praten.’

In 77 apps heeft hij de afgelopen vijf maanden bijna 300.000 woorden gedicteerd – het equivalent van het schrijven van drie romans.

Techgiganten en startups in Californië lopen voorop in een beweging die gebruik maakt van AI en de enorme taalmodellen waarop ze zijn gebaseerd om mensen aan te moedigen met technologie te communiceren met hun stem, niet met hun vingers.

“AI en LLM’s hebben de dynamiek veranderd”, zegt CJ Pais, de in San Diego gevestigde maker van de gratis spraak-naar-tekst-dicteerapp Handy. “Je stem gebruiken gaat veel sneller dan typen.”

Een mix van onafhankelijke ontwikkelaars en startups, waaronder Handy, Wispr Flow uit San Fransico, Willow en anderen, komt op om nauwkeurige steminteracties met kunstmatige intelligentie te bieden.

Grote namen in de technologie creëren ook nieuwe manieren waarop de samenleving kan samenwerken met AI. De nieuwste slimme bril van Meta is afhankelijk van geluid. OpenAI en Meta hebben verschillende persoonlijkheden ontworpen voor hun bot-voicechats. Zelfs Alexa van Amazon en Siri van Apple ondergaan AI-upgrades, waarvan de bedrijven hopen dat iedereen meer met hun technologie kan communiceren.

Deze gratis en betaalde methode om gesproken woord te gebruiken met computers heeft miljoenen gebruikers aangetrokken, waaronder codeerders, uitvoerend assistenten, advocaten, makers van inhoud en artsen. Sommige optimisten beweren dat toetsenborden verouderd kunnen raken.

“Ik ben blij om aan te kondigen dat we toetsenborden hebben verwijderd van ’s werelds meest prestigieuze televisieprijzen”, zegt Allan Guo, oprichter van Willow, in een bericht op LinkedInmerkte op dat het Emmy Awards-team Willow-stemdictatie gebruikt om Slack-berichten te verzenden en de inbox sneller leeg te maken ter voorbereiding op de uitreiking van 2026.

Grote technologiebedrijven doen dit al jaren aangepast veel van hun producten zijn voorzien van voice-first – voor het gemak. Er vindt een verschuiving plaats van stem als toegankelijkheidsfunctie naar een productiviteitstool.

Eind 2022 zullen de makers van ChatGPT begonnen met het aanbieden van onbeperkte toegang naar een automatisch spraakherkenningsmodel genaamd Whisper, dat werd getraind op 680.000 uur aan meertalige gegevens. OpenAI deelt technologie voor nauwkeurige audiotranscriptie, wat ooit een goed bewaard groot technisch geheim was. Iedereen kan nu gratis AI-transcriptie van hoge kwaliteit downloaden en uitvoeren op hun laptop.

De nieuwe golf AI-dicteerapps gebruikt Whisper als basis en bouwt hierop voort om live dicteren aan te bieden. Hoewel er gratis alternatieven zijn, kosten betaalde abonnementen tussen de $ 8 en $ 12 per maand.

Door AI aangedreven dicteren wordt steeds populairder onder programmeurs en gewone gebruikers – en zorgt ervoor dat mensen via hun laptop aan het praten zijn. Of het nu gaat om het schrijven van e-mails, het verzenden van sms-berichten, het ontwerpen van websites of het toewijzen van taken aan AI, early adopters zeggen dat dicteren hen in staat stelt sneller te werken, helderder te denken en productiever te zijn.

“Mensen die echt de stem adopteren, komen niet meer terug. Als je eenmaal twintig uur per week achter een laptop zit te praten, voelt typen als wrijving”, zegt Naveen Naidu, algemeen directeur van de in New York gevestigde stemdictatie-app Monologue. “Ik denk dat het doel is: stemmen worden delegatielagen. Je drukt je bedoelingen uit en er gebeuren dingen.”

Deze nieuwe AI-dicteerapp maakt gebruik van Apple geavanceerde chips op iPhone en Mac om privédictaten op het apparaat uit te voeren.

Geoffrey Huntley, een onafhankelijke softwareontwikkelaar, ging in juni bijna volledig over op werk.

Hij start een project vaak door een spraakopdracht te openen en de AI te vragen hem te interviewen over zijn zorgen en projectvereisten voordat er code wordt gemaakt.

“Ik sprak met hem alsof ik een riff speelde in een jazzband, achteruit, vooruit, achteruit, vooruit”, zei Huntley. Deze vocale dans helpt bij het verfijnen van de specificaties, waarna AI het stuur overneemt, en bouwsoftware.

Naast coderen gebruikt Huntley stem om ‘het te laten scheuren’ bij het vastleggen van ideeën voor blogposts of berichten, met behulp van vergelijkbare apps super gefluister of Whisper Flow om een ​​“eerste dump” van gedachten te krijgen voordat u naar het toetsenbord gaat voor de definitieve bewerking.

Steeds meer softwareontwikkelaars in Silicon Valley dicteren urenlang codeerinstructies in plaats van te typen. Een snel evoluerende combinatie van AI-agenten die kunnen coderen UurDoordat steminvoer sneller gedachten vastlegt dan typen, heeft dit zijn productiviteit verhoogd.

McNamara, die zichzelf een ‘vibratiecodeerder’ noemt, bouwde in een paar maanden tijd meer dan 25 webapplicaties, een ontwikkelingssnelheid die zonder gesproken instructies niet mogelijk zou zijn geweest.

“Ik denk niet dat typen op wat voor manier dan ook efficiënt of effectief zal zijn om zo snel ergens te komen als door te spreken”, zei McNamara.

Hij gebruikte kronkelende gesprekken en enkele uren om de AI te bouwen Spruit geschenkenlijst met cadeaus voor kinderen en aanvragen voor Beoordeel elk item via foto’s.

Zeker, AI kan fouten maken en het werk ervan moet worden gecontroleerd.

Ondertussen heeft de wijdverbreide adoptie nieuwe ongemakken met zich meegebracht, waarbij zelfs ervaren gebruikers zich ongemakkelijk voelen bij het praten tegen hun laptops. Drukke open kantoren zijn niet ontworpen om veel mensen tegelijkertijd op hun computer te laten praten.

“Ik hou van het geluid, maar niet in een kantooromgeving”, zei er een gebruiker over X. “Ik hou er niet van om met mensen te praten. Ik doe het in een gesloten kantoor, of ga in mijn auto naar mijn werk.”

McNamara droeg een koptelefoon, dus mensen gingen ervan uit dat hij aan de telefoon was.

“Het lijkt op sociaal hacken dat ik heb meegemaakt”, zei hij.

Hoewel het nog te vroeg is om te bepalen of Qwerty-toetsenborden in de voetsporen van tickertape- en faxmachines zullen treden en in de vergetelheid raken, versnelt het tempo richting spraak, zegt Dylan Fox, oprichter van het in San Francisco gevestigde Assembly AI, dat audiomodellen aan bedrijven aanbiedt.

“We staan ​​echt aan het begin van wat we voor ogen hebben als een tien- tot honderdvoudige toename van de vraag naar spraak, AI-toepassingen en interfaces”, zei hij.

Voor programmeur McNamara zorgt het praten met chatbots ervoor dat ze betere vrienden worden.

Hij was vroeger slecht in het reageren op sms-berichten. Nu keerde hij onmiddellijk terug naar zijn vrienden.

“Ik reageerde snel, ze zeiden: ‘Wie is deze man?’” zei hij.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in