![Tenslotte! Donald Trump heft Huawei Ban op](/f/b5ac47aec86f80149fdda1cf7b33da13.jpg?width=100&height=100)
Door Microsoft ondersteunde startup Open AI onlangs stem- en beeldmogelijkheden toegevoegd voor zijn generatieve AI-gebaseerde chatbot ChatGPT die het nu zal laten zien, horen en spreken.
Deze mogelijkheden bieden een nieuw, intuïtiever type interface waarmee gebruikers een spraakgesprek kunnen voeren of ChatGPT kunnen laten zien waar ze het over hebben.
Laten we eens kijken naar de nieuwe functies die aan de ChatGPT zijn toegevoegd:
Gebruikers kunnen nu spraak gebruiken om heen en weer te praten met de AI-assistent. Aangedreven door een nieuw tekst-naar-spraakmodel, de ChatGPT kan dat nu mensachtige audio genereren van alleen tekst en een paar seconden voorbeeldspraak.
OpenAI heeft samengewerkt met professionele stemacteurs om vijf verschillende stemopties te creëren, waaronder mannen- en vrouwenstemmen. Het heeft ook Whisper, het open-source spraakherkenningssysteem, gebruikt om de gesproken woorden van de gebruiker in tekst om te zetten.
Om aan de slag te gaan met spraakgesprekken, opent u Instellingen en klikt u op 'Nieuwe functies' in de mobiele app. Kies dan voor stemgesprekken. Als u klaar bent, tikt u op de koptelefoonknop in de rechterbovenhoek van het startscherm en selecteert u uw favoriete stem uit vijf verschillende stemopties.
Gebruik uw stem om een heen-en-weer gesprek te voeren met ChatGPT. Praat er onderweg mee, vraag om een verhaaltje voor het slapengaan of beslecht een tafeldebat.
Geluid aan 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) 25 september 2023
De ChatGPT kan nu reageren op afbeeldingen geüpload door gebruikers. Gebruikers kunnen bijvoorbeeld tijdens het reizen een foto maken van een oriëntatiepunt om er meer details over te krijgen of er foto's van te verzenden hun koelkast en voorraadkast, en de AI-assistent kan voorstellen welke gerechten met de ingrediënten voor het diner kunnen worden bereid cadeau.
Dit is mogelijk door beeldbegrip, dat wordt aangedreven door multimodaal GPT-3.5 en GPT-4 die hun taalvaardigheid toepassen op verschillende afbeeldingen, zoals foto's, schermafbeeldingen en documenten die zowel tekst als afbeeldingen bevatten.
Om te beginnen tikt u op de fotoknop om een afbeelding vast te leggen of te selecteren. Als u een iOS- of Android-apparaat gebruikt, moet u eerst op de plusknop tikken. Daarnaast kunt u meerdere afbeeldingen bespreken of de tekentool van OpenAI gebruiken om uw AI-assistent te begeleiden.
“Stem en beeld geven je meer manieren om ChatGPT in je leven te gebruiken. Maak tijdens het reizen een foto van een oriëntatiepunt en voer een live gesprek over wat er interessant aan is”, aldus het bedrijf aangekondigd in een blogpost op maandag.
“Als je thuis bent, maak dan foto’s van je koelkast en voorraadkast om erachter te komen wat je gaat eten (en stel vervolgvragen voor een stapsgewijs recept). Help uw kind na het eten met een rekenprobleem door een foto te maken, de opgave te omcirkelen en hem hints met jullie beiden te laten delen.
De komende twee weken zullen de spraak- en beeldfuncties beschikbaar zijn ChatGPT Plus- en Enterprise-klanten. Hoewel de spraakfunctie beschikbaar zal zijn op iOS en Android (meld je aan in je instellingen), zal de afbeeldingsfunctie beschikbaar zijn op alle platforms.