Az OpenAI hangot ad a ChatGPT-nek, hogy válaszoljon a promptokra és parancsokra

Az Önhöz hasonló olvasók támogatják a MUO-t. Amikor a webhelyünkön található linkek használatával vásárol, társult jutalékot kaphatunk. Olvass tovább.

A ChatGPT interaktív generatív AI-élményré válik. Az OpenAI felfedte, hogy a világ vezető mesterséges intelligencia chatbotja szintetizált, feltehetően mesterséges intelligencia által generált hang használatával képes lesz beszélni és válaszolni a felhasználói kérdésekre.

Az újonnan talált hangon kívül a ChatGPT képes lesz válaszolni és megvitatni a rá feltöltött vagy a ChatGPT Android vagy iOS alkalmazás használata közben készült képeket. A képfelismerő funkció hangzása hasonló a Google Lenshez és más alkalmazásokhoz, amelyek neurális hálózatokat használnak az adatok és információk pontos észlelésére.

hogyan lehet megnézni, hogy ki férhet hozzá egy Google -dokumentumhoz

Az OpenAI hangot ad a ChatGPT-nek

2023. szeptember 25-én a ChatGPT fejlesztője Az OpenAI kiderült világelső generatív AI chatbotjának hangot adna. A ChatGPT-felhasználók közvetlenül beszélhetnek a csevegőbottal, és visszaszólást kérhetnek, így a ChatGPT először tud közvetlenül beszélni hanggal.

Az OpenAI példaklipjében egy nő megkéri a ChatGPT-t, hogy készítsen egyedi esti mesét, amelyre a ChatGPT megfelelően női szintetizált hanggal válaszol.

Alapján Vezetékes , az új szövegfelolvasó modellt házon belül fejlesztették ki. Képes 'emberszerű' hangot generálni szövegből és néhány másodperces beszédmintából ( az OpenAI Whisper modell segítségével ), és különféle hangnemekben és stílusokban beszél. Számos hangmintát találhat a webhelyen OpenAI blogja .

Néhány vállalat már alkalmazza az OpenAI új hangmodelljét. A Spotify például az OpenAI szövegfelolvasó modelljét használja a podcastok különböző nyelvekre történő lefordításához, ötvözve a ChatGPT nyelvi fordítási képességét új beszédképességével.

A ChatGPT új szövegfelolvasó modellje csak a hivatalos Android és iOS alkalmazásokat használó Plus és Enterprise előfizetők számára érhető el, és várhatóan a következő két héten belül (2023. szeptember 25-től) fog megjelenni. Ezenkívül az új hangfunkció kezdetben csak angolra korlátozódik, bár azt várnánk, hogy ez gyorsan megváltozik.

A ChatGPT képes felismerni és fényképezni

Az OpenAI ChatGPT frissítésének második része az eszközbe feltöltött képek elemzésének és megszólításának képessége. A vizuális képelemzési lehetőség szerepelt a GPT-4 frissítési videóiban, de azóta nem nagyon esett szó róla ( A ChatGPT kódtolmácsot félretéve ).

Mostantól a ChatGPT a Google Lenshez hasonló funkciókat kap. Feltölthet egy képet a ChatGPT-be, vagy fényképet készíthet okostelefonja kamerájával a ChatGPT alkalmazásban, és az részletezi a képet, és szükség esetén további kontextust ad hozzá.

Ha „a Google Lenshez hasonlónak” nevezzük, az valóban igazságtalan. A képről való oda-vissza csevegés lehetősége több információ és kontextus megszerzése érdekében rendkívül hasznossá teszi a beállítások széles körében. Fontos azonban megjegyezni az apró betűs részt, mivel az OpenAI világossá teszi, hogy adatvédelmi és pontossági okokból korlátozta a ChatGPT „képességét, hogy elemezzen és közvetlen kijelentéseket tegyen az emberekről”. Ennek ellenére készülhet-e a jövőben egy OpenAI-alapú „Who Is This” eszköz? (Reméljük nem!)

Az új szövegfelolvasó modellhez hasonlóan az OpenAI is a következő két hétben bevezeti a képfelismerést, bár minden platformon elérhető lesz, nem csak a ChatGPT alkalmazáson.

Adatvédelmi, biztonsági és egyéb kérdések

A hangalapú ChatGPT következményei élesek. Persze, izgalmas. Az egyedi szintetizált hang létrehozásának képessége azonban csupán egy rövid részlet példaként való felhasználásával jelentős adatvédelmi és biztonsági problémákkal jár. Óriási a lehetőség, hogy a rosszindulatú szereplők kihasználják ezeket az eszközöket, és mint minden generatív mesterségesintelligencia-eszköz esetében, a dzsinn, ha kikerült a palackból, egyáltalán nem fog visszakerülni. A kormányok vagy a gondolati vezetők semmilyen mesterségesintelligencia-szabályozása nem fordulhat vissza. az árapály.

Még az OpenAI témával kapcsolatos figyelmeztetése is megkerüli a nyilvánvalót, annak ellenére, hogy megemlíti a problémákat:

Ezek a képességek azonban új kockázatokat is rejtenek, például azt, hogy a rosszindulatú szereplők közszereplőknek adja ki magát, vagy csalást követhetnek el. Ezért használjuk ezt a technológiát egy adott használati eset – a hangcsevegés – működtetésére.
mit jelent a ddr4 utáni szám

Tekintettel arra, hogy ez a jéghegy csúcsa, számítson a ChatGPT újonnan felfedezett hangjának visszaszorítására, különösen akkor, ha megjósolható emelkedés tapasztalható a kellemetlen szalagcímekben, amelyek azt állítják, hogy a ChatGPT-t csalásra használják, és így tovább.

Az OpenAI a ChatGPT-t a legjobb mesterséges intelligencia alkalmazássá teszi

Minél több OpenAI ad hozzá felhasználóbarát funkciókat a ChatGPT-hez, annál inkább válik a generatív mesterséges intelligencia alkalmazásává. A ChatGPT elsőként ért el széles körű hírnevet a kezdeti generatív mesterségesintelligencia-roham idején, és továbbra is az élen jár, és ez az egyetlen olyan alkalmazás, amelyet néhányan használnak, annak ellenére, hogy versenyben áll a Google Bard (és potenciálisan a Google Gemini) és az Anthropic's Claude.

Mindaddig, amíg az OpenAI továbbra is olyan funkciókat tud hozzáadni, amelyek megkönnyítik a ChatGPT használatát, leköti az embereket, és egyre közelebb kerül a valóban multimodális AI-eszköz céljához.