A Google MusicLM megfelel a felhajtásnak?

A Google MusicLM megfelel a felhajtásnak?
Az Önhöz hasonló olvasók támogatják a MUO-t. Amikor a webhelyünkön található linkek használatával vásárol, társult jutalékot kaphatunk. Olvass tovább.

2023 januárjában a Google bejelentette a MusicLM-et, egy kísérleti mesterséges intelligencia eszközt, amely szöveges leírások alapján képes zenét generálni. A hír mellett a Google egy lenyűgöző kutatási tanulmányt is kiadott a MusicLM számára, amely sok embert elkápráztatott a levegőből való zene varázsolásának képességétől.





MAKEUSEOF A NAP VIDEÓJA GÖRGÖZSEN A TARTALOM FOLYTATÁSHOZ

Szöveges felszólításra a modell megígérte, hogy nagy hűségű zenét készít, amely mindenféle leírást tartalmaz a műfajtól a hangszeren át a híres műalkotásokat leíró absztrakt feliratokig. Most, hogy a MusicLM megnyílt a nyilvánosság számára, úgy döntöttünk, hogy próbára tesszük.





A Google kísérlete AI zenegenerátor létrehozására

  Webes alkalmazás a Google számára's MusicLM AI music generator

A „relaxing jazz”-hez hasonló szöveges felszólítás lejátszásra kész számmá alakítása vitathatatlanul a mesterséges intelligencia zenei kísérleteinek szent grálja. Hasonlóan a híres mesterséges intelligencia képgenerátorokhoz, mint például a Dall-E vagy a Midjourney, egy csepp zenei know-how-val sem kell rendelkeznie egy dallamú és ütemű szám létrehozásához.





2023 májusában azok, akik regisztráltak a Google AI Test Kitchen programjára, először próbálhatták ki a demót. A felhasználóbarát weboldal és néhány szabály betartása mellett – az elektronikus és a klasszikus hangszerek működnek a legjobban, és ne felejtsd el megadni a „hangulatot” – elképzelhetetlenül egyszerű a zenerészlet előállítása.

A sebesség egyike azon kevés dolgoknak, amelyeket a MusicLM valóban nyújt, a viszonylag nagy pontosságú minták mellett. Az igazi tesztet azonban nem csak stopperrel kellett mérni. A MusicLM képes valódi, hallgatható zenét produkálni néhány szó alapján? Nem egészen (erre hamarosan kitérünk).



A MusicLM használata a Google AI tesztkonyhájában

A MusicLM használata egyszerű, feliratkozhat a várólistára A Google AI tesztkonyhája ha meg akarod adni.

A webalkalmazásban megjelenik egy szövegmező, amelyben néhány szóból néhány mondatig összeállíthat egy felszólítást, amely leírja, hogy milyen zenét szeretne hallani. A legjobb eredmény érdekében a Google azt tanácsolja, hogy „legyen nagyon leíró”, hozzátéve, hogy próbálja meg belefoglalni a zene hangulatát és érzelmeit.





Ha készen áll, nyomja meg az Enter billentyűt a feldolgozás megkezdéséhez. Körülbelül 30 másodpercen belül két hangrészlet válik elérhetővé a meghallgatásra. A kettő közül lehetősége van arra, hogy trófeát ítéljen oda a legjobb mintának, amely megfelel az Ön felszólításának, ami viszont segíti a Google-t a modell képzésében és teljesítményének javításában.

Milyen a MusicLM hangzása

Az emberek legalább 40 000 éve zenélnek anélkül, hogy határozott elképzelésük lenne arról, hogy a zene a nyelv fejlődése előtt, után vagy azzal egy időben jött-e. Így bizonyos szempontból nem meglepő, hogy a MusicLM nem törte fel teljesen ennek az ősi univerzális művészetnek a kódját.





A Google MusicLM kutatási cikke azt javasolta, hogy a MusicLM zenét generáljon híres műalkotásokhoz tartozó feliratokból, és kövesse az utasításokat, például a műfaj vagy a hangulat megváltoztatását, zökkenőmentesen, különböző utasítások sorozatát követően.

Mielőtt azonban hozzáfogtunk volna az ilyen magas megrendelésekhez, rájöttünk, hogy a MusicLM-nek számos alapvető problémát kellett leküzdenie.

milyen telefon vagy

A tempóhoz való ragaszkodás nehézségei

Minden zenész legalapvetőbb feladata, hogy időben játsszon. Más szóval, ragaszkodj a tempóhoz. Meglepő módon a MusicLM az esetek 100%-ában nem képes erre.

Valójában 10 alkalommal ugyanazt a promptot használva, amely 20 zeneszámot eredményez, csak három volt időben. A fennmaradó 17 minta gyorsabb vagy lassabb volt, mint a megadott tempó, amelyet 'percenkénti ütemben' írtak, ami egy széles körben használt kifejezés a zene leírására.

Ebben a példában a „szóló klasszikus zongora 80 ütem/perc sebességgel, békés és meditatív” felszólítást használtuk. Közelebbről hallgatva a zene gyakran felgyorsult vagy lelassult a kis mintahosszon belül.

A zenéből is hiányzott az erős ütem, és úgy szólt, mintha valaki a darab közepén elütötte volna a játékot. Függetlenül attól, hogy ez szándékos volt-e vagy sem, megnehezíti annak megítélését, hogy a MusicLM valóban képes-e megfelelő elejét vagy végét komponálni egy zeneműnek az ütemhez való ragaszkodás mellett.

Véletlenszerű hangszerválasztás

Talán a MusicLM még nem tanult meg szigorú időzítéssel játszani, ezért áttértünk egy másik általános zenei paraméterre. Azt akartuk látni, hogy teljesíti-e kérésünket bizonyos eszközökre.

Számos különböző promptot írtunk, amelyekben olyan leírások szerepeltek, mint a 'Szóló szintetizátor' és a 'Szóló basszusgitár'. Mások nagyobb együttesek voltak, mint a 'Vonósnégyes' vagy a 'Jazz band'. Összességében 50:50 esélynek tűnt, hogy megkapja, amit kért.

Az egyik elmélet szerint a modell egyes hangszereket népszerű zenei műfajokkal társít. Vegyük például a 'Szóló szintetizátor, akkordmenet. Élénk és vidám' üzenetet. Ahelyett, hogy önálló szintetizátor hangzást kapott volna, a MusicLM egy dobbal és basszusgitárral kiegészített elektronikus számot készített.

Lehetséges, hogy a modell egyszerűen nem rendelkezik elegendő adattal és elegendő képzéssel ahhoz, hogy megértse az adott műszerre vonatkozó kérést.

Az ének nem szerepel az egyenletben

Az akkori korlátozások szerint a modell nem gyártott éneket tartalmazó zenét. A MusicLM bonyolult szerzői jogi problémái és bugyuta énekhangja valószínűsíthető tényezője annak, hogy a Google miért döntött úgy, hogy biztonságosan játssza ezt a korlátozást.

De miután egy ideig kísérleteztünk a MusicLM-mel, rájöttünk, hogy a Google nem tudja pontosan szabályozni a modell kimenetét. Furcsa módon egy olyan felszólítás, mint az „akusztikus gitár”, olyan számot eredményezne, amely szellemszerű énekhangot tartalmazott a háttérben, amely tompa és távoli hangzású.

Bár ez nem gyakori jelenség, mégis elgondolkodtat azon, hogy a MusicLM képes-e meggyőző énekhangot létrehozni.

Olyan szoftverekkel, mint a VOCALOID és a Synthesizer V, amelyek vezető szerepet töltenek be AI által támogatott énekszintézis technológia , ha a jelenlegi modellből kihagyjuk az énekhangot, elgondolkodunk azon, hogy vajon nem elég jó-e a verseny a meglévő technológiával. Lehet, hogy a MusicLM-nek még hosszú utat kell megtennie ahhoz, hogy a zenészek énekeljék a dicséretet.

Az AI zenegenerátorok jövője

  Különböző azonnali javaslatok a MusicLM-en's web application

Míg a MusicLM előremozdította a generatív mesterséges intelligencia zenei technológiát, vissza kell mennie az iskolába, és meg kell tanulnia még néhány dolgot, mielőtt gyakorlati munkát végezhet a zeneiparban.

Korábban a generatív mesterséges intelligencia zene legjobb próbálkozása az OpenAI JukeboxAI nevű modellje volt. Nem volt éppen használatra kész állapotban, és bő kilenc órába telt, mire csak egy percnyi zenét rendereltek.

Erőfeszítéseiért valószínűleg visszakaphat egy igazán idegen hangzású, hangtorzításokkal és műalkotásokkal teli számot. Ami viszont azt illeti, nem fogsz unatkozni hallgatni a Jukebox által előidézett bizarr alkotásokat .

Ennek fényében a MusicLM jelentős előrelépést tett a felhasználóbarát AI zenegenerátor felé. Szinte megbocsáthatnánk a modellnek a véletlenszerű kimeneteket, ha abba belegondolunk, milyen rendkívül bonyolult a zene nyers audio formában történő generálása.

A modell működésbe helyezése után azonban a MusicLM félkésznek érzi magát, összehasonlítva azzal, amit a Google az első kutatási cikkében közölt. A mesterséges intelligencia képgenerátor ritkán téveszti el az Apple képét, hasonlóképpen egy mesterséges intelligencia-zenegenerátornak is jó néhány alapelemet, például a tempót és a hangszereket.

nem emlékszem egy könyv címére

A Google MusicLM alulmúlja a várakozásokat

Mivel a technológiai cégek versenyeznek egymással a mesterséges intelligencia frontján, a MusicLM úgy érzi, mintha nyilvános próbatételekbe került volna, mielőtt készen lett volna. Ahelyett, hogy az alapokat helyesen kezelné, a modell sokkal homályosabb és szubjektívebb megközelítést alkalmaz a zene előállításához.

A Google bátoríthat arra, hogy legyen konkrét a felszólítás, de nem tudja jól kezelni a tempót, és nem garantált, hogy minden alkalommal megkapja azokat a hangszereket, amelyeket kért. A MusicLM érdekes lehet, és jól demonstrálja a mesterséges intelligencia erőteljes fejlődését, de ha a zene a végcél, akkor még hosszú út áll előttünk.