Ondanks dat ik zelf diep in de AI wereld zit, blijf ik me verbazen over de snelheid van alle ontwikkelingen. 5 jaar geleden hadden we een AI model gebouwd wat carnavalsmuziek kon maken en destijds nog in de halve finale van het LVK gekomen met dat lied. Destijds was dat super nieuw technisch gezien. En we hadden nog wel echt een menselijke componist nodig om de stukjes melodieën aan elkaar te zetten om tot een goed lied te komen.
Eerder dit jaar kwam DALL-E, Stable Diffusion en Mid Journey. Allemaal modellen waar je een of meerdere keywords kunt invoeren en waarbij het AI model dan een plaatje genereert rondom deze keywords. Overigens hebben we dit soort modellen inmiddels al toegepast bij InnerBuddies. Voor een nieuwe functionaliteit hadden we daar leuke foto’s nodig van een 3000-tal ingrediënten. En die moesten allemaal consistent zijn (dezelfde achtergrond). We hebben dus via de DALL-E 2 API automatisch foto’s gegenereerd van al die ingrediënten, netjes op een witte achtergrond. Werkte perfect.
Nu heeft iemand de aanpak van Stable Diffusion toegepast op muziek. Hierbij is het AI model (met de naam Riffusion) getrained op het maken van een spectogram op basis van de keywords. Dit spectogram wordt vervolgens omgezet in een audio bestand. Je kunt het testen op:
https://www.riffusion.com/
Voer een of meerdere keywords in en Riffusion genereert voor jou een lied.
Het grote probleem van 5 jaar geleden is overigens nog steeds hetzelfde. De AI is prima in het genereren van korte melodieën. Maar voor een goed lied van circa 5 minuten moet je ook de opbouw van het lied goed componeren. Daar hebben we destijds al iets voor ontwikkeld. Google heeft met haar grote Magenta team tevens een ontwikkeling op dat vlak lopen. Dus ik verwacht dat we de komende jaren ook AI modellen zien die een goed compleet lied van 5 minuten kunnen genereren.
#generativeai #musicai #genzai #artificialintelligence