OpenAI, DALL-E’ye Benzeyen, Point-E’yi Piyasaya Sürdü

22 Aralık 2022 11:00

Yaren Diyapoğlu

Çözünürlüğü harika değil ama rakip sistemlerden iki kat daha hızlı.

Popüler DALL-E metinden görüntü oluşturucunun arkasındaki Elon Musk tarafından kurulan yapay zeka girişimi OpenAI, Salı günü doğrudan metin istemlerinden 3B nokta bulutları üretebilen en yeni resim yapma makinesi POINT-E’nin piyasaya sürüldüğünü duyurdu. Google’ın DreamFusion gibi mevcut sistemleri, görüntülerini oluşturmak için tipik olarak birden fazla saat ve GPU gerektirirken, Point-E’nin yalnızca bir GPU’ya ve bir veya iki dakikaya ihtiyacı vardır.

3D modelleme, çeşitli endüstrilerde ve uygulamalarda kullanılmaktadır. Gişe rekorları kıran modern filmlerin, video oyunlarının, VR ve AR’nin CGI efektleri, NASA’nın ay krateri haritalama görevleri, Google’ın miras alanı koruma projeleri ve Meta’nın Metaverse vizyonunun tümü 3D modelleme yeteneklerine bağlıdır. Bununla birlikte, NVIDIA’nın nesne oluşturmayı otomatikleştirme çalışmasına ve iOS telefonu olan herkesin gerçek dünyadaki nesneleri 3B görüntüler olarak taramasına olanak tanıyan Epic Game’in RealityCapture mobil uygulamasına rağmen, fotogerçekçi 3B görüntüler oluşturmak hâlâ kaynak ve zaman alıcı bir süreçtir.

OpenAI’nin DALL-E 2 ve Craiyon, DeepAI, Prisma Lab’in Lensa’sı veya HuggingFace’in Stable Difüzyonu gibi Metinden Görüntüye sistemler son yıllarda hızla popülerlik, kötü şöhret ve rezillik kazandı. Text-to-3D, bu araştırmanın bir dalı. Point-E, benzer sistemlerin aksine, “görüntüden 3B’ye modelimiz daha küçük bir veri kümesi (görüntü, 3B) üzerinde eğitilirken, çeşitli ve karmaşık istemleri takip etmesine olanak tanıyan geniş bir (metin, görüntü) çiftleri topluluğundan yararlanır. Alex Nichol liderliğindeki OpenAI araştırma ekibi, geçen hafta yayınlanan Point·E: A System for Generation 3D Point Clouds from Complex Prompts’ta yazdı. “Bir metin isteminden bir 3B nesne üretmek için, önce metinden görüntüye modelini kullanarak bir görüntüyü örnekliyoruz ve ardından örneklenen görüntüye koşullanmış bir 3B nesneyi örnekliyoruz. Bu adımların her ikisi de birkaç saniye içinde gerçekleştirilebilir.

Bir metin istemi girecekseniz, “Burito yiyen bir kedi” deyin, Point-E önce söz konusu burrito yiyen kedinin sentetik bir 3B görüntüsünü oluşturacaktır. Ardından, ilk görüntünün 3B, RGB nokta bulutunu oluşturmak için oluşturulan görüntüyü bir dizi difüzyon modelinden geçirecek – önce kaba bir 1.024 noktalı bulut modeli, ardından daha ince bir 4.096 noktalı bulut modeli üretecek. Araştırma ekibi, “Uygulamada, görüntünün metinden ilgili bilgileri içerdiğini varsayıyoruz ve nokta bulutlarını metin üzerinde açıkça şartlandırmıyoruz” diye belirtiyor.

Bu difüzyon modellerinin her biri, tümü standartlaştırılmış bir formata dönüştürülen “milyonlarca” 3B model üzerinde eğitildi. Ekip, “Metodumuz bu değerlendirmede son teknoloji tekniklerden daha kötü performans gösterse de, zamanın küçük bir bölümünde numuneler ürettiğini” kabul ediyor. Kendiniz denemek isterseniz OpenAI, projenin açık kaynak kodunu Github’da yayınladı.

OpenAI