OpenAI’nin vizyona sahip GPT-4’ünün hala kusurları olduğu ortaya çıktı

26 Eylül 2023 21:24

ferit cem yilmaz

OpenAI, metin üreten yapay zeka modelinin amiral gemisi olan GPT-4’ü ilk kez tanıttığında, şirket modelin çok yönlülüğünü, başka bir deyişle metnin yanı sıra görüntülerin bağlamını da anlama becerisini öne çıkarmıştı. OpenAI, GPT-4’ün nispeten karmaşık görüntülere altyazı yazabildiğini ve hatta yorumlayabildiğini, örneğin prize takılı bir iPhone resminden Lightning Kablo adaptörünü tanımlayabildiğini söyledi.

Ancak GPT-4’ün Mart ayı sonlarında duyurulmasından bu yana OpenAI, söylendiğine göre kötüye kullanım ve gizlilik sorunlarıyla ilgili korkular nedeniyle modelin görüntü özelliklerini geri tuttu. Yakın zamana kadar bu korkuların tam olarak ne olduğu bir sır olarak kalmıştı. Ancak bu hafta başında OpenAI, GPT-4’ün görüntü analiz araçlarının daha sorunlu yönlerini hafifletmek için yaptığı çalışmaları detaylandıran teknik bir makale yayınladı.

OpenAI tarafından dahili olarak “GPT-4V” olarak kısaltılan GPT-4, bugüne kadar yalnızca az gören ve görme engelli kişilerin çevrelerindeki ortamlarda gezinmelerine yardımcı olan bir uygulama olan Be My Eyes’ın birkaç bin kullanıcısı tarafından düzenli olarak kullanıldı. Ancak makaleye göre, OpenAI son birkaç ay içinde modeli istenmeyen davranış belirtileri açısından incelemek üzere “kırmızı ekip” ile de çalışmaya başladı.

Makalede OpenAI, GPT-4V’nin CAPTCHA’ları (birçok web formunda bulunan anti-spam aracı) kırmak, bir kişiyi tanımlamak veya yaşını veya ırkını tahmin etmek ve bir fotoğrafta bulunmayan bilgilere dayanarak sonuç çıkarmak gibi kötü niyetli yollarla kullanılmasını önlemek için güvenlik önlemleri uyguladığını iddia ediyor. OpenAI ayrıca GPT-4V’nin daha zararlı önyargılarını, özellikle de bir kişinin fiziksel görünümü ve cinsiyeti veya etnik kökeniyle ilgili olanları engellemek için çalıştığını söylüyor.

Ancak tüm yapay zeka modellerinde olduğu gibi, koruma önlemlerinin yapabileceği çok şey var.

Makale, GPT-4V’nin bazen doğru çıkarımları yapmakta zorlandığını, örneğin bir görseldeki iki metin dizisini yanlışlıkla birleştirerek uydurma bir terim oluşturduğunu ortaya koyuyor. Temel GPT-4 gibi GPT-4V de halüsinasyon görmeye ya da otoriter bir tonda gerçekleri uydurmaya yatkındır. Ayrıca metin veya karakterleri atlamak, matematiksel sembolleri gözden kaçırmak ve oldukça bariz nesneleri ve yer ayarlarını tanımakta başarısız olmak gibi hataları da yok değil.

O halde OpenAI’nin açık ve net ifadelerle GPT-4V’nin görüntülerdeki tehlikeli maddeleri veya kimyasalları tespit etmek için kullanılmaması gerektiğini söylemesi şaşırtıcı değildir. (Bu muhabirin aklına böyle bir kullanım durumu gelmemişti ama görünüşe göre bu ihtimal OpenAI’yi yeterince endişelendirmiş olacak ki şirket bunu belirtme gereği duymuş). Kırmızı ekip, modelin zaman zaman zehirli mantar gibi zehirli yiyecekleri doğru bir şekilde tanımlarken, fentanil, karfentanil ve kokain gibi maddeleri kimyasal yapılarının görüntülerinden yanlış tanımladığını tespit etti.

Tıbbi görüntüleme alanına uygulandığında, GPT-4V daha iyi sonuç vermiyor, bazen daha önceki bir bağlamda doğru yanıtladığı aynı soru için yanlış yanıtlar veriyor. Ayrıca, görüntüleme taramalarını hasta size bakıyormuş gibi görüntülemek (yani görüntüdeki sağ taraf hastanın sol tarafına karşılık gelir) gibi standart uygulamaların farkında değildir, bu da herhangi bir sayıda durumun yanlış teşhisine yol açar.

Daha fazla bülten için;