Apple, suni zekâ yardımlı görsel işleme alanına, açık kaynak kodlu ve çoklu modu bulunan bir YZ modeli ile giriş yapmış oldu.

Geçtiğimiz haftanın başlarında Apple ve Kaliforniya Üniversitesi’nden araştırmacılar, MLLM-Guided Image Editing – Fazlaca Modlu Büyük Dil Modeli Yönlendirmeli Görsel İşleme ya da özetlemek gerekirse “MGIE” adlı oldukca modlu YZ modelini yayınladı. Model, Photoshop’un yapmış olduğu benzer biçimde görsel işleyebiliyor ve bunu rahat metin komutlarıyla yapıyor.

Apple, suni zekâ geliştirme cephesindeki planlarıyla ilgili oldukca ketum aşama kaydediyor. Sonuçta teknoloji devi, geçtiğimiz yıl yaşadığımız ChatGPT furyasında herhangi bir büyük YZ planı açıklamayan ender şirketlerden biri. Sadece Apple’ın Apple GPT olarak adlandırılan, ChatGPT benzeri suni zekâlı söyleşi robotu geliştirdiğini biliyoruz. Tim Cook da firmanın bu yıl içinde büyük bir YZ duyurusu olacağını açıkladı.

Bu duyurunun YZ görsel işleme aracını içerip içermediğini bilmiyoruz, sadece bu modele bakarak, Apple’ın ciddi anlamda araştırma ve geliştirme yaptığını söyleyebiliriz.

Leb demeden leblebiyi çiziyor!

Araştırma kağıdında “her ne kadar kullanılabilir durumda YZ işleme araçları bulunsa da, insanların verdiği yönergeler kimi zaman mevcut metotların yakalayıp, takip edebilmesi için oldukca kısa olabiliyor” ibaresi içeriyor. Bu da sönük ya da başarısız sonuçlara niçin oluyor. MGIE, MLLM’leri şu demek oluyor ki Fazlaca Modlu Büyük Dil Modelleri’ni kullanan değişik bir yaklaşım. Böylece metin komutlarını ya da “tarifsel girdileri” ve görsel eğitim verilerini daha iyi anlayabilmesi sağlanıyor. MLLM’lerden öğrenmek, MGIE’nin organik dil komutlarını daha yoğun izahat olmadan anlayabilmesine destek oluyor.

Araştırmadaki örneklerde, MGIE girdi görseli olarak sucuklu pizzayı ve “bunu daha sıhhatli yap” komutunu alınca “bu“nun sucuklu pizza bulunduğunu ve “daha sıhhatli“nın da, sebze ilave ederek elde edilebileceğini anlıyor. Böylece çıktı görseli olarak üstüne yeşil sebzeler eklenmiş sucuklu bir pizza sunuyor.

MGIE’yi değişik modellerle karşılaştıran başka bir örnekte, girdi görselinde ağaçlı bir kıyı ve durgun bir su bulunuyor. “Yıldırım ekle ve suyun yıldırımı yansıtmasını sağla” komutu ile, öteki modeller yıldırımın yansımasını eklemeyi atlarken, MGIE bunu başarıyla sağlıyor.

MGIE, GitHub üstünde açık kaynak kodlu olarak sunuluyor, demo sürümüne de Hugging Face‘ten erişebilirsiniz.


Cecily Mauran’ın haberini Erinç Eröz Türkçeleştirdi