OpenAI’ın yeni yapay zekâ aracı ‘Sora’ adeta ortalığı birbirine kattı, peki uzmanlar ne düşünüyor?

Suni zekâ girişimi OpenAI, kolay bir metin istemiyle son aşama gerçekçi 60 saniyelik videolar üretebilen yeni suni zekâ aracını tanıttı ve adeta ortalığı birbirine kattı.

YouTuber’lar şokta, teknoloji editörleri bunun bir milat bulunduğunu düşünüyor, en başından beri YZ mevzusunda endişelerini dile getiren kesim ise bunun daha inandırıcı ‘deepfake’ videolar için bir sıçrama tahtası olabileceğine işaret ediyor.

‘Sora’ isminde olan yeni ‘text-to-video’ kısaca metinden videoya vasıta, şu anda yalnızca modeli potansiyel zararlar ve riskler açısından değerlendiren ‘kırmızı ekip’ üyeleri tarafınca kullanılabiliyor. OpenAI ek olarak geri bildirim almak için bazı görsel sanatçılara, tasarımcılara ve film yapımcılarına erişim sunuyor.

Bu hamle hem coşku verici hem de birazcık ürkütücü. Muhtemelen OpenAI’ın yeni aracını şimdilik oldukca sınırı olan bir erişim programının arkasına almasının sebebi de bu.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

Sora, OpenAI’nin görüntü üreten DALL-E aracının arkasındaki teknolojiyi temel alıyor. Bir kullanıcının istemini yorumlayarak daha detaylı bir yönerge setine dönüştürüyor ve arkasından yeni videoyu oluşturmak için video ve görüntüler üstünde eğitilmiş bir YZ modeli kullanıyor.

OpenAI CEO’su Sam Altman X’te yapmış olduğu paylaşımda, “Sora’nın neler yapabileceğini sizlere göstermek istiyoruz. Lütfen görmek istediğiniz videoları yazın ve ikimiz de yapamaya başlamış olalım” dedi. Ortaya çıkan bazı videolar hakkaten çarpıcı görünüyor.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

OpenAI’ın blog yazısına göre Sora ‘birden fazla karakter, belirli hareket türleri ve mevzu ile arka planın doğru ayrıntılarına haiz karmaşık görüntüler’ yaratabiliyor. Şirket ek olarak modelin nesnelerin ‘fizyolojik dünyada iyi mi var bulunduğunu anlayabildiğini, sahne dekorlarını doğru bir halde yorumlayabildiğini ve canlı duyguları ifade eden etkisinde bırakan karakterler üretebildiğini’ belirtiyor.

Model hareketsiz bir görüntüye dayalı bir video oluşturabiliyor, mevcut bir videodaki tamamlanmamış çerçeveyi doldurabiliyor ve videoyu genişletebiliyor.

Gelin Sora tarafınca oluşturulan demo videolardan bazılarına beraber bakalım ↓

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

İstem: Şık bir bayan, sıcak neon ışıkları ve hareketli kent tabelalarıyla dolu bir Tokyo caddesinde yürüyor. Siyah deri bir ceket, uzun kırmızı bir elbise ve siyah botlar giyiyor, ek olarak siyah bir çanta taşıyor. Güneş gözlüğü takıyor ve kırmızı ruj sürüyor. Kendinden güvenli ve rahat bir halde yürüyor. Cadde nemli ve yansıtıcı, renkli ışıklar ayna tesiri yaratıyor. Birçok yaya etrafta dolaşıyor.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

İstem: “Kırmızı yün örme motosiklet kaskı takan 30 yaşındaki bir uzay adamının maceralarını içeren bir film fragmanı, mavi sema, tuz çölü, sinematik biçim, 35mm filmle çekilmiş, canlı renkler.”

this could be the “holy shit” moment of AI. OpenAI özgü just announced Sora, its text-to-video AI model. This video isn’t real, it’s based on a prompt of “a cat waking up its sleeping owner demanding breakfast…” ? https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo

— Tom Warren (@tomwarren) February 15, 2024

İstem: Uyuyan sahibini uyandırıp kahvaltı isteyen bir kedi. Sahibi kediyi görmezden gelmeye çalışıyor sadece kedi yeni taktikler deniyor. Sonunda sahibi kediyi birazcık daha oyalamak için yastığın altından gizli saklı bir ödül maması zulası çıkarıyor. (Buna hakkaten oldukca iyi.)

Aslen birçoğunda suni zekâ emareleri var ve şirkette bunu kabul ediyor. Ek olarak Sora bazı videolarda fizyolojik olarak mantığa aykırı hareketler yaratıyor. OpenAI modelin şu aşamada ‘karmaşık bir sahnenin fiziğini doğru bir halde simüle etmekte zorlanabileceğini’ söylüyor. Fakat sonuçlar genel olarak etkisinde bırakan diyebiliriz.

Sora hakkında ilk izlenimler iyi mi? Uzmanlar ne düşünüyor?

Suni zekâ teknolojideki süratli gelişme, film yapımcılığından haberciliğe kadar pek oldukca sektörü yakından ilgilendiriyor. Washington Post’un haberine göre yakın gelecekte ‘tek bir kişinin bir Marvel filmiyle aynı görsel düzeyde bir film yapabileceğini’ ileri devam eden bazı teknoloji uzmanları var.

Suni zekânın sektör üstündeki tesirini yakından takip eden film yönetmeni ve görsel efekt uzmanı Michael Gracey, “Yalnız bir yıl içinde görüntü oluşturmada geldiğimiz noktaya bakın. Animasyon filmler yapmak için üç yıl süresince 100 yada 200 sanatçıdan oluşan bir ekibe gerekseme duyulmayacak. Bu benim için coşku verici” diyor.

Fakat öte taraftan YZ araçlarının, sanatçıların çalışmalarıyla eğitilmesinin büyük bir problem bulunduğunu vurguluyor: “İnsanların yaratıcılığını, çalışmalarını, fikirlerini ve uygulamalarını alıp onlara hak ettikleri tutarı vermemek adil değil.”

Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Oxford İnternet Enstitüsü’nde siyaset araştırmacısı olan Mutale Nkonde, her insanın metni kolayca videoya dönüştürebilmesi fikrinin coşku verici bulunduğunu söylüyor. Sadece bu araçların toplumsal önyargıları iyi mi yerleştirebileceği, insanların geçim kaynakları üstündeki tesirleri ve nefret dolu metinleri rahatsız edici derecede gerçekçi görüntülere dönüştürme marifetleri mevzusunda endişeleri var.

Nkonde, Hollywood grevlerinin senaryo yazımında YZ araçlarının kullanılması ve oyuncuların bu teknolojiyle klonlanması şeklinde sorunlara çözüm aradığını hatırlatıyor ve mevzuyu ‘deepfake’e getiriyor: “Siyaset açısından bakıldığında ve bu şeklinde araçlar söz mevzusu olduğunda insanları iyi mi koruyabileceğimizi düşünmeye başlamamız gerekmiyor mu?”

Bu araçları geliştiren teknoloji şirketleri, araçlarının kullanımını izlediklerini ve siyasal içerik üretmek için kullanılmasına karşı bazı politikalar oluşturduklarını söylüyor. Sadece bu politikaların iyi mi uygulanmış olduğu belirsiz.

Princeton Üniversitesi’nde bilgisayar bilimleri profesörü olan Arvind Narayanan, OpenAI’ın paylaşmış olduğu demo videolara dayanarak Sora’nın ‘öteki tüm video oluşturma araçlarından mühim seviyede daha gelişmiş göründüğünü’ söylüyor. Narayanan da bu hamlenin daha inandırıcı ‘deepfake’ videolarla sonuçlanmasının olası bulunduğunu düşünüyor. Sadece “Bazı videolara yakından bakarsanız hâlâ oldukca sayıda tutarsızlık görebilirsiniz” diyerek Tokyo videosundaki kadının yürüyüşüne ve arka planda ortadan kaybolan insanlara dikkat çekiyor.

Illinois Üniversitesi’nde data bilimi profesörü olan Ted Underwood ise “Açıkçası iki ila üç yıl daha bu düzeyde video üretimi beklemiyordum. Öteki metinden videoya araçlarına gore kapasitede birazcık sıçrama olmuş şeklinde görünüyor” diyor. Sadece OpenAI’ın modeli en iyi şekilde gösteren videoları seçmiş olabileceği mevzusunda uyarıda bulunmayı da dikkatsizlik etmiyor.

Kaynaklar: OpenAI blog yazısı ve Washington Post haberi.

(Toplam: 1, Bugün: 1 )