Çinli başarılı bir firma olan DeepSeek, geçen yılın sonlarında ucuz büyük dil modelini piyasaya sürdüğünde, yeni nesil yapay zekâ oluşturmak için nelerin gerekeceği konusunda uzun süredir devam eden varsayımları alt üst etti. Bu, yapay zekâ üstünlüğü için epik küresel savaşta zirveye çıkan herkes için önemli olacak. Geliştiriciler artık ne kadar donanım, enerji ve veriye ihtiyaç duyulduğunu yeniden düşünüyorlar. Makine zekâsında daha az tartışılan bir diğer girdi de değişip durmakta olan işgücü.
Meslekten olmayanlar için yapay zekâ tüm robotlar, makineler ve modellerdir. İşleri ortadan kaldıran bir teknolojidir. Aslında, yapay zekâ modelleri üretmeye dâhil olan milyonlarca işçi var. Çalışmalarının çoğu, sürücüsüz araçları eğitmek için yol görüntülerindeki nesneleri etiketlemek ve konuşma tanıma sistemlerini eğitmek için kullanılan ses kayıtlarındaki kelimeleri etiketlemek gibi görevleri içeriyor. Teknik olarak, açıklayıcılar, bilgisayarların bir veri kümesinin bileşenleri arasındaki istatistiksel ilişkileri ve bunların insanlar için anlamlarını çözmek için ihtiyaç duyduğu bağlamsal bilgileri verilere ekliyorlar. Aslında, yaya geçidi içeren fotoğrafları seçerek bir CAPTCHA testini tamamlayan herkes, istemeden de olsa bir yapay zekânın eğitilmesine yardımcı olmuş olabilir.
Bu, bir veri firması olan Scale AI’nin patronu Alex Wang’ın deyimiyle sektörün “çekici olmayan” kısmı. Scale AI, katkıda bulunanların işlerinin çoğunun Amerika ve Avrupa’da gerçekleştiğini söylese de sektör genelinde işgücünün çoğu, çok sayıda eğitimli insanın iş aradığı dünyanın yoksul bölgelerinden taşeron olarak sağlanıyor. Çin hükümeti, Alibaba ve JD.com gibi teknoloji şirketleriyle bir araya gelerek açıklama* işlerini ülkenin en uzak bölgelerine getirdi. Hindistan’da bilişim sektörü kuruluşu Nasscom, açıklama gelirlerinin** 2030 yılına kadar yılda 7 milyar dolara ulaşabileceğini ve 1 milyon kişiye istihdam sağlayabileceğini hesaplıyor. Hindistan’ın tüm BT sektörü yılda 254 milyar dolar değerinde (donanım buna dahil) ve 5,5 milyon kişiye istihdam sağlıyor.
Açıklayıcılar uzun zamandır ebeveynlerle karşılaştırılıyor, modellere öğretiyor ve dünyayı anlamlandırmalarına yardımcı oluyorlar. Ancak son modellerin onların rehberliğine eskisi gibi ihtiyacı yok. Teknoloji büyüdükçe, öğretmenleri gereksiz hale mi geliyor?
Veri açıklama yeni değil. “Yapay zekânın vaftiz annesi” olarak bilinen Amerikalı bilgisayar bilimcisi Fei Fei Li, 2000’li yılların ortalarında o zamanın en büyük görüntü veri kümesi olan ImageNet’i yaratarak sektörün başlama vuruşunu yapmasıyla tanınıyor. Bayan Li, görüntüleri kategorize etmeleri için üniversite öğrencilerine para ödediği takdirde, ki o zamanlar çoğu araştırmacı böyle yapıyordu, bu işin 90 yıl süreceğini fark etti. Bunun yerine, Amazon tarafından işletilen çevrimiçi bir gig-work platformu olan Mechanical Turk’ü kullanarak dünyanın dört bir yanından işçi kiraladı. İki buçuk yıl içinde bir veri kümesi halinde düzenlenmiş 3,2 milyon görüntü elde etti. Kısa süre sonra diğer yapay zekâ laboratuvarları da açıklama çalışmalarını bu şekilde taşeronlaştırdı.
Zamanla geliştiriciler, iş yerlerinde eğitimsiz çalışanlar tarafından yapılan düşük kaliteli açıklamalardan bıktılar. Sama ve iMerit gibi yapay zekâ veri firmaları ortaya çıktı. Yoksul dünyadaki işçileri işe aldılar. Gayri resmî açıklama çalışmaları devam etti, ancak yapay zekâ çalışmaları için, çalışanları test eden ve eğiten Scale AI tarafından yönetilenler gibi uzman platformlar ortaya çıktı. Dünya Bankası, küresel işgücünün yüzde 4,4 ila yüzde 12,4’ünün yapay zekâ için açıklamalar da dahil olmak üzere gig çalışmalarına dahil olduğunu düşünüyor. Michigan’da yaşayan ve on yıldır internette veri işi yapan Krystal Kauffman, teknoloji şirketlerinin bu işgücünü gizli tutmakta çıkarı olduğunu düşünüyor. Kauffman, “Sihir satıyorlar, tüm bunların kendi başlarına gerçekleştiği fikrini satıyorlar” diyor. “İşin sihirli kısmı olmadan, yapay zekâ sadece başka bir üründür.”

Grafik: The Economist
Sektördeki bir tartışma, yapay zekânın arkasındaki işçilere nasıl davranıldığıyla ilgiliydi. Firmalar ücretlerle ilgili bilgileri paylaşmak konusunda isteksizler. Ancak Amerikalı açıklayıcılar genellikle çevrimiçi platformlarda saat başına 10-20 doların makul bir ücret olduğunu düşünüyor. Yoksul ülkelerdekiler genellikle saatte 4-8 dolar alıyor. Birçoğu bilgisayar faaliyetlerini takip eden izleme araçları kullanmak zorunda ve yavaş oldukları için cezalandırılıyorlar. Scale AI, istihdam uygulamaları nedeniyle çeşitli davalarla karşı karşıya kalmıştır. Firma haksızlık yaptığını reddediyor ve “Kendimizi güçlü bir şekilde savunmayı planlıyoruz” diyor.
Ancak daha büyük sorun, temel açıklama işinin giderek azalmasıdır. Bir açıdan bu kaçınılmazdı. Eğer yapay zekâ bir zamanlar etrafındaki dünyayı anlamlandırmasına yardımcı olacak bir ebeveyne ihtiyaç duyan bir çocuk idiyse, teknoloji artık ara sıra uzman rehberliğine ve tavsiyesine ihtiyaç duyan bir ergen haline geldi. Yapay zekâ laboratuvarları, veri kümelerine etiket uygulamak için algoritmalar kullanan diğer yapay zekâ laboratuvarlarından gelen önceden etiketlenmiş verileri giderek daha fazla kullanmaktadır.
Tarımsal ekipman devi John Deere’in bir yan kuruluşu olan Blue River Technology tarafından geliştirilen sürücüsüz traktörler örneğini ele alalım. Üç yıl önce grubun Amerika’daki mühendisleri tarım arazilerinin fotoğraflarını buluta yüklüyor ve Hindistan’ın Hubli kentindeki iMerit personeline nelerin etiketleneceğine dair dikkatli talimatlar veriyordu: traktörler, binalar, sulama ekipmanları. Artık geliştiriciler önceden etiketlenmiş verileri kullanıyor. Yine de bu etiketlemeyi kontrol etmek ve örneğin bir toz bulutunun görüntünün bir kısmını gizlediği veya bir ağacın ekinlerin üzerine gölge düşürerek modeli karıştırdığı “uç durumlarla” başa çıkmak için iMerit personeline ihtiyaçları var. Aylar süren bir süreç artık haftalar alıyor.
Bebek Adımlarından
Yapay zekâ modellerinin son dalgası, veri çalışmalarını daha dramatik bir şekilde değiştirdi. OpenAI’nin ChatGPT sohbet robotuyla halkın oynamasına ilk kez izin verdiği 2022’den bu yana, büyük dil modellerine yönelik bir ilgi patlaması yaşandı. Bir araştırma şirketi olan Pitchbook’un verileri, diğer girişimlere sağlanan fonlar düşülse bile, yapay zekâ girişimleri için küresel risk sermayesi fonlarının 2024 yılında %50’den fazla artarak 131,5 milyar dolara yükseldiğini gösteriyor. Bu paranın büyük bir kısmı yapay zekâ geliştirmeye yönelik yeni tekniklere aktarılıyor ve bu yeni teknikler önceden olduğu gibi verilere açıklama eklenmesine ihtiyaç duymuyor. Bir sosyal girişim olan Humans in the Loop’tan Iva Gumnishka, eski bilgisayarla görme ve doğal dil işleme müşterileri için düşük vasıflı açıklama yapan firmaların “geride kaldığını” söylüyor.
Açıklayıcılara hâlâ talep var, ancak yaptıkları iş değişti. İşletmeler yapay zekâyı kullanmaya başladıkça, daha küçük uzmanlaşmış modeller oluşturuyor ve yardımcı olacak yüksek eğitimli açıklayıcılar arıyorlar. Açıklama iş ilanlarının doktora veya kodlama ve bilim becerileri gerektirmesi oldukça yaygın hale geldi. Araştırmacılar artık yapay zekâyı daha çok dilli hale getirmeye çalıştığından, İngilizce dışındaki dilleri konuşan açıklayıcılara olan talep de artıyor. iMerit’te tıbbi yapay zekâ projeleri üzerinde çalışan bir diş hekimi olan Sushovan Das, açıklama işinin asla ortadan kalkmayacağını düşünüyor. “Bu dünya sürekli gelişiyor” diyor. “Bu yüzden yapay zekânın tekrar tekrar iyileştirilmesi gerekiyor.”
Yapay zekânın eğitiminde insanlar için yeni roller ortaya çıkıyor. Bir araştırma şirketi olan Epoch AI, eğitim için mevcut yüksek kalitede metin stokunun 2026 yılına kadar tükenebileceğini düşünüyor. Bazı yapay zekâ laboratuvarları, modellerin üzerinde eğitilebileceği metin parçaları ve kod satırları yazmaları için insanları işe alıyor. Diğerleri ise bilgisayar algoritmaları kullanılarak oluşturulan sentetik verileri satın alıyor ve bunları doğrulamak için insanları işe alıyor. Afrika’nın doğusunda faaliyet gösteren Sama’nın patronu Wendy Gonzalez, “Sentetik verilerin yine de iyi veriler olması gerekiyor” diyor.
Çalışanların bir diğer rolü de modellerden elde edilen çıktıları değerlendirmek ve bunların şekillendirilmesine yardımcı olmaktır. ChatGPT’nin önceki sohbet robotlarından daha iyi performans göstermesini sağlayan şey budur. Scale AI’dan Xiaote Zhu, yapay zekânın uzmanlar tarafından eğitilmesini kolaylaştırmak için 2023 yılında başlatılan firmasının Outlier platformunda yapılan açık uçlu görevlere bir örnek veriyor. Çalışanlara Maldivler tatili için bir güzergah öneren bir sohbet robotundan iki yanıt sunuluyor. Tercih ettikleri yanıtı seçmeleri, puanlamaları, yanıtın neden iyi veya kötü olduğunu açıklamaları ve ardından yanıtı iyileştirmek için yeniden yazmaları gerekiyor.
Bayan Zhu’nun örneği oldukça sade bir örnek. Bununla birlikte, yapay zekânın güvenli ve etik olmasını sağlamak için insan geri bildirimi de çok önemlidir. ChatGPT’nin 2022’de piyasaya sürülmesinden sonra yayınlanan bir belgede OpenAI, modelleri hakkında “niteliksel olarak araştırmak, karşıt olarak test etmek ve genel olarak geri bildirim sağlamak” için uzmanları işe aldığını söyledi. Bu sürecin sonunda model, insanları bir terörist grup olan El Kaide’ye katılmaya ikna etmeyi amaçlayan sosyal medya içerikleri yazma talepleri gibi belirli istemlere yanıt vermeyi reddetti.
Yuvadan Uçmak
Eğer yapay zekâ geliştiricilerinin istediği olsaydı, bu tür insan girdilerine hiç ihtiyaç duymazlardı. Araştırmalar, yapay zekânın geliştirilmesi için harcanan zamanın %80’inin veri çalışmalarına harcandığını gösteriyor. Bir yapay zekâ firması olan Databricks’ten Naveen Rao, tıpkı kendi çocuklarının yapmasını istediği gibi modellerin de kendi kendilerine öğrenmelerini istediğini söylüyor. “Kendi kendine yetebilen insanlar inşa etmek istiyorum” diyor. “Kendi meraklarına sahip olmalarını ve sorunları nasıl çözeceklerini bulmalarını istiyorum. Onları her adımda kaşıkla beslemek istemiyorum.”
Modellerin etiketlenmemiş verilerle beslenmesini içeren denetimsiz öğrenme ve karar verme sürecini iyileştirmek için deneme yanılma yöntemini kullanan pekiştirmeli öğrenme konusunda büyük bir heyecan var. Aralarında Google DeepMind’ın da bulunduğu yapay zekâ firmaları, makinelerini Go ve satranç gibi oyunlarda kazanmak üzere eğitmiş, kendi kendilerine karşı milyonlarca müsabaka oynamış ve hiçbir insan katkısı olmadan hangi stratejilerin işe yaradığını takip etmişlerdir. Ancak bu kendi kendine öğrenme yaklaşımı, en azından şimdilik, matematik ve bilim alanlarının dışında işe yaramıyor.
DeepSeek’in modelinin ucuzluğu ve verimliliği, her yerdeki teknoloji meraklılarını şaşırttı. Ancak DeepSeek’in yapay zekâyı insanlar yerine bilgisayarlar tarafından üretilen geri bildirimleri kullanarak eğitme girişiminden daha az etkilendiler. Model, açık uçlu sorulara cevap vermekte zorlanmış ve farklı dillerin karışımından oluşan bir dil üretmiştir. Bir başka yapay zekâ veri firması olan Prolific’in kurucu ortağı Phelim Bradley, “Go ve satrançtaki fark, istenen sonucun çok net olması: oyunu kazanmak” diyor. “Büyük dil modelleri daha karmaşık ve geniş kapsamlıdır, bu nedenle insanlar daha uzun süre döngüde kalacaktır.”
Birçok teknoloji meraklısı gibi Bay Bradley de yapay zekâ eğitimine daha az değil daha fazla insanın katılması gerektiğini düşünüyor. İşgücünde çeşitlilik önemlidir. ChatGPT birkaç yıl önce yayınlandığında, insanlar “delve” kelimesinin aşırı kullanıldığını fark ettiler. Bu sözcük, metnin bir bot tarafından yazıldığının açık bir işareti olan “YZimsi” olarak görülmeye başlandı. Aslında, modeli eğitmek için Afrika’daki açıklayıcılar işe alınmıştı ve “delve” kelimesi Afrika İngilizcesinde Amerikan ve İngiliz İngilizcesine göre daha yaygın olarak kullanılmaktadır. Çalışanların beceri ve bilgileri modellere aktarıldığı gibi, kelime dağarcıkları da aktarılmaktadır. Görünen o ki, çocuk yetiştirmek için bir köyden daha fazlası gerekiyor.
Not: Bu makale, Scale AI’nin işgücünün çoğunun Amerika ve Avrupa merkezli olduğu iddiasını yansıtacak şekilde değiştirilmiştir.
*Açıklama: Yapay zekânın, özellikle Makine Öğrenmesi yöntemlerinin eğitimi için veri kümesine anlamlı ve bilgilendirici etiketler ekleyerek algoritmaların verileri anlamasını ve işlemesini kolaylaştırma eylemidir. Böylece verilerin sınıflandırma, anlamlandırma, etiketleme ve açıklamalar ile sunulmasıdır. Bu işi açıklayıcılar yapıyor. (Ed. notu)
** Açıklama Geliri: Yapay zekâya verileri açıklama hizmeti sunmaktan elde edilen gelir. (Ed. notu)
Bu yazı The Economist’teki İngilizce orijinalinden Türkçeye T. Emre Kalaycı tarafından çevrilmiştir.