Bugün yapay zekâ sistemleri (LLM’ler), insan dilini işleme konusunda tarihte görülmemiş ölçekte bir başarı göstermektedir. Bu sistemler; metin üretebilmekte, sebep⎯sonuç ilişkisi kuruyor izlenimi oluşturabilmekte ve bu yetenekleriyle insan benzeri diyaloglar üretebilmektedir.
Hakan Emre Kartal
Günlük hayatta sıkça kullandığımız cümleleri düşünün. Bazı cümleler aynı görünse bile, bağlamına göre öfke, hayal kırıklığı, alay, endişe ya da rahatlama gibi anlamlara gelebilir. İnsan, bağlamın oluşturduğu bu farklı anlamları çok kısa sürelerde ayırt edebilir.
Bunu “Tamam. Öyle olsun!” cümlesiyle somutlaştırabiliriz:
Tartışma sonrası: kırılganlık
Şaka ortamı: alay
Uzlaşma anı: kabul
Çünkü insanlar yalnızca kelimeleri değerlendirmez; tonlamayı, geçmiş deneyimleri, ilişki biçimlerini, içinde bulunulan durumu ve gizli detayları da birlikte değerlendirir. İnsan için anlam yalnızca kelimelerin diziliminden, aralarındaki mantıksal ilişkiden değil; bağlamı oluşturan çok katmanlı bir yapıdan doğar.
Tarihsel kökenler: Beyni taklitten yapay öğrenmeye
Yapay zekâ çalışmalarının temelinde, insan beynini oluşturan sinir hücrelerinin ve onlardan oluşan sinir ağlarının çalışma prensiplerini modelleme düşüncesi yatmaktadır. Bu nedenle, modern yapay zekânın en baskın kolu, doğrudan bu biyolojik sinir sisteminden ilham almıştır.
1943 yılında Warren McCulloch ve Walter Pitts; biyolojik nöronları taklit eden ilk yapay sinir hücresi modelini geliştirdi. Bu model, girdileri belirli ağırlıklarla güçlendirip birleştirerek belirli bir eşik değerine göre “açık/kapalı” (1/0) şeklinde ikili çıktı üretebiliyordu. Böylece makinelerin yalnızca belirlenmiş katı kurallarla değil, sinirsel aktivasyonu taklit eden işlemsel yapılarla da çalışabileceği fikri doğmuş oldu.
1950’li ve 1960’lı yıllarda geliştirilen algılayıcı (perceptron) modelleri, yapay sistemlerinin girdi⎯çıktı arasındaki ilişkiyi deneyimleyerek öğrenebileceği düşüncesini pekiştirdi. Ancak bu ilk nesil modellerin, doğrusal olmayan ve iç içe geçmiş ilişkileri (örneğin XOR problemindeki “ya o⎯ya bu” mantığını) çözmekte yetersiz kaldığı gösterildi. Bu sınırlılık, yapay zekâ araştırmalarının bir süre sembolik kural temelli uzman sistemlere yönelmesine neden oldu.
1980’li yıllardan itibaren geri⎯yayılım (back⎯propagation) yapay öğrenme algoritmasının çok katmanlı ağlara başarıyla uygulanmasıyla birlikte yapay zekâ çalışmaları yeniden ivme kazandı. Artık sistemler önceden tanımlanmış kuralları uygulamıyor; büyük veri kümeleri içindeki gizli örüntüleri ve ağı oluşturan katmanlar arası ilişkileri de kendi kendine öğrenebiliyordu. Hesaplama gücünün katlanarak artması ve buna bağlı dijital verinin de katlanarak büyümesiyle birlikte süreç, 2010’lardan itibaren derin öğrenme (deep learning) ve büyük dil modellerine (Large Language Model⎯LLM’ler) evrildi.
Bugün yapay zekâ denilince akla gelen sistemler, bu tarihsel çizginin ileri ölçekli devamı niteliğindedir. Bu sistemler çok kısa sürelerde milyarlarca parametre, bir o kadar kelime veya örüntüler arası istatistiksel köprüler kuruyorlar ve saniyeler içerisinde şaşırtıcı derecede başarılı çıktılar üretiyorlar. Bu tarihsel gelişim bize şunu anlatıyor: Yapay zekâ, nicel olarak devasa bir ilerleme kaydetti. Ancak bu ilerleme temelde hesaplama kapasitesi iyileşmesiyle sınırlı kaldı. Model ne kadar büyük olursa olsun, öğrenilen şeyin özü hâlâ veri temsili olan örüntüler ve bu temsiller arasındaki istatistiksel köprüler, tahminler ve kalıplardan ibaret.
Anlam ve bağlam ilişkisi
Anlam, bir kelimenin ya da ifadenin yalnızca karşılığı değildir. İnsan için anlam; bağlam olarak ifade ettiğimiz, niyet, deneyim, ilişki biçimi, zamanlama ve içinde bulunulan durum gibi birçok değişkenin oluşturduğu çok katmanlı yapıyla birlikte oluşmaktadır.
Bağlam ise bir anlamın hangi koşullar altında ortaya çıktığını belirleyen ilişkisel çerçevedir. Bu çerçeve yalnızca cümlenin öncesi ve sonrasıyla ilgili değildir; iletişim halindeki kişiler arasındaki ilişki düzeyi, toplumsal durum, kültürel yapı, duygusal atmosfer, çevresel koşullar ve buna benzer pek çok değişken de bağlamın birer parçasıdır.
Bu nedenle insanlar çoğu zaman eksik, örtük, belirsiz veya dizilimi bozuk ifadeleri bile doğru biçimde anlayabilirler. Çünkü insan beyni dili yalnızca kelimeler üzerinden değil, bağlam içindeki ilişkiler ağı üzerinden de değerlendirir.
Bağlam örüntüsü ile bağlam aynı şey değildir
Yapay zekâ sistemleri, özellikle veri içindeki örüntüleri yüksek hız ve doğrulukta tanıma konusunda oldukça başarılıdır. Büyük dil modelleri çoğu zaman bağlamı anlayan sistemler gibi sunulurlar. Oysa burada önemli bir ayrım vardır: Bu sistemlerin işlediği şey çoğunlukla bağlamın kendisi değil, metinden türetilen bağlamsal izler yani örüntüler ve bunlar arasındaki istatistiksel ilişkilerdir.
Kısacası; bu sistemler kelimelerin dansını, ritmini ve koreografisini öğrenmiştir; ancak o dansın yoğunluğunu, müziğin duygusunu veya ortamın sıcaklığını hissetmez.
Bağlam örüntüsünden kastedilen şey, bir bağlamın veri içinde tekrar eden dilsel ve ilişkisel izleridir. Elde edilen bağlam örüntüsünün geçmişte öğrenilmiş örüntülere olan istatistiksel yakınlığı, sonuç üretmede oldukça belirleyicidir. Bu yakınlık arttıkça sonuç kullanıcı açısından daha ikna edici olarak algılanmaktadır. Ancak bu süreçte ortaya çıkabilen bazı sorunlar, popüler olarak halüsinasyon adı verilen duruma yol açmaktadır.
Halüsinasyon mu yoksa uydurma mı?
İstatistiksel örüntü yakınlığı belirleme süreci sorunları, medya ve hatta teknik literatürde de sıklıkla halüsinasyon olarak adlandırılmaktadır. Oysa bu terim yanıltıcıdır. Makinelerin halüsinasyon görebilecekleri algıları yoktur. Olan şey aslında tam karşılığıyla uydurma sürecidir. Çünkü sistem doğruluk peşinde koşmaz; yalnızca istatistiksel olarak en yakın bağlama uygun görünen sonuçları uygun bir dizilişte üretmeye çalışır. Bu nedenle teknik ve eleştirel açıdan daha isabetli olan kavram uydurma veya istatistiksel kurgulama kavramıdır.
Özetle; büyük dil modelleri çoğu zaman “Bu durumda gerçekte ne doğrudur?” sorusundan çok “Bu metinden sonra gelmesi gereken en olası şey nedir?” sorusuna yanıt üretmektedir. Bu etkileyici bir mühendislik başarısı olsa da gerçek bir kavrayış anlamına gelmemektedir.
Örneğin modele hiç varolmamış bir akademik makale adı verdiğinizde, sistem bazen bu makale gerçekten varmış gibi yazar, dergi ve özet uydurabilir. Çünkü “akademik makale” bağlamı, eğitim verisinde belirli bir şablon ve kalıbı zorlar. Sistem gerçekliği doğrulamaz; sadece istatistiksel olarak en tutarlı bulduğu metin bloğunu tamamlar.
Benzer şekilde “Bu ilacı şu hastalık için kullanabilir miyim?” gibi bir soru, yalnızca metinsel örüntüler üzerinden güvenli biçimde yanıtlanamaz. Hastanın yaşı, kullandığı diğer ilaçlar, klinik geçmişi gibi değişkenler eksik olduğunda, model dilbilgisi kusursuz görünen ancak tıbben tehlikeli bir yanıt uydurabilir. Bu nedenle küresel sağlık otoriteleri ve düzenleyici çerçeveler (FDA, AB Yapay Zekâ Yasası, vb.) yapay zekâyı yalnızca denetimli bilgi aracı olarak sınırlandırmaktadır.
İşte bu uydurma olgusu, yüzeyde teknik bir hata gibi görünse de temelde anlam ve bağlam problemlerine işaret etmektedir. Hesaplama ile anlam üretme arasındaki ayrım da tam olarak burada görünür hale gelmektedir.
Sonuç
Bugün yapay zekâ sistemleri (LLM’ler), insan dilini işleme konusunda tarihte görülmemiş ölçekte bir başarı göstermektedir. Bu sistemler; metin üretebilmekte, sebep⎯sonuç ilişkisi kuruyor izlenimi oluşturabilmekte ve bu yetenekleriyle insan benzeri diyaloglar üretebilmektedir. Ancak tüm bu gelişmelere rağmen anlam probleminin tamamen çözüldüğünü söylemek güç görünmektedir.
Çünkü insan için anlam sadece kelime seçimleri ve dizilimlerinden ibaret olmadığı gibi istatistiksel ilişkilerden de oluşmaz. Anlam; bağlamı oluşturan niyet, deneyim, ilişki biçimi, çevresel koşullar vb. gibi çok katmanlı bir yapı içinde ortaya çıkar. Bugünkü gelişmiş yapay zekâ sistemleri ise çoğunlukla bu yapının kendisini değil, veri içinde tekrar eden örüntüsel izdüşümleri işlemektedir.
Belki de modern yapay zekâ tartışmalarındaki en temel problem, sistemlerin yeterince büyük olmamasından öte; anlam ve bağlamı temsil etme biçimlerinin hâlâ sınırlı olmasıdır.
Gelecekteki yapay zekâ araştırmalarının amacı yalnızca daha büyük modeller üretmek değil; anlamı, bağlamı ve ikisi arasındaki ilişkisel yapıları temsil edebilen yeni yaklaşımlar geliştirmek olabilir.
Kaynakça:
McCulloch W.S., Pitts W., “A Logical Calculus of Ideas Immanent in Nervous Activity”, Bull, Math. Biophys 5, 1943
Turing A., “Computing Machinery and Intelligence”, Mind. Vol. 59. No. 236, 1950
Rosenblatt F., “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”, Psychol, Rev. 65, 1958
Rosenblatt F., “Principles of Neurodynamics: Perceptrons and The Theory of Brain Mechanism”, Spartan, NY, 1962
Amari S.I., “A Theory of Adaptive Pattern Classification”, IEEE Transactions on Electronic Computers, EC-16:299-307, 1967
Minsky M.L., Papert S., “Perceptrons”, MIT Press, Cambridge 1969
Rumelhart D.E., McClelland J.L., the PDP Research Group, “Parallel Distributed Processing: Explorations in the Microstructure of Cognition”, The MIT Press, Cambridge, Massachusetts, London, England, 1986
Rumelhart D.E., Hinton G. & Williams R., “Learning Representations by Back-Propagating Errors”, Nature 323, 533-536 1986
Searle J., “Minds, Brains and Programs”, The Behavioral and Brain Sciences 3, 417-457, 1980
Bender E.M. et al., “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”, Institute for Experiential AI, Northeastern University, Sept 29, 2021
LeCun Y., Bengio Y., Hinton G., “Deep Learning”, Nature, 2015
Bengio Y., Courville A & Vincent P., “Representation Learning: A Review and New Perspectives”, arXiv:1206.5538v2, 18 October 2012

