Özellikle son birkaç yıldır ciddi bir yükselişte olan yapay zeka teknolojisi, alanında büyük bir rekabeti de beraberinde getiriyor. Büyük bir çıkış yaparak dünyanın gündemine oturan Çin yapay zeka modeli DeepSeek’in ardından, Çinli Alibaba şirketi de 29 Ocak 2025 tarihinde yeni yapay zeka modeli olan Qwen 2.5-Max’i piyasaya sürdü. Alibaba’nın bu hamlesi beklenmedikti. Duyurulan tarih, Çin geleneksel bayramı olan Ay Yeni Yılı’nın ilk günü olması sebebiyle çoğu Çinli çalışanın işte olmadığı bir gündü.
Beyza Şentürk
Özellikle son birkaç yıldır ciddi bir yükselişte olan yapay zeka teknolojisi, alanında büyük bir rekabeti de beraberinde getiriyor. Büyük bir çıkış yaparak dünyanın gündemine oturan Çin yapay zeka modeli DeepSeek’in ardından, Çinli Alibaba şirketi de 29 Ocak 2025 tarihinde yeni yapay zeka modeli olan Qwen 2.5-Max’i piyasaya sürdü. Alibaba’nın bu hamlesi beklenmedikti. Duyurulan tarih, Çin geleneksel bayramı olan Ay Yeni Yılı’nın ilk günü olması sebebiyle çoğu Çinli çalışanın işte olmadığı bir gündü.
Alibaba ekibi, Qwen 2.5-Max’in sohbet ve kodlama gibi farklı alanlarda kullanılabilecek performans özelliklerini (Benchmark) diğer son teknoloji yapay zeka modelleriyle karşılaştırdı. Karşılaştırma sonuçlarında Qwen 2.5-Max’in OpenAI’ın GPT-4o, DeepSeek V3, Meta AI’ın Llama ve Claude-3.5-Sonnet dil modellerinden daha iyi çalıştığını belirtti.
Alibaba ekibi, Qwen 2.5-Max’ in sohbet ve kodlama gibi farklı alanlarda kullanılabilecek performans özelliklerini (Benchmark) diğer son teknoloji yapay zeka modelleriyle karşılaştırdı. Karşılaştırma sonuçlarında Qwen 2.5-Max’in OpenAI’ın GPT-4o, DeepSeek V3, Meta AI’ın Llama ve Claude-3.5-Sonnet dil modellerinden daha iyi çalıştığını belirtti.
Karşılaştırılan performans kriterleri Arena-Hard, MMLU-Pro, GPQA-Diamond, LiveCodeBench ve LiveBench’i içermektedir.
Arena-Hard özelliği dil modelinin insanların kullanımına ne kadar uygun olduğunu gösterir. Qwen 2.5-Max bu kriterden 89.4 puan alarak DeepSeek V3’ ün 85.5 puanlık skorunu geride bırakıyor.
- Arena-Hard özelliği dil modelinin insanların kullanımına ne kadar uygun olduğunu gösterir. Qwen 2.5-Max bu kriterden 89.4 puan alarak DeepSeek V3’ ün 85.5 puanlık skorunu geride bırakıyor.
- MMLU-Pro, yapay zekanın birden fazla alanlardaki bilgi seviyesini ve akıl yürütme yeteneğini gösterir. Qwen 2.5-Max 76.1 puan alarak Claude-3.5-Sonnet’i 1.9 puan geriden takip ediyor fakat DeepSeek’ten 0.2 puan ileride.
- GPQA-Diamond, fizik, kimya ve biyoloji gibi alanlarda üst düzey akademik bilgiyi ölçmek için kullanılır. Qwen 2.5-Max 60.1 puan alarak DeepSeek’i geçiyor fakat Claude-3.5-Sonnet’in 5 puan gerisinde kalıyor.
- LiveCodeBench, yapay zekanın kod üretme, hata ayıklama ve kendini onarma becerisini gösterir. Qwen 2.5-Max buradan 38.7 puan alarak DeepSeek V3’ün 37.6 puanını geride bırakıyor.
- LiveBench ise yapay zekanın matematik, dil anlama ve akıl yürütme gibi gerçek dünya performanslarını gösterir. Qwen 2.5-Max 62.2 puan alarak DeepSeek V3’ün 60.5 puanını geçiyor.
- Qwen 2.5-Max’i tanıttıktan sonra hisselerinde %3 yükseliş olan Alibaba’nın da ortaya çıkışıyla Çin yapay zeka alanında ciddi bir rakip olmaya devam ediyor.
Alibaba, yapay zeka alanındaki çalışmalarına hız kesmeden devam ediyor. Yeni yapay zeka modelinin DeepSeek, OpenAI ve Meta Platforms gibi önde gelen şirketlerin modellerinden daha üstün performans sergilediği anlaşılıyor. Ayrıca, Alibaba’nın Qwen serisi, bireysel ve kurumsal kullanıcılara yönelik çok yönlü yapay zeka yetenekleri sunarak kapsamlı bir çözüm sağlıyor. Bu gelişmeler, Alibaba’nın yapay zeka teknolojilerinde ne denli iddialı olduğunu ve sektördeki rekabeti artırma çabasını gözler önüne seriyor.
Kaynaklar
https://qwenlm.github.io/blog/qwen2.5-max/
https://em360tech.com/tech-articles/what-is-qwen25-max
https://www.independent.co.uk/tech/deepseek-ai-alibaba-new-release-b2688237.html
https://www.investopedia.com/alibaba-rolls-out-ai-model-it-says-can-outperform-deepseek-and-openai-8782354?utm_source=chatgpt.com