40 milyon dolar kazanmak için AI programlamasını işe koşmak mümkün mü?

robot
Abstract generation in progress

Yazar: Tan Zixin, baş teknoloji

Resim kaynağı: Sınırsız AI tarafından oluşturulmuştur

Büyük dil modeli (LLM), yazılım geliştirme şeklini değiştiriyor, yapay zeka şimdi insan programcıları büyük ölçüde değiştirebiliyor mu, bu endüstrinin dikkatle takip ettiği bir konu haline geldi.

Yapay zeka büyük modeller, kısa bir süre içinde temel bilgisayar bilim sorunlarını çözmekten, uluslararası programlama yarışmalarında insan uzmanlarla yarışacak seviyeye ulaşmıştır, örneğin OpenAI o1, aynı koşullarda insan yarışmacılarla birlikte 2024 Uluslararası Bilgi Olimpiyatı'na (IOI) katılmış ve altın madalya kazanarak güçlü programlama potansiyelini sergilemiştir.

Aynı zamanda, AI yineleme hızı da hızlanıyor. Kod oluşturma değerlendirmesi için kıyaslama olan SWE-Bench Verified'da GPT-4o, Ağustos 2024'te %33 puan aldı, ancak yeni nesil o3 modellerinde puan iki katına çıkarak %72'ye ulaştı.

Yapay zeka modellerinin yazılım mühendisliği yeteneklerini gerçek dünyada daha iyi ölçmek için bugün OpenAI açık kaynaklı, model performansını ilk kez parasal değere bağlayan yeni bir değerlendirme ölçütü olan SWE-Lancer'ı piyasaya sürdü.

SWE-Lancer, Upwork platformundan 1.400'den fazla serbest yazılım mühendisliği görevinin bir ölçütüdür ve toplam gerçek dünya tazminat değeri yaklaşık 1 milyon ABD dolarıdır.

Yeni kıyaslamanın "özellikleri"

SWE-Lancer temel görev fiyatı, piyasa değerini yansıtır; görev ne kadar zor olursa, ödül o kadar yüksek olur.

Burada hem bağımsız mühendislik görevleri hem de yönetim görevleri bulunmaktadır, teknik uygulama planları arasından seçim yapılabilir, bu standart sadece yazılımcılar için değil, aynı zamanda mimarlar ve yöneticiler de dahil olmak üzere tüm geliştirme ekibi için geçerlidir.

SWE-Lancer, önceki yazılım mühendisliği test standartlarına göre birçok avantaja sahiptir, örneğin:

  1. Tüm 1488 görev, serbest mühendislere ödenen gerçek ödemeyi temsil eder, doğal ve piyasa tarafından belirlenen zorluk seviyelerini sunar, ödemeler 250 ABD dolarından 32.000 ABD dolarına kadar değişmektedir, oldukça dikkate değerdir.

%35'i 1000 doların üzerinde olan görevlerin, %34'ü 500 ila 1000 dolar arasındadır. Bireysel Katılımcılar (IC) Yazılım Mühendisliği (SWE) görev seti 764 görev içerir ve toplam değeri 41.4775 milyon dolar; SWE yönetim görev seti ise 724 görev içerir ve toplam değeri 58.5225 milyon dolar.

  1. Gerçek dünyada büyük ölçekli yazılım mühendisliği, yalnızca belirli bir kodun geliştirilmesini gerektirmekle kalmaz, aynı zamanda teknolojiyi bir bütün olarak yönetme becerisine de sahip olması gerekir ve kıyaslama, SWE'nin "teknik direktörü" rolü olarak hareket etmek için gerçek dünya veri değerlendirme modelini kullanır.

3、Yüksek seviye tam yığın mühendislik değerlendirme yeteneğine sahip olmalıdır。SWE-Lancer, görevlerinin yüz milyonlarca gerçek kullanıcıya sahip platformlardan geldiği için gerçek dünya yazılım mühendisliğini temsil eder。

Görevler arasında, mühendislik geliştirme konusunda mobil ve web platformlarının yanı sıra API'ler, tarayıcılar ve dış uygulamalarla etkileşim, karmaşık sorunların doğrulama ve yeniden üretimi yer almaktadır.

Örneğin, bazı görevlerin güvenilirliği artırmak için 250 dolar harcamak (çift tetiklemeli API çağrısı sorununu gidermek), açıkları gidermek için 1000 dolar (izin farklılığı sorununu çözmek) ve yeni özellikleri etkinleştirmek için 16.000 dolar (web, iOS, Android ve masaüstü uygulama içi video oynatma desteği ekleme vb.).

  1. Alanların çeşitliliği. IC SWE görevlerinin %74'ü ve SWE yönetim görevlerinin %76'sı uygulama mantığını içerirken, IC SWE görevlerinin %17'si ve SWE yönetim görevlerinin %18'i UI/UX geliştirmeyi içerir.

Görev zorluğu açısından, SWE-Lancer'ın seçtiği görevler son derece zorlayıcıdır. Ortalama olarak, açık kaynak veri setindeki görevlerin Github'da çözülmesi 26 gün sürmektedir.

Ayrıca, OpenAI, önyargısız veri toplama durumunu belirtir, onlar Upwork'ten temsilci görev örnekleri seçer ve tüm görevler için 100 profesyonel yazılım mühendisini işe alır ve uçtan uca testler yazma ve doğrulama yapar.

AI kodlaması para kazandırır PK

Birçok teknoloji devi, yapay zeka modellerinin "düşük seviyeli" mühendislerin yerini alabileceğini iddia etmeye devam etse de, şirketlerin insan yazılım mühendislerini LLM'lerle tamamen değiştirip değiştiremeyeceği konusunda hala büyük bir soru işareti var.

İlk test sonuçları, tam SWE-Lancer veri setinde test edilen AI altın oyuncu modellerinin şu anda potansiyel toplam getirisi 1 milyon doların çok altında olan gelir elde ettiğini gösteriyor.

Genel olarak, tüm modeller SWE yönetim görevlerinde IC SWE görevlerinden daha iyi performans gösterirken, IC SWE görevleri büyük ölçüde hala AI modelleri tarafından tam olarak üstesinden gelinmemiştir ve test edilen en iyi model, OpenAI'nin rakibi Anthropic tarafından geliştirilen Claude 3.5 Sonnet'tir.

IC SWE görevinde, tüm modellerin tek geçiş oranı ve verimi %30'dan azdı ve SWE yönetim görevinde en iyi performans gösteren model Claude 3.5 Sonnet puanı %45 idi.

Claude 3.5 Sonnet, IC SWE ve SWE yönetim görevlerinde güçlü performans sergiledi, IC SWE görevinde ikinci en iyi model olan o1'in performansını %9.7 artırdı, SWE yönetim görevinde ise %3.4 artırdı.

Gelire dönüştürüldüğünde, en iyi performans gösteren Claude 3.5 Sonnet, tam veri kümesinde toplam 400.000 dolardan fazla gelir elde etti.

Dikkat edilmesi gereken bir nokta, daha yüksek bir akıl yürütme hesaplama miktarının "AI para kazanma" için büyük fayda sağlayacağıdır.

IC SWE görevinde, derin çıkarım aracıyla etkinleştirilen o1 modeline yönelik yapılan deneyler, daha yüksek çıkarım hesaplama gücünün tek seferlik geçiş oranını %9.3'ten %16.5'e yükseltebildiğini ve geliri aynı şekilde 16,000 ABD dolarından 29,000 ABD dolarına çıkarabildiğini, getiri oranını da %6.8'den %12.1'e yükseltebildiğini göstermektedir.

Araştırmacılar, en iyi model Claude 3.5 Sonnet'in, IC SWE probleminin %26.2'sini çözmüş olsa da, kalan çoğu çözüm hala hatalı ve güvenilir bir dağıtımın gerçekleştirilmesi için birçok iyileştirme çalışmasına ihtiyaç duyulmaktadır. Bunu takiben o1, ardından GPT-4o gelmektedir ve genellikle yönetim görevinin tek seferlik geçme oranı, IC SWE görevinin tek seferlik geçme oranının iki katından fazladır.

Bu aynı zamanda, yapay zeka ajanlarının insan yazılım mühendislerini değiştirebileceği fikri çok popüler olsa da, şirketler hala dikkatli olmalıdır, AI modelleri bazı "düşük seviye" kodlama sorunlarını çözebilir, ancak hala "düşük seviye" yazılım mühendislerini değiştiremez çünkü kod hatalarının bazı nedenlerini anlayamazlar ve daha fazla yanlış yapmaya devam ederler.

Mevcut değerlendirme çerçevesi henüz çoklu mod girişini desteklememektedir, ayrıca araştırmacılar 'yatırım getirisi'ni değerlendirmedi, örneğin serbest çalışanlara ödenen ücretler ile API kullanım maliyetlerini karşılaştırarak bir görevi tamamladığında, bu tabanın bir sonraki iyileştirmesinin odak noktası olacaktır.

"Yapay zeka ile geliştirilmiş" bir programcı olun

Şimdilik, yapay zekanın insan programcıların yerini gerçekten alabilmesi için daha kat etmesi gereken uzun bir yol var, sonuçta, bir yazılım mühendisliği projesi geliştirmek, gerektiği kadar kod üretmek kadar basit değil.

Örneğin, yazılımcılar sıklıkla son derece karmaşık, soyut ve belirsiz müşteri gereksinimleri sorunlarıyla karşılaşabilirler, bu da çeşitli teknik prensipleri, iş mantığını ve sistem mimarisini derinlemesine anlamayı gerektirir; karmaşık yazılım mimarisini optimize ederken, insan yazılımcılar sistemin gelecekteki genişletilebilirlik, bakım kolaylığı ve performans gibi faktörleri bütünsel olarak değerlendirebilirken, yapay zeka muhtemelen kapsamlı bir analiz ve değerlendirme yapmada zorlanabilir.

Ayrıca, programlama yalnızca mevcut mantığı uygulamak değil, aynı zamanda büyük miktarda yaratıcılık ve yenilikçi düşünce gerektirir. Programcılar yeni algoritmalar tasarlamalı, benzersiz yazılım arayüzleri ve etkileşim yöntemleri gibi şeyler düşünmelidir; bu gerçekten yeni fikirler ve çözümler, yapay zekanın zayıf noktasıdır.

Yazılımcılar genellikle takım üyeleri, müşteriler ve diğer paydaşlarla iletişim kurmak ve işbirliği yapmak zorundadır, tarafların ihtiyaçlarını ve uygulanabilirlik derecesini anlamak, görüşlerini net bir şekilde ifade etmek ve diğerleriyle işbirliği yaparak projeyi tamamlamak. Ayrıca, insan yazılımcılar sürekli öğrenme ve yeni değişikliklere uyum sağlama yeteneğine sahiptir, yeni bilgi ve becerileri hızla öğrenip bunları pratik projelere uygulayabilirler, ancak başarılı bir AI modeli çeşitli eğitim testlerine ihtiyaç duyar.

Yazılım geliştirme endüstrisi aynı zamanda fikri mülkiyet, veri koruması ve yazılım lisansı gibi çeşitli yasal ve düzenleyici kısıtlamalardan etkilenmektedir, yapay zeka bu yasal gereksinimleri tamamen anlamak ve uymakta zorlanabilir, bu da hukuki riskler veya sorumluluk anlaşmazlıklarına yol açabilir.

Uzun vadede, AI teknolojisinin ilerlemesiyle yazılımcı pozisyonlarının yerini alabileceği hala var olsa da, kısa vadede, "AI destekli yazılımcılar" daha yaygındır ve en son AI araçlarını kullanma becerisini elinde bulundurmak, mükemmel bir yazılımcının temel becerilerinden biridir.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • 1
  • Share
Comment
0/400
No comments
  • Pin