คุณสามารถทําเงินได้ 400,000 ดอลลาร์โดยให้การเขียนโปรแกรม AI ทํางานได้หรือไม่?

robot
ดำเนินการเจนเนเรชั่นบทคัดย่อ

ผู้เขียน: Tan Zixin, head technology

ที่มาของภาพ: สร้างโดย Unbounded AI

โมเดลภาษาขนาดใหญ่ (LLM) กําลังเปลี่ยนแปลงวิธีการพัฒนาซอฟต์แวร์และไม่ว่า AI จะสามารถแทนที่โปรแกรมเมอร์ที่เป็นมนุษย์ในวงกว้างได้หรือไม่ได้กลายเป็นหัวข้อที่น่ากังวลอย่างยิ่งในอุตสาหกรรม

ในระยะเวลาสองปีเพียงแค่เท่านั้น โมเดล AI ขนาดใหญ่ได้พัฒนาจากการแก้ปัญหาพื้นฐานในวิทยาการคอมพิวเตอร์ไปจนถึงระดับที่สามารถเข้าร่วมการแข่งขันโปรแกรมมิ่งระดับนานาชาติกับมืออาชีพมนุษย์ เช่น OpenAI o1 ที่เคยเข้าแข่งขันในการแข่งขันโอลิมปิกสากลเพื่อวิทยาการข้อมูลปี 2024 (IOI) ในเงื่อนไขเดียวกันกับผู้เข้าแข่งขันมนุษย์ และได้รับเหรียญทองอย่างประทับใจ โดยแสดงให้เห็นถึงศักยภาพในการเขียนโปรแกรมที่มีประสิทธิภาพอย่างมาก

ในขณะเดียวกันอัตราการทําซ้ําของ AI ก็เร่งตัวขึ้นเช่นกัน บน SWE-Bench Verified ซึ่งเป็นเกณฑ์มาตรฐานสําหรับการประเมินการสร้างรหัส GPT-4o ได้คะแนน 33% ในเดือนสิงหาคม 2024 แต่เมื่อถึงเวลาที่รุ่น o3 รุ่นใหม่คะแนนเพิ่มขึ้นเป็นสองเท่าเป็น 72%

เพื่อวัดความสามารถของโมเดล AI ในโลกของซอฟต์แวร์เชิงวิศวกรรมอย่างเหมาะสมมากขึ้น วันนี้ OpenAI ได้เปิดตัว SWE-Lancer ซึ่งเป็นเกณฑ์การประเมินใหม่ ๆ ที่ครั้งแรกที่โมเดลได้ถูกเกี่ยวข้องกับมูลค่าเงิน

SWE-Lancerเป็นการทดสอบมาตรฐานที่มีกว่า 1400 งานวิศวกรรมซอฟต์แวร์อิสระจากแพลตฟอร์ม Upwork ซึ่งมีมูลค่ารางวัลรวมประมาณ 1 ล้านดอลลาร์ในโลกแห่งความเป็นจริง ให้ AI เขียนโปรแกรมได้เงินเท่าไร

คุณสมบัติ"สีสัน"ของมาตรฐานใหม่

ราคางานมาตรฐาน SWE-Lancer สะท้อนถึงมูลค่าตลาดที่แท้จริงและยิ่งงานยากขึ้นรางวัลก็จะยิ่งสูงขึ้นเท่านั้น

ซึ่งรวมถึงงานวิศวกรรมแบบสแตนด์อโลนและงานธุรการด้วยความสามารถในการเลือกระหว่างการใช้งานทางเทคนิคซึ่งเป็นเกณฑ์มาตรฐานไม่เพียง แต่สําหรับโปรแกรมเมอร์เท่านั้น แต่ยังรวมถึงทีมพัฒนาทั้งหมดรวมถึงสถาปนิกและผู้จัดการด้วย

เทียบกับมาตรฐานการทดสอบวิศวกรรมซอฟต์แวร์ก่อนหน้านี้ SWE-Lancer มีข้อได้เปรียบหลายประการ เช่น:

  1. งานทั้งหมด 1,488 งานแสดงถึงค่าตอบแทนที่แท้จริงที่นายจ้างจ่ายให้กับวิศวกรอิสระโดยให้การไล่ระดับความยากตามธรรมชาติที่กําหนดโดยตลาดตั้งแต่ $ 250 ถึง $ 32,000 ซึ่งค่อนข้างมาก

35%ของมูลค่างานเกิน 1000 ดอลลาร์ และ 34% ของมูลค่างานอยู่ระหว่าง 500 ดอลลาร์ถึง 1000 ดอลลาร์ กลุ่มงานนี้มีงานซอฟต์แวร์วิศวกรรม (SWE) ของสมาชิก (IC) มี 764 งาน มูลค่ารวม 41.4775 หมื่นดอลลาร์ และกลุ่มงานการจัดการ SWE มีงาน 724 งาน มูลค่ารวม 58.5225 หมื่นดอลลาร์

2、โลกของซอฟต์แวร์มากขนาดในโลกของความเป็นจริง ไม่เพียงแค่ต้องโค้ดและพัฒนาได้เท่านั้น ยังต้องมีความสามารถในการบริหารจัดการทางเทคโนโลยีอีกด้วย การทดสอบมาตรฐานนี้ใช้ข้อมูลจริงโลกเป็นพื้นฐานในการประเมินบทบาทของโมเดลในฐานะ “ผู้บริหารทางเทคโนโลยี” ใน SWE

3、มีความสามารถในการประเมินวิศวกรรมซอฟต์แวร์ระดับสูง SWE-Lancer แทนโลกของวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง โดยเพราะภารกิจมาจากแพลตฟอร์มที่มีผู้ใช้จริงกว่าล้านคน

ภารกิจที่นี้เกี่ยวข้องกับการพัฒนาวิศวกรรมที่เกี่ยวข้องกับการเคลื่อนที่และเว็บ การโต้ตอบกับ API, เบราว์เซอร์ และแอปพลิเคชันภายนอก, และการตรวจสอบและทำซ้ำกับปัญหาที่ซับซ้อน

例如,มีงานบางประการที่ต้องใช้เงิน 250 ดอลลาร์เพื่อเพิ่มความเชื่อถือ (แก้ปัญหาการเรียกใช้ API สองครั้ง) 1000 ดอลลาร์เพื่อแก้ไขช่องโหว่ (แก้ไขปัญหาความแตกต่างในการอนุญาต) และ 16,000 ดอลลาร์เพื่อให้บริการใหม่ (เพิ่มการเล่นวิดีโอในแอปฯภายในบนเว็บไซต์ iOS, Android และเดสก์ท็อป)

4、ความหลากหลายของพื้นที่ 74% ของงาน IC SWE และ 76% ของงาน SWE การจัดการ มีความเกี่ยวข้องกับตรรกะการใช้งาน ในขณะที่ 17% ของงาน IC SWE และ 18% ของงาน SWE การจัดการ มีความเกี่ยวข้องกับการพัฒนา UI/UX

ในแง่ของความยากของงานงานที่เลือกโดย SWE-Lancer นั้นท้าทายมากและงานในชุดข้อมูลโอเพ่นซอร์สใช้เวลาเฉลี่ย 26 วันในการแก้ปัญหาบน Github

นอกจากนี้ OpenAI รายงานว่าการเก็บรวบรวมข้อมูลเป็นไปอย่างไม่คำนึงถึงสิ่งที่ไม่เป็นฝ่าย พวกเขาได้เลือกตัวอย่างงานที่แทนที่บน Upwork และจ้างวิศวกรซอฟต์แวร์มืออาชีพ 100 คนเพื่อเขียนและตรวจสอบการทดสอบจากด้านหลังสู่ด้านสำหรับงานทั้งหมด

ความสามารถในการทำเงินของการเข้ารหัส AI PK

แม้ว่ามีนักวิทยาศาสตร์ทางเทคโนโลยีหลายคนกำลังประชาสัมพันธ์ว่า AI สามารถแทนที่วิศวกรระดับต่ำได้ แต่ว่า ว่า บริษัทสามารถใช้ LLM แทนวิศวกรซอฟต์แวร์ของมนุษย์ได้อย่างสมบูรณ์หรือไม่ ยังต้องมีคำถามใหญ่อยู่

ผลการทดสอบครั้งแรกแสดงให้เห็นว่า ในชุดข้อมูล SWE-Lancer ทั้งหมด โมเดลผู้เข้าแข่งขันระดับทอง AI ที่ถูกทดสอบในปัจจุบันมีรายได้น้อยกว่า฿ ของผลรวมที่เป็นไปได้

โดยรวมแล้ว ผลงานของโมเดลทั้งหมดในงานการจัดการ SWE จะดีกว่างาน IC SWE และงาน IC SWE ยังไม่ได้ถูกโมเดล AI เอาชนะอย่างเต็มที่ โมเดลที่ทดสอบอยู่ในปัจจุบันที่ดีที่สุดคือ Claude 3.5 Sonnet ของ Anthropic คู่แข่งของ OpenAI

ในงาน IC SWE โมเดลทั้งหมดมีอัตราผ่านและอัตรากำไรต่ำกว่า 30% ในงานการจัดการ SWE โมเดล Claude 3.5 Sonnet ที่ดีที่สุดมีคะแนน 45%

Claude 3.5 Sonnet แสดงประสิทธิภาพที่แข็งแกร่งทั้งงานการจัดการ IC SWE และ SWE ซึ่งมีประสิทธิภาพเหนือกว่าโมเดล o1 ที่มีประสิทธิภาพดีที่สุดเป็นอันดับสองโดย 9.7% สําหรับงาน IC SWE และ 3.4% สําหรับงานการจัดการ SWE

หากเปลี่ยนเป็นรายได้ Claude 3.5 Sonnet ให้ผลลัพธ์ที่ดีที่สุดโดยมียอดรวมรายได้กว่า 400,000 ดอลลาร์ในชุดข้อมูลทั้งหมด

สิ่งที่น่าสนใจคือปริมาณการคำนวณอย่างสูงจะช่วยให้ "AI ทำกำไร" ได้มาก

ในงาน IC SWE ผู้วิจัยได้ทำการทดลองกับโมเดล o1 ที่ใช้เครื่องมือการคิดค้นลึก พบว่าประสิทธิภาพในการคิดค้นมีผลลัพธ์ที่ดีขึ้น เช่น อัตราผ่านครั้งละเพิ่มขึ้นจาก 9.3% ไปเป็น 16.5% รายได้ก็เพิ่มขึ้นจาก 16,000 ดอลลาร์สหรัฐ ไปเป็น 29,000 ดอลลาร์สหรัฐ และอัตราผลตอบแทนก็เพิ่มขึ้นจาก 6.8% ไปเป็น 12.1%

นักวิจัยสรุปว่าโมเดลที่ดีที่สุดClaude 3.5 Sonnet แม้จะแก้ปัญหา IC SWE ได้ถึง 26.2% แต่ส่วนใหญ่ของวิธีการที่เหลือยังมีข้อผิดพลาด จำเป็นต้องมีงานปรับปรุงอีกมากถึงจะสามารถใช้งานได้อย่างเชื่อถือได้ ซึ่งต่อมาคือ o1 และ GPT-4o และอัตราการสำเร็จครั้งละครั้งของงานการจัดการมักจะมากกว่าการสำเร็จครั้งละครั้งของงาน IC SWE อย่างน้อยสองเท่าขึ้นไป

นอกจากนี้ยังหมายความว่าแม้ว่าแนวคิดของตัวแทน AI ที่เข้ามาแทนที่วิศวกรซอฟต์แวร์ของมนุษย์จะได้รับการยกย่องอย่างมาก แต่ บริษัท ต่างๆยังคงต้องคิดให้รอบคอบเกี่ยวกับวิธีที่โมเดล AI สามารถแก้ปัญหาการเข้ารหัส "ระดับต่ํา" ได้ แต่ไม่ใช่วิศวกรซอฟต์แวร์ "ระดับต่ํา" เพราะพวกเขาไม่เข้าใจว่าทําไมข้อผิดพลาดของโค้ดบางอย่างจึงมีอยู่และยังคงทําผิดพลาดเพิ่มเติม

โครงสร้างการประเมินปัจจุบันยังไม่รองรับการป้อนข้อมูลแบบหลายโหมด นอกจากนี้ นักวิจัยยังไม่ได้ประเมิน "อัตรากำไรขาดทุน" ตัวอย่างเช่นเมื่อเสร็จสิ้นงาน การเปรียบเทียบค่าตอบแทนที่จ่ายให้กับคนทำงานอิสระกับค่าใช้จ่ายในการใช้ API จะเป็นจุดประสงค์ที่สำคัญในการปรับปรุงขั้นตอนต่อไปของเกณฑ์นี้

เป็นนักพัฒนาซอฟต์แวร์ที่ได้รับการเสริมความสามารถด้วย AI

จากจุดปัจจุบันเท่าที่เห็น AI จะต้องเดินอีกหลายกิโลเมตรเพื่อจะแทนที่นักพัฒนาโปรแกรมมนุษย์ หลังจากที่พัฒนาโปรเจควิศวกรรมซอฟต์แวร์ ไม่ได้ง่ายแค่การสร้างโค้ดตามคำสั่ง

ตัวอย่างเช่น นักพัฒนาโปรแกรมมักจะพบกับปัญหาความต้องการของลูกค้าที่ซับซ้อนมาก ๆ และแยกแยะ ซึ่งต้องการความเข้าใจที่ลึกซึ้งในหลักการเทคโนโลยีต่าง ๆ ตลอดจนตรรกะธุรกิจและโครงสร้างระบบ ในขณะที่นักพัฒนาโปรแกรมมนุษย์สามารถพิจารณารวมถึงปัจจัยต่าง ๆ เช่นความขยายของระบบในอนาคต ความสามารถในการบำรุงรักษาและประสิทธิภาพ ของระบบอย่างละเอียด แต่ AI อาจมีความยากที่จะทำการวิเคราะห์และตัดสินใจอย่างครอบคลุม

นอกจากนี้ การเขียนโปรแกรมไม่ใช่เพียงแค่การทำให้ตรรกะที่มีอยู่เป็นจริง ยังต้องใช้จินตนาการและความคิดนวัตกรรมอย่างมาก นักพัฒนาโปรแกรมต้องคิดเชิงคิดวิธีการใหม่ ออกแบบอัลกอริทึมใหม่ ออกแบบอินเตอร์เฟซซอฟต์แวร์ที่เป็นเอกลักษณ์และวิธีการโต้ตอบอื่น ๆ ที่แตกต่างนี้เป็นความคิดที่แท้จริงและคำตอบที่ใหม่แห่ง AI

โปรแกรมเมอร์มักจะต้องสื่อสารและทํางานร่วมกับสมาชิกในทีมลูกค้าและผู้มีส่วนได้ส่วนเสียอื่น ๆ เข้าใจความต้องการและความสําเร็จของทุกฝ่ายแสดงความคิดเห็นและทํางานร่วมกับผู้อื่นในโครงการ

อุตสาหกรรมการพัฒนาซอฟต์แวร์ก็ต้องปฏิบัติตามกฎหมายและข้อกำหนดต่างๆ เช่น ทรัพย์สินทางปัญญา การคุ้มครองข้อมูล และใบอนุญาตซอฟต์แวร์ ปัญหาที่เกิดขึ้นคือ ปัญญาประดิษฐ์อาจจะมีความยากที่จะเข้าใจและปฏิบัติตามข้อกำหนดกฎหมายเหล่านี้ในทางสมบูรณ์ ซึ่งอาจเป็นสาเหตุให้เกิดความเสี่ยงทางกฎหมายหรือข้อพิพาท

ในระยะยาวเท่านั้น AI ยังคงมีความเป็นไปได้ที่จะแทนที่งานของนักพัฒนาโปรแกรม แต่ในระยะสั้น 'นักพัฒนาโปรแกรมเสริม AI' เท่านั้นที่เป็นไปได้มาก การเรียนรู้การใช้เครื่องมือ AI ล่าสุดเป็นหนึ่งในทักษะหลักของนักพัฒนาโปรแกรมที่ยอดเยี่ยม

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • 1
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด