Anthropic ประกาศความก้าวหน้าครั้งสำคัญของ AI ชั้นนำอย่าง Claude ด้วยการเปิดตัว Claude 3.5 Sonnet เวอร์ชันอัปเกรดและ Claude 3.5 Haiku รุ่นใหม่ พร้อมความสามารถพิเศษในการใช้งานคอมพิวเตอร์เสมือนมนุษย์จริง นับเป็นก้าวสำคัญของวงการ AI ที่จะเปลี่ยนแปลงวิธีการทำงานร่วมกันระหว่างมนุษย์และปัญญาประดิษฐ์
การอัปเกรดครั้งนี้ของ Claude 3.5 Sonnet มาพร้อมกับการพัฒนาที่ครอบคลุมทุกด้าน โดยเฉพาะอย่างยิ่งความสามารถด้านการเขียนโค้ด ซึ่งทำคะแนนในการทดสอบ SWE-bench Verified (การทดสอบความสามารถในการเขียนโค้ดที่ได้รับการยืนยัน) เพิ่มขึ้นจาก 33.4% เป็น 49.0% สูงกว่าโมเดล AI ที่มีอยู่ในตลาดทั้งหมด รวมถึง OpenAI o1-preview นอกจากนี้ ยังมีการพัฒนาประสิทธิภาพในการทดสอบ TAU-bench ซึ่งเป็นการทดสอบการใช้เครื่องมือ โดยเพิ่มขึ้นจาก 62.6% เป็น 69.2% ในด้านค้าปลีก และจาก 36.0% เป็น 46.0% ในด้านการบิน
ไฮไลท์สำคัญของการอัปเดตครั้งนี้คือฟีเจอร์ “computer use” ที่เปิดให้ทดลองใช้งานในรูปแบบ public beta ซึ่งช่วยให้ Claude สามารถใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ ทั้งการมองหน้าจอ เลื่อนเมาส์ คลิกปุ่ม และพิมพ์ข้อความ นับเป็น AI รุ่นแรกที่มีความสามารถนี้ ในการทดสอบบน OSWorld ซึ่งประเมินความสามารถของ AI ในการใช้คอมพิวเตอร์เหมือนมนุษย์ Claude3.5 Sonnet ทำคะแนนได้ 14.9% ในหมวดการดูภาพหน้าจอเพียงอย่างเดียว สูงกว่าระบบ AI อื่นที่ทำได้ 7.8% และเมื่อให้เวลาในการทำงานมากขึ้น สามารถทำคะแนนได้สูงถึง 22.0%
บริษัทชั้นนำอย่าง Asana, Canva, Cognition, DoorDash, Replit และ The Browser Company ได้เริ่มทดลองใช้งานความสามารถใหม่นี้แล้ว โดย Replit นำไปใช้ในการพัฒนาฟีเจอร์สำหรับ Replit Agent ที่ช่วยประเมินแอปพลิเคชันระหว่างการพัฒนา ขณะที่ GitLab พบว่าโมเดลใหม่นี้มีความสามารถในการให้เหตุผลที่ดีขึ้นถึง 10% ในการใช้งานด้าน DevSecOps โดยไม่มีความล่าช้าเพิ่มขึ้น
สำหรับ Claude 3.5 Haiku โมเดลใหม่ที่จะเปิดตัวในเดือนนี้ นับเป็นการพัฒนาที่น่าสนใจ ด้วยความเร็วในการประมวลผลที่สูงและราคาที่เข้าถึงได้ โดยสามารถทำคะแนน SWE-bench Verified ได้ถึง 40.6% ซึ่งสูงกว่า Claude 3.5 Sonnet รุ่นแรกและ GPT-4o โมเดลนี้จะเปิดให้ใช้งานผ่าน API โดยตรง รวมถึงบน Amazon Bedrock และ Google Cloud’s Vertex AI โดยเริ่มต้นจะรองรับเฉพาะข้อความก่อน และจะเพิ่มความสามารถในการรับข้อมูลภาพในภายหลัง
แม้ว่าความสามารถในการใช้งานคอมพิวเตอร์จะยังอยู่ในช่วงทดลอง และอาจมีข้อจำกัดในบางการใช้งาน เช่น การเลื่อนหน้าจอ ลาก และซูม แต่ Anthropic คาดว่าจะมีการพัฒนาอย่างรวดเร็วในอีกไม่กี่เดือนข้างหน้า บริษัทยังได้พัฒนาระบบตรวจจับใหม่เพื่อระบุการใช้งานคอมพิวเตอร์และตรวจสอบความเสี่ยงที่อาจเกิดขึ้น เช่น สแปม การเผยแพร่ข้อมูลเท็จ หรือการฉ้อโกง เพื่อส่งเสริมการใช้งานเทคโนโลยีนี้อย่างปลอดภัย
ข้อมูลจาก Anthropic
ติดตามข่าวสาร อัปเดตเทคโนโลยี รีวิวของใหม่ก่อนใคร ได้ทาง www.techoffside.com และ Google News
ช่องทางโซลเชียล Facebook, Instagram, YouTube และ TikTok