Gemini จะสามารถวิเคราะห์เนื้อหาจากวิดีโอที่ผู้ใช้อัปโหลดได้โดยตรง

11 มีนาคม 2025

นักปล่อยข่าวหลุดค้นพบโค้ดใหม่ในแอปพลิเคชัน Google เวอร์ชันเบต้าล่าสุด ที่เผยให้เห็นว่า Gemini กำลังพัฒนาฟีเจอร์ใหม่ ให้ผู้ใช้สามารถอัปโหลดไฟล์วิดีโอจากอุปกรณ์ของตัวเองได้โดยตรงเพื่อการวิเคราะห์ด้วย AI โดยไม่ต้องผ่านการแชร์ URL

การค้นพบนี้แสดงให้เห็นถึงการพัฒนาต่อยอดจากความสามารถเดิมของ Gemini ที่เคยให้ผู้ใช้แชร์วิดีโอผ่าน URL จาก YouTube และแพลตฟอร์มอื่นๆ เท่านั้น

จากการแกะโค้ดแอป Google เวอร์ชันเบต้าล่าสุด นักปล่อยข่าวหลุดพบส่วนของโค้ดที่อธิบายวิธีการอัปโหลดและประมวลผลไฟล์วิดีโอโดยตรง ซึ่งจะช่วยลดข้อจำกัดที่ต้องมีวิดีโออยู่บนแพลตฟอร์มออนไลน์ก่อน โค้ดที่ค้นพบระบุว่าผู้ใช้จะสามารถส่งไฟล์วิดีโอเข้าไปในระบบโดยการลากและวางไฟล์ หรือเลือกไฟล์จากอุปกรณ์ของตนเองได้

นอกจากนี้ ยังพบรายละเอียดเกี่ยวกับวิธีการประมวลผลวิดีโอเมื่ออัปโหลดเสร็จสิ้น โดยระบบ AI ของ Gemini จะวิเคราะห์เนื้อหาในวิดีโอเพื่อให้ผู้ใช้สามารถสอบถามเกี่ยวกับข้อมูล ขอสรุปเนื้อหา หรือร้องขอรายละเอียดเฉพาะส่วนที่ต้องการทราบได้

จากข้อมูลในโค้ด ฟีเจอร์นี้จะรองรับไฟล์วิดีโอหลากหลายรูปแบบ แต่อาจมีข้อจำกัดด้านขนาดไฟล์และความยาวของวิดีโอ ซึ่งรายละเอียดเฉพาะอาจเปลี่ยนแปลงได้ก่อนการเปิดตัวอย่างเป็นทางการ

จากการวิเคราะห์โค้ดและฟังก์ชันที่ค้นพบ คาดว่าการวิเคราะห์วิดีโอด้วย AI นี้จะมีประโยชน์หลากหลายรูปแบบ บุคลากรทางการศึกษาจะสามารถใช้ฟีเจอร์นี้เพื่อวิเคราะห์วิดีโอการสอน นักธุรกิจจะสามารถสรุปการประชุมที่บันทึกไว้ ในขณะที่นักสร้างคอนเทนต์จะสามารถวิเคราะห์ผลงานของตนเองหรือค้นหาข้อมูลจากวิดีโอต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

ความสามารถในการอัปโหลดวิดีโอโดยตรงนี้คาดว่าจะช่วยเพิ่มความเป็นส่วนตัวและความปลอดภัยของข้อมูล เนื่องจากผู้ใช้ไม่จำเป็นต้องอัปโหลดวิดีโอไปยังแพลตฟอร์มสาธารณะก่อน โดยเฉพาะกับวิดีโอที่มีข้อมูลส่วนตัวหรือข้อมูลที่มีความละเอียดอ่อน

นอกจากนี้ จากส่วนของโค้ดที่เกี่ยวข้องกับการประมวลผล พบว่า Google น่าจะได้ปรับปรุงความแม่นยำในการตรวจจับและวิเคราะห์วัตถุ เสียง และข้อความในวิดีโอ ซึ่งจะทำให้ Gemini สามารถเข้าใจบริบทและเนื้อหาของวิดีโอได้ดียิ่งขึ้น

ระบบวิเคราะห์วิดีโอของ Gemini ที่กำลังพัฒนาจะใช้เทคโนโลยีการประมวลผลภาพและเสียงขั้นสูง โดยใช้โมเดล AI แบบ multimodal ที่สามารถประมวลผลข้อมูลหลายรูปแบบพร้อมกัน ทั้งภาพเคลื่อนไหว เสียง และข้อความ

มีการอ้างอิงถึงการใช้เทคโนโลยี Computer Vision เพื่อให้ระบบสามารถระบุวัตถุ บุคคล และการกระทำในวิดีโอ ควบคู่กับเทคโนโลยีการประมวลผลภาษาธรรมชาติ (NLP) ที่จะช่วยให้ระบบเข้าใจบทสนทนาและข้อความที่ปรากฏในวิดีโอ

จากรายละเอียดในโค้ด คาดว่าระบบนี้จะประมวลผลวิดีโอด้วยโมเดล AI ที่ได้รับการฝึกฝนด้วยข้อมูลจำนวนมาก เพื่อให้สามารถเข้าใจบริบทและความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ในวิดีโอได้อย่างแม่นยำ

ข้อมูลจาก : Android Authority

ติดตามข่าวสาร อัปเดตเทคโนโลยี รีวิวของใหม่ก่อนใคร ได้ทาง www.techoffside.com และ Google News
ช่องทางโซลเชียล Facebook, Instagram, YouTube และ TikTok