Gemini Video Upload

Gemini จะสามารถวิเคราะห์เนื้อหาจากวิดีโอที่ผู้ใช้อัปโหลดได้โดยตรง

นักปล่อยข่าวหลุดค้นพบโค้ดใหม่ในแอปพลิเคชัน Google เวอร์ชันเบต้าล่าสุด ที่เผยให้เห็นว่า Gemini กำลังพัฒนาฟีเจอร์ใหม่ ให้ผู้ใช้สามารถอัปโหลดไฟล์วิดีโอจากอุปกรณ์ของตัวเองได้โดยตรงเพื่อการวิเคราะห์ด้วย AI โดยไม่ต้องผ่านการแชร์ URL

การค้นพบนี้แสดงให้เห็นถึงการพัฒนาต่อยอดจากความสามารถเดิมของ Gemini ที่เคยให้ผู้ใช้แชร์วิดีโอผ่าน URL จาก YouTube และแพลตฟอร์มอื่นๆ เท่านั้น

จากการแกะโค้ดแอป Google เวอร์ชันเบต้าล่าสุด นักปล่อยข่าวหลุดพบส่วนของโค้ดที่อธิบายวิธีการอัปโหลดและประมวลผลไฟล์วิดีโอโดยตรง ซึ่งจะช่วยลดข้อจำกัดที่ต้องมีวิดีโออยู่บนแพลตฟอร์มออนไลน์ก่อน โค้ดที่ค้นพบระบุว่าผู้ใช้จะสามารถส่งไฟล์วิดีโอเข้าไปในระบบโดยการลากและวางไฟล์ หรือเลือกไฟล์จากอุปกรณ์ของตนเองได้

นอกจากนี้ ยังพบรายละเอียดเกี่ยวกับวิธีการประมวลผลวิดีโอเมื่ออัปโหลดเสร็จสิ้น โดยระบบ AI ของ Gemini จะวิเคราะห์เนื้อหาในวิดีโอเพื่อให้ผู้ใช้สามารถสอบถามเกี่ยวกับข้อมูล ขอสรุปเนื้อหา หรือร้องขอรายละเอียดเฉพาะส่วนที่ต้องการทราบได้

จากข้อมูลในโค้ด ฟีเจอร์นี้จะรองรับไฟล์วิดีโอหลากหลายรูปแบบ แต่อาจมีข้อจำกัดด้านขนาดไฟล์และความยาวของวิดีโอ ซึ่งรายละเอียดเฉพาะอาจเปลี่ยนแปลงได้ก่อนการเปิดตัวอย่างเป็นทางการ

จากการวิเคราะห์โค้ดและฟังก์ชันที่ค้นพบ คาดว่าการวิเคราะห์วิดีโอด้วย AI นี้จะมีประโยชน์หลากหลายรูปแบบ บุคลากรทางการศึกษาจะสามารถใช้ฟีเจอร์นี้เพื่อวิเคราะห์วิดีโอการสอน นักธุรกิจจะสามารถสรุปการประชุมที่บันทึกไว้ ในขณะที่นักสร้างคอนเทนต์จะสามารถวิเคราะห์ผลงานของตนเองหรือค้นหาข้อมูลจากวิดีโอต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

ความสามารถในการอัปโหลดวิดีโอโดยตรงนี้คาดว่าจะช่วยเพิ่มความเป็นส่วนตัวและความปลอดภัยของข้อมูล เนื่องจากผู้ใช้ไม่จำเป็นต้องอัปโหลดวิดีโอไปยังแพลตฟอร์มสาธารณะก่อน โดยเฉพาะกับวิดีโอที่มีข้อมูลส่วนตัวหรือข้อมูลที่มีความละเอียดอ่อน

นอกจากนี้ จากส่วนของโค้ดที่เกี่ยวข้องกับการประมวลผล พบว่า Google น่าจะได้ปรับปรุงความแม่นยำในการตรวจจับและวิเคราะห์วัตถุ เสียง และข้อความในวิดีโอ ซึ่งจะทำให้ Gemini สามารถเข้าใจบริบทและเนื้อหาของวิดีโอได้ดียิ่งขึ้น

ระบบวิเคราะห์วิดีโอของ Gemini ที่กำลังพัฒนาจะใช้เทคโนโลยีการประมวลผลภาพและเสียงขั้นสูง โดยใช้โมเดล AI แบบ multimodal ที่สามารถประมวลผลข้อมูลหลายรูปแบบพร้อมกัน ทั้งภาพเคลื่อนไหว เสียง และข้อความ

มีการอ้างอิงถึงการใช้เทคโนโลยี Computer Vision เพื่อให้ระบบสามารถระบุวัตถุ บุคคล และการกระทำในวิดีโอ ควบคู่กับเทคโนโลยีการประมวลผลภาษาธรรมชาติ (NLP) ที่จะช่วยให้ระบบเข้าใจบทสนทนาและข้อความที่ปรากฏในวิดีโอ

จากรายละเอียดในโค้ด คาดว่าระบบนี้จะประมวลผลวิดีโอด้วยโมเดล AI ที่ได้รับการฝึกฝนด้วยข้อมูลจำนวนมาก เพื่อให้สามารถเข้าใจบริบทและความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ในวิดีโอได้อย่างแม่นยำ

ข้อมูลจาก : Android Authority

ติดตามข่าวสาร อัปเดตเทคโนโลยี รีวิวของใหม่ก่อนใคร ได้ทาง www.techoffside.com และ Google News
ช่องทางโซลเชียล Facebook, Instagram, YouTube และ TikTok

Online Content Manager with over 10 years of experience working in the news, technology, and telecom industries.