VLM (Vision-Language Model) คืออะไร
VLM (Vision-Language Model) คือโมเดลปัญญาประดิษฐ์ที่สามารถ เข้าใจทั้งภาพ (Vision) และภาษา (Language) พร้อมกันได้ในระบบเดียว ซึ่งเข้าใจง่ายๆ VLM สามารถแปลงภาพเป็นภาษา และภาษาเป็นภาพได้
หลักคิดคือ Computer Vision + Natural Language Processing (NLP)
ความสมารถของ VLM
- อธิบายภาพ (Image Captioning) เมื่อเราใส่ภาพแล้วให้ AI บรรยายออกมาเป็นข้อความ ตัวอย่าง Clip
- ถาม-ตอบเกี่ยวกับภาพ (Visual Q&A) ค้นหาในภาพหรือกล้องได้
- วิเคราะห์เนื้อหาในภาพ สามารถตรวจจับวัตถุ (Object Detection) และอ่านตัวอักษรในภาพ (OCR) GPT-4V
- เชื่อมภาพกับคำสั่ง (Multimodal Reasoning)
การนำไปใช้งานจริง
- Smart Home (กล้อง + AI เข้าใจเหตุการณ์)
- Medical AI (วิเคราะห์ภาพ X-ray)
- Self-driving car
- ระบบความปลอดภัย (CCTV AI)
- E-commerce (ค้นหาสินค้าจากภาพ)
ความคิดเห็น
แสดงความคิดเห็น