เทค
ค้นพบว่าวิสัยทัศน์คอมพิวเตอร์พัฒนาจากอัลกอริทึมที่สร้างขึ้นด้วยมือไปเป็น AI หลายโหมดได้อย่างไร และเหตุใดอนาคตของปัญญาประดิษฐ์ด้านภาพจึงกำลังก้าวไปสู่ขอบ

เวลาในการอ่าน
0 นาที
สารบัญ
ขยาย
เขียนโดย

Călin Ciobanu
ผู้ร่วมก่อตั้งและ CTO
คอมพิวเตอร์วิชันมีการพัฒนามากขึ้นในช่วง 15 ปีที่ผ่านมา มากกว่าในช่วง 50 ปีที่ผ่านมา
จากอัลกอริทึมที่สร้างขึ้นด้วยมือไปจนถึงโมเดล AI หลายโหมดที่สามารถตีความทั้งข้อความและภาพ เราได้ก้าวจากการสอนเครื่องจักรให้ "มองเห็น" ไปสู่การช่วยให้เครื่องจักร "เข้าใจ"
แต่วิวัฒนาการนี้ไม่ได้เป็นเส้นตรง มันเกิดขึ้นเป็นขั้นตอนที่ชัดเจน และการเข้าใจเส้นทางนี้ช่วยอธิบายว่าความก้าวหน้าครั้งต่อไปจะมาจากที่ใด
ก่อนจะมีการเรียนรู้เชิงลึก การมองเห็นด้วยคอมพิวเตอร์ถูกครอบงำด้วยคุณลักษณะที่สร้างขึ้นด้วยมือและฮิวริสติกทางคณิตศาสตร์
วิศวกรอาศัยอัลกอริทึมที่สามารถคาดเดาได้และอธิบายได้สำหรับการตรวจจับขอบ การแบ่งส่วน การจดจำรูปแบบทางสถิติ ซึ่งสามารถออกแบบและนำไปใช้ทางคณิตศาสตร์ได้
ระบบเหล่านี้ทำงานได้ แต่เฉพาะในสภาพแวดล้อมที่แคบเท่านั้น
พวกเขาขาดความสามารถในการปรับตัวและดิ้นรนที่จะสรุปผลเกินกว่าสิ่งที่พวกเขาได้รับการตั้งโปรแกรมไว้อย่างชัดเจนให้เห็น
2. การปฏิวัติเครือข่ายประสาท (2010–2020)
ทุกสิ่งทุกอย่างเปลี่ยนไปเมื่อประมาณปี 2012 ด้วย ImageNet และ AlexNet
นี่คือช่วงเวลาที่ Geoffrey Hinton, Fei-Fei Li และนักวิจัยคนอื่นๆ พิสูจน์ว่าเครือข่ายประสาทสามารถทำงานได้เหนือกว่าอัลกอริทึมแบบดั้งเดิมอย่างเห็นได้ชัด
โลกได้เปลี่ยนมาใช้ Convolutional Neural Networks (CNNs) ซึ่ง เป็นสถาปัตยกรรมที่น้ำหนักเบาและยืดหยุ่น ซึ่งสามารถตรวจจับ จดจำ และจัดหมวดหมู่ภาพต่างๆ ได้นับล้านหมวดหมู่
CNN นำวิสัยทัศน์คอมพิวเตอร์มาสู่โทรศัพท์ รถยนต์ และกล้องถ่ายภาพในร้านค้าปลีก ทำให้ AI ใช้งานได้จริง
จากนั้นก็มาถึง Transformers ในภาษาแรก ( Attention Is All You Need , 2017) จากนั้นก็เป็น Vision
หม้อแปลงสามารถทำงานได้เหนือกว่า CNN ในด้านความแม่นยำและความยืดหยุ่น แต่ต้องแลกมาด้วยต้นทุนที่ต่ำ เนื่องจากต้องใช้การคำนวณจำนวนมาก ใช้หน่วยความจำมาก และต้องอาศัย GPU ที่มีประสิทธิภาพ
แม้จะเป็นเช่นนั้น แต่พวกมันก็กลายมาเป็นกระดูกสันหลังของ Vision Transformers (ViTs) รุ่นล่าสุด ซึ่งขับเคลื่อนทุกอย่างตั้งแต่ยานยนต์ไร้คนขับไปจนถึงการวิเคราะห์ภาพขนาดใหญ่
ขอบเขตใหม่ล่าสุดผสมผสานวิสัยทัศน์และภาษาเข้าด้วยกัน
โมเดลมัลติโมดัล เหล่านี้สามารถดูภาพและอธิบายด้วยคำพูดหรือสร้างภาพใหม่จากข้อความได้
พวกมันมีความสามารถอันน่าทึ่ง แต่ก็หนักหน่วงอย่างไม่น่าเชื่อเช่นกัน การรันพวกมันในระดับขนาดใหญ่จำเป็นต้องใช้พลังประมวลผลมหาศาล ซึ่งนำเราไปสู่ทิศทางที่น่าตื่นเต้นที่สุดในปัจจุบัน นั่นคือ การประมวลผลแบบเอจ
ความท้าทายใหญ่ต่อไปไม่ได้อยู่ที่การทำให้ AI ฉลาดขึ้นอีกต่อไป แต่เป็นการทำให้มันเล็กลง
ในช่วงปีที่ผ่านมา Apple, Samsung, Meta และ Microsoft ต่างเผยแพร่เอกสารที่แสดงให้เห็นว่าสามารถบีบอัดโมเดลขนาดใหญ่เพื่อรันในโทรศัพท์ได้อย่างไร
นี่คือการเปลี่ยนแปลงที่ฉันพบว่าน่าตื่นเต้นที่สุด เพราะมันสอดคล้องโดยตรงกับสิ่งที่เรากำลังสร้างที่ OmniShelf
ที่ OmniShelf เราจัดการบีบอัดและเพิ่มประสิทธิภาพโมเดลคอมพิวเตอร์วิชันได้อย่างมีประสิทธิภาพจนสามารถทำงานบนฮาร์ดแวร์ที่เทียบเท่ากับ Samsung S7 ได้ โดยยังคงรักษา ความแม่นยำในการจดจำไว้ได้มากกว่า 95%
นั่นหมายถึงการสแกนผลิตภัณฑ์หลายร้อยรายการบนชั้นวางแบบเรียลไทม์ภายในเวลาไม่ถึง 15 วินาที
ผลกระทบต่อการค้าปลีกนั้นมีมหาศาล
เราสามารถส่งมอบข้อมูลเชิงลึกแบบเรียลไทม์ได้โดยไม่ต้องพึ่งพาการประมวลผลแบบคลาวด์ ซึ่งจะช่วยลดเวลาแฝง ต้นทุน และการถ่ายโอนข้อมูล ขณะเดียวกันก็ปรับปรุงความเป็นส่วนตัวและความยืดหยุ่นอีกด้วย
แม้จะมีความก้าวหน้ามากมายขนาดนี้ แต่ข้อจำกัดประการหนึ่งยังคงอยู่: คุณภาพข้อมูล
โมเดลคอมพิวเตอร์วิชัน ไม่ว่าจะก้าวหน้าแค่ไหน ก็ไม่มีสามัญสำนึก
การดำเนินการดังกล่าวใช้หลักความน่าจะเป็น ดังนั้นหากข้อมูลมีความลำเอียงหรือมีคุณภาพต่ำ ผลลัพธ์ก็จะลำเอียงตามไปด้วย
ด้วยเหตุนี้ที่ OmniShelf เราจึงไม่ได้มุ่งเน้นแค่สถาปัตยกรรมโมเดลเท่านั้น แต่ยังมุ่งเน้นไปที่ ไพพ์ไลน์ข้อมูลคุณภาพสูงเฉพาะโดเมน ด้วย เพราะยิ่งข้อมูลฉลาดขึ้น AI ก็ยิ่งฉลาดขึ้น
เรากำลังก้าวเข้าสู่ยุคที่ AI ไม่เพียงแต่มีอยู่ในคลาวด์เท่านั้น แต่ยังอยู่ในอุปกรณ์ต่างๆ รอบตัวเราด้วย
วิสัยทัศน์คอมพิวเตอร์กำลังมีการกระจายตัว มีประสิทธิภาพ และตระหนักถึงบริบท
สำหรับฉัน นั่นคือสิ่งที่ทำให้สาขานี้มีความน่าสนใจมาก: ในที่สุดเราก็มาถึงจุดที่เครื่องจักรสามารถ "มองเห็น" ได้เร็วที่สุดเท่าที่จะทำได้ และยิ่งไปกว่านั้น ยังตรงจุดที่เราอยู่ด้วย
ที่ OmniShelf เรากำลังขยายขอบเขตของวิสัยทัศน์คอมพิวเตอร์ ด้วยการทำให้ AI ล้ำสมัยเข้าถึงได้ตั้งแต่ต้นทาง ติดตามความคืบหน้าของ Visual Intelligence ขั้นต่อไปที่กำลังเกิดขึ้นบนชั้นวางสินค้า
บทความนี้อ้างอิงถึงเอกสารการวิจัยและแนวคิดสำคัญหลายประการที่กำหนดยุคใหม่ของการมองเห็นด้วยคอมพิวเตอร์:
ข้อมูลเชิงลึกและการอัปเดต
ก้าวล้ำนำหน้าด้วยข้อมูลเชิงลึกที่ล้ำหน้า การอัปเดตผลิตภัณฑ์ และแนวโน้มอุตสาหกรรมที่จะช่วยกำหนดอนาคตของเทคโนโลยีค้าปลีก ค้นพบเรื่องราวเพิ่มเติมที่สำคัญต่อธุรกิจของคุณ