เทค
ค้นพบว่าการปรับขนาด ข้อมูล การสรุปทั่วไป และประสิทธิภาพของฮาร์ดแวร์ขับเคลื่อนระบบ AI ในปัจจุบันอย่างไร และเหตุใดอนาคตของ AI จึงกำลังมุ่งไปสู่ประสิทธิภาพบนอุปกรณ์

เวลาในการอ่าน
0 นาที
สารบัญ
ขยาย
เขียนโดย

Călin Ciobanu
ผู้ร่วมก่อตั้งและ CTO
ตอนที่ผมรู้จักเครือข่ายประสาทครั้งแรกที่มหาวิทยาลัย ผมไม่ทันสังเกตว่ามันจะเปลี่ยนความเข้าใจการเขียนโปรแกรมของผมไปอย่างสิ้นเชิง ผมถูกฝึกมาแบบคลาสสิก ทั้งตรรกะ การควบคุมการไหล กฎเกณฑ์ และผลลัพธ์ที่คาดเดาได้ คุณเขียนขั้นตอนที่คอมพิวเตอร์ต้องปฏิบัติตามอย่างแม่นยำ ไม่มีอะไรมากไปกว่านี้และน้อยกว่านี้
AI ทำลายรูปแบบความคิดนั้นไปแล้ว
ทันใดนั้น ความท้าทายก็ไม่ใช่การเขียนโค้ดตรรกะแบบฮาร์ดโค้ด แต่เป็นการแสดงตัวอย่างให้ระบบเห็นมากพอที่มันจะสามารถเรียนรู้พฤติกรรมของมันเองได้ มันให้ความรู้สึกเหมือนได้ค้นพบกระบวนทัศน์ใหม่ของการเขียนโปรแกรม และมันสอดคล้องกับสองประเด็นที่ผมสนใจอย่างมากอยู่แล้ว:
• จิตวิทยา
• ฮาร์ดแวร์ฝังตัวระดับต่ำ
AI นั่งอยู่ตรงจุดตัดนั้นพอดี
จากการสังเกตว่าความซับซ้อน (จำนวนเซลล์ประสาทและที่สำคัญที่สุดคือการเชื่อมต่อระหว่างเซลล์ประสาท) ในสิ่งมีชีวิตนั้นเป็นสัดส่วนกับสติปัญญาและความสามารถ จึงเป็นเหตุให้สรุปได้ว่า:
รูปแบบดังกล่าวมีความชัดเจน:
โมเดลที่ใหญ่กว่า → พารามิเตอร์ที่มากขึ้น → โอกาสของพฤติกรรมที่เกิดขึ้นใหม่สูงขึ้น
ตอนนี้เราเห็นสิ่งนี้ได้อย่างชัดเจนในโมเดลภาษาขนาดใหญ่ในปัจจุบัน เมื่อคุณขยายขนาดของโมเดลและรันมันในการประมวลผลที่เพียงพอ มันจะเริ่มเรียนรู้ความสามารถที่ไม่เคยได้รับการฝึกฝนมาอย่างชัดเจนมาก่อน ไม่ว่าจะเป็นการใช้เหตุผลใหม่ๆ ทักษะใหม่ๆ หรือบางครั้งอาจรวมถึงกลยุทธ์การแก้ปัญหาใหม่ๆ ด้วย
ผมเคยเขียนถึงแนวโน้มนี้ไว้ในวิทยานิพนธ์ระดับปริญญาตรีเมื่อปี 2011 นานก่อนที่ AI จะเป็นหัวข้อหลักเสียอีก ตอนนั้นมันดูเหมือนเป็นเพียงการคาดเดา แต่ปัจจุบันมันชัดเจนแล้ว
การเร่งความเร็วนี้คือเหตุผลที่บริษัทเทคโนโลยีกำลังสร้างศูนย์ข้อมูลขนาดมหึมา เพิ่มประสิทธิภาพชิปอย่างที่ไม่เคยมีมาก่อน และผลักดันขนาดโมเดลให้ก้าวข้ามขีดจำกัดเดิม เรากำลังเฝ้าดูสมมติฐานการขยายขนาดที่เปิดเผยออกมาแบบเรียลไทม์
การฝึกโมเดลขนาดใหญ่เป็นเรื่องหนึ่ง แต่การนำไปใช้งานจริงเป็นอีกเรื่องหนึ่ง
แม้แต่บริษัท AI ที่ก้าวหน้าที่สุดก็ยังไม่ได้นำโมเดล "ขนาดเต็ม" ดั้งเดิมมาใช้ในการผลิตจริง เพราะมันแพงเกินไป สิ่งที่พวกเขาใช้แทนคือ:
โมเดลขนาดใหญ่ → บีบอัดให้เล็กลง ราคาถูกกว่า และเร็วกว่า → ปรับใช้กับผู้ใช้
เรื่องนี้เป็นจริงสำหรับ OpenAI, Google, Groq, DeepSeek และทุกคน
GPT-5 เป็นตัวอย่างที่สมบูรณ์แบบ โมเดลนี้ไม่เพียงแต่ดีกว่า GPT-4 เท่านั้น แต่ยังมีค่าใช้จ่ายในการใช้งานที่ถูกกว่ามาก ครึ่งหนึ่งของความก้าวหน้านั้นมาจากความก้าวหน้าด้านการบีบอัดและประสิทธิภาพ
ที่ OmniShelf เราเผชิญกับความท้าทายที่ยากกว่ามากนี้: เราจะสร้าง AI ให้ทำงานแบบเรียลไทม์บนอุปกรณ์รุ่นเก่าสุดๆ ได้อย่างไร โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต?
การวิจัยหลายปี (รวมถึงโครงการที่ได้รับทุนจากยุโรป) นำเราไปสู่สถาปัตยกรรมการบีบอัดรูปแบบใหม่ที่รักษาพฤติกรรมที่จำเป็นของโมเดลขนาดใหญ่ในขณะที่ทำให้มีขนาดเล็กพอที่จะทำงานบนอุปกรณ์ Android ใดๆ ก็ได้
ฉันจะไม่ลงรายละเอียดเพิ่มเติมในตอนนี้ แต่การทำงานนี้เองที่ทำให้เทคโนโลยีการดำเนินการค้าปลีกของเราเป็นไปได้
ฉันเห็นบริษัทต่างๆ ในอุตสาหกรรมนี้รีบเร่ง "เพิ่มฟีเจอร์ AI" โดยไม่เข้าใจว่าอะไรคือสิ่งที่ทำให้โครงการ AI ประสบความสำเร็จ ปัญหาต่างๆ มักจะเหมือนเดิม และเกิดขึ้นก่อนการใช้งานจริงนานมาก
เครือข่ายประสาทจะมีประสิทธิภาพเท่ากับข้อมูลที่คุณป้อนเข้าไปเท่านั้น
ทีมส่วนใหญ่ประเมินความยากของ:
• การรวบรวมข้อมูลที่มีคุณภาพสูง
• การติดฉลากให้สม่ำเสมอ
• การทำความสะอาด
• เตรียมไว้ในรูปแบบที่โมเดลสามารถเรียนรู้ได้จริง
ข้อมูลที่ดีทำให้โมเดลธรรมดาๆ ดูดี แต่ข้อมูลที่ไม่ดีกลับทำให้แม้แต่โมเดลระดับโลกก็ล้มเหลว
โมเดลที่ทำงานได้เฉพาะภายใต้เงื่อนไขที่ฝึกมาเท่านั้นนั้นไม่มีประโยชน์ โมเดลที่ สรุปผลได้ (หมายถึงสามารถทำงานได้ดีในสภาพแวดล้อมใหม่หรือสภาพแวดล้อมที่ไม่เคยเห็นมาก่อน) คือโมเดลที่คุณต้องการ
การสรุปทั่วไปคือสิ่งที่ทำให้โมเดลที่ได้รับการฝึกอบรมบนชุดข้อมูลหนึ่งสามารถ:
• จัดการกับสภาพแสงที่แตกต่างกัน
• จัดการรูปแบบทางกายภาพที่แตกต่างกัน
• ประมวลผลรายการใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง
นี่คือจุดที่การถกเถียงเกี่ยวกับความคิดสร้างสรรค์และการใช้เหตุผลในหลักสูตรปริญญาโทสาขาบริหารธุรกิจ (LLM) เกิดขึ้น นักวิจัยบางคนมองว่าหลักสูตรเหล่านี้เป็น "ฐานข้อมูลสถิติ" ในขณะที่บางคนมองว่าเป็นประกายแห่งความคิดสร้างสรรค์ที่แท้จริง ความจริงแล้วน่าจะอยู่ตรงกลางระหว่างสองสิ่งนี้
เราสามารถแยกความคิดสร้างสรรค์ออกเป็น:
สิ่งที่ทั้งสองรูปแบบมีร่วมกันคือความต้องการ แบบจำลองโลกขั้นสูงและแข็งแกร่ง ซึ่งช่วยให้ระบบสามารถคิด สร้างสรรค์ไอเดีย จำลอง ทดสอบ และปรับปรุงได้ แบบจำลองโลกมีไว้สำหรับโดเมนเฉพาะกลุ่ม แต่แบบจำลองสากลทั่วไปยังคงห่างไกล
หลักสูตรนิติศาสตรมหาบัณฑิต (LLM) ในปัจจุบันแสดงให้เห็นถึงนวัตกรรมทั่วไปในระดับหนึ่ง โดยได้รับประโยชน์จากความรู้ข้ามโดเมนและความเข้าใจรูปแบบ จำเป็นต้องมีการศึกษาเพิ่มเติมเกี่ยวกับการเปรียบเทียบและการถ่ายโอนโดเมน (ซึ่งเป็นแนวโน้มการวิจัยในปัจจุบัน)
นี่เป็นเรื่องที่ต้องใช้เทคนิคน้อยที่สุดแต่ก็มักจะเป็นเรื่องที่ยากที่สุด
ระบบ AI เป็นไปตามความน่าจะเป็น พวกมันอาจถูกต้องกว่ามนุษย์ถึง 99% แต่ก็ยังไม่สามารถรับประกันความถูกต้องได้
เมื่อระบบเกิดข้อผิดพลาดใครจะรับผิดชอบ?
ความท้าทายนี้ปรากฏในสถานการณ์เช่น:
• การอนุมัติสินเชื่อ
• การวิเคราะห์ทางการแพทย์
• การขับขี่อัตโนมัติ
• การตรวจสอบความปลอดภัย
• การตัดสินทางกฎหมาย
การขับขี่อัตโนมัติแสดงให้เห็นอย่างชัดเจนว่า ระบบขับเคลื่อนอัตโนมัติตอบสนองได้เร็วกว่ามนุษย์ และตามสถิติแล้วเกิดอุบัติเหตุน้อยกว่า อย่างไรก็ตาม หากความผิดพลาดเพียงครั้งเดียวส่งผลกระทบต่อผู้อื่น ช่องว่างความรับผิดชอบก็จะปรากฏให้เห็นทันที
ความไม่แน่นอนทางปรัชญาและกฎหมายดังกล่าวทำให้การปรับใช้ล่าช้ามากกว่าข้อจำกัดของแบบจำลองใดๆ
จังหวะกำลังเร่งขึ้น ไม่ใช่ช้าลง เมื่อการบีบอัดข้อมูลดีขึ้นและฮาร์ดแวร์มีความเฉพาะทางมากขึ้น AI จะพัฒนาไปมากขึ้น:
จากคลาวด์ → สู่ขอบ → ในที่สุดก็อยู่ในอุปกรณ์อย่างสมบูรณ์
นี่จะปลดล็อค:
• การประมวลผลแบบเรียลไทม์
• ความเป็นส่วนตัวเต็มรูปแบบ
• ความสามารถแบบออฟไลน์
• ลดต้นทุนอย่างมาก
สำหรับบริษัทที่สร้างผลิตภัณฑ์จริง เรื่องนี้มีความสำคัญมากกว่าการมีโมเดล "ใหญ่ที่สุด" มาก
ผู้ชนะจะไม่ใช่ผู้ที่สร้างเครือข่ายประสาทเทียมที่ใหญ่ที่สุด แต่จะเป็นผู้ที่นำ AI ไปใช้ อย่างมีประสิทธิภาพ เชื่อถือได้ และยั่งยืนในระดับขนาดใหญ่
ทุกสัปดาห์ AI ทำลายความคาดหวังเดิมๆ แต่ภายใต้กระแสความนิยมนั้น สิ่งหนึ่งที่ยังคงเดิมคือ ปัจจัยพื้นฐานยังคงมีความสำคัญ
ข้อมูล การสรุปทั่วไป ความรับผิดชอบ การปรับใช้อย่างมีประสิทธิภาพ
สิ่งเหล่านี้เป็นเสาหลักที่จะกำหนดว่าผลิตภัณฑ์ AI จะประสบความสำเร็จหรือล้มเหลว
ที่ OmniShelf หลักการเหล่านี้จะกำหนดวิธีที่เราสร้าง สิ่งที่เราปรับให้เหมาะสม และวิธีที่เราขยายขอบเขตของสิ่งที่เป็นไปได้บนฮาร์ดแวร์ที่มีข้อจำกัด
ข้อมูลเชิงลึกและการอัปเดต
ก้าวล้ำนำหน้าด้วยข้อมูลเชิงลึกที่ล้ำหน้า การอัปเดตผลิตภัณฑ์ และแนวโน้มอุตสาหกรรมที่จะช่วยกำหนดอนาคตของเทคโนโลยีค้าปลีก ค้นพบเรื่องราวเพิ่มเติมที่สำคัญต่อธุรกิจของคุณ