เทค

บทเรียนจาก AI ตลอดทศวรรษ

ค้นพบว่าการปรับขนาด ข้อมูล การสรุปทั่วไป และประสิทธิภาพของฮาร์ดแวร์ขับเคลื่อนระบบ AI ในปัจจุบันอย่างไร และเหตุใดอนาคตของ AI จึงกำลังมุ่งไปสู่ประสิทธิภาพบนอุปกรณ์

เวลาในการอ่าน

0 นาที

สารบัญ

ขยาย

เขียนโดย

Călin Ciobanu

ผู้ร่วมก่อตั้งและ CTO

ตอนที่ผมรู้จักเครือข่ายประสาทครั้งแรกที่มหาวิทยาลัย ผมไม่ทันสังเกตว่ามันจะเปลี่ยนความเข้าใจการเขียนโปรแกรมของผมไปอย่างสิ้นเชิง ผมถูกฝึกมาแบบคลาสสิก ทั้งตรรกะ การควบคุมการไหล กฎเกณฑ์ และผลลัพธ์ที่คาดเดาได้ คุณเขียนขั้นตอนที่คอมพิวเตอร์ต้องปฏิบัติตามอย่างแม่นยำ ไม่มีอะไรมากไปกว่านี้และน้อยกว่านี้

AI ทำลายรูปแบบความคิดนั้นไปแล้ว

ทันใดนั้น ความท้าทายก็ไม่ใช่การเขียนโค้ดตรรกะแบบฮาร์ดโค้ด แต่เป็นการแสดงตัวอย่างให้ระบบเห็นมากพอที่มันจะสามารถเรียนรู้พฤติกรรมของมันเองได้ มันให้ความรู้สึกเหมือนได้ค้นพบกระบวนทัศน์ใหม่ของการเขียนโปรแกรม และมันสอดคล้องกับสองประเด็นที่ผมสนใจอย่างมากอยู่แล้ว:
• จิตวิทยา
• ฮาร์ดแวร์ฝังตัวระดับต่ำ

AI นั่งอยู่ตรงจุดตัดนั้นพอดี

เหตุใดการปรับขนาดเครือข่ายประสาทจึงหลีกเลี่ยงไม่ได้เสมอ

จากการสังเกตว่าความซับซ้อน (จำนวนเซลล์ประสาทและที่สำคัญที่สุดคือการเชื่อมต่อระหว่างเซลล์ประสาท) ในสิ่งมีชีวิตนั้นเป็นสัดส่วนกับสติปัญญาและความสามารถ จึงเป็นเหตุให้สรุปได้ว่า:

  • คุณไม่สามารถ "เขียนโค้ด" ปัญญาประดิษฐ์ได้ มันเป็นคุณสมบัติที่เกิดขึ้นจากข้อมูล ความซับซ้อน และการเรียนรู้
  • การเกิดขึ้นต้องใช้การประมวลผลและหน่วยความจำจำนวนมากเพื่อรองรับเครือข่ายประสาทที่มีขนาดเทียบเท่ากับสมองของมนุษย์
  • การเข้าใจฮาร์ดแวร์และซอฟต์แวร์ตั้งแต่พื้นฐาน (ทรานซิสเตอร์) ขึ้นไป ช่วยให้ฉันสามารถวาดเส้นขนานที่สมเหตุสมผลถึงสิ่งที่อาจเกิดขึ้นหากเราสามารถปรับขนาดเครือข่ายประสาทเทียมได้

รูปแบบดังกล่าวมีความชัดเจน:
โมเดลที่ใหญ่กว่า → พารามิเตอร์ที่มากขึ้น → โอกาสของพฤติกรรมที่เกิดขึ้นใหม่สูงขึ้น

ตอนนี้เราเห็นสิ่งนี้ได้อย่างชัดเจนในโมเดลภาษาขนาดใหญ่ในปัจจุบัน เมื่อคุณขยายขนาดของโมเดลและรันมันในการประมวลผลที่เพียงพอ มันจะเริ่มเรียนรู้ความสามารถที่ไม่เคยได้รับการฝึกฝนมาอย่างชัดเจนมาก่อน ไม่ว่าจะเป็นการใช้เหตุผลใหม่ๆ ทักษะใหม่ๆ หรือบางครั้งอาจรวมถึงกลยุทธ์การแก้ปัญหาใหม่ๆ ด้วย

ผมเคยเขียนถึงแนวโน้มนี้ไว้ในวิทยานิพนธ์ระดับปริญญาตรีเมื่อปี 2011 นานก่อนที่ AI จะเป็นหัวข้อหลักเสียอีก ตอนนั้นมันดูเหมือนเป็นเพียงการคาดเดา แต่ปัจจุบันมันชัดเจนแล้ว

การเร่งความเร็วนี้คือเหตุผลที่บริษัทเทคโนโลยีกำลังสร้างศูนย์ข้อมูลขนาดมหึมา เพิ่มประสิทธิภาพชิปอย่างที่ไม่เคยมีมาก่อน และผลักดันขนาดโมเดลให้ก้าวข้ามขีดจำกัดเดิม เรากำลังเฝ้าดูสมมติฐานการขยายขนาดที่เปิดเผยออกมาแบบเรียลไทม์

เหตุใดการบีบอัดจึงมีความสำคัญมากกว่าที่เคย

การฝึกโมเดลขนาดใหญ่เป็นเรื่องหนึ่ง แต่การนำไปใช้งานจริงเป็นอีกเรื่องหนึ่ง

แม้แต่บริษัท AI ที่ก้าวหน้าที่สุดก็ยังไม่ได้นำโมเดล "ขนาดเต็ม" ดั้งเดิมมาใช้ในการผลิตจริง เพราะมันแพงเกินไป สิ่งที่พวกเขาใช้แทนคือ:

โมเดลขนาดใหญ่ → บีบอัดให้เล็กลง ราคาถูกกว่า และเร็วกว่า → ปรับใช้กับผู้ใช้

เรื่องนี้เป็นจริงสำหรับ OpenAI, Google, Groq, DeepSeek และทุกคน

GPT-5 เป็นตัวอย่างที่สมบูรณ์แบบ โมเดลนี้ไม่เพียงแต่ดีกว่า GPT-4 เท่านั้น แต่ยังมีค่าใช้จ่ายในการใช้งานที่ถูกกว่ามาก ครึ่งหนึ่งของความก้าวหน้านั้นมาจากความก้าวหน้าด้านการบีบอัดและประสิทธิภาพ

ที่ OmniShelf เราเผชิญกับความท้าทายที่ยากกว่ามากนี้: เราจะสร้าง AI ให้ทำงานแบบเรียลไทม์บนอุปกรณ์รุ่นเก่าสุดๆ ได้อย่างไร โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต?

การวิจัยหลายปี (รวมถึงโครงการที่ได้รับทุนจากยุโรป) นำเราไปสู่สถาปัตยกรรมการบีบอัดรูปแบบใหม่ที่รักษาพฤติกรรมที่จำเป็นของโมเดลขนาดใหญ่ในขณะที่ทำให้มีขนาดเล็กพอที่จะทำงานบนอุปกรณ์ Android ใดๆ ก็ได้

ฉันจะไม่ลงรายละเอียดเพิ่มเติมในตอนนี้ แต่การทำงานนี้เองที่ทำให้เทคโนโลยีการดำเนินการค้าปลีกของเราเป็นไปได้

ความท้าทายที่ยิ่งใหญ่ที่สุดสามประการที่ทีมต้องเผชิญเมื่อเพิ่ม AI ลงในผลิตภัณฑ์

ฉันเห็นบริษัทต่างๆ ในอุตสาหกรรมนี้รีบเร่ง "เพิ่มฟีเจอร์ AI" โดยไม่เข้าใจว่าอะไรคือสิ่งที่ทำให้โครงการ AI ประสบความสำเร็จ ปัญหาต่างๆ มักจะเหมือนเดิม และเกิดขึ้นก่อนการใช้งานจริงนานมาก

1. การได้รับข้อมูลที่ถูกต้องในรูปแบบที่ถูกต้อง

เครือข่ายประสาทจะมีประสิทธิภาพเท่ากับข้อมูลที่คุณป้อนเข้าไปเท่านั้น

ทีมส่วนใหญ่ประเมินความยากของ:
• การรวบรวมข้อมูลที่มีคุณภาพสูง
• การติดฉลากให้สม่ำเสมอ
• การทำความสะอาด
• เตรียมไว้ในรูปแบบที่โมเดลสามารถเรียนรู้ได้จริง

ข้อมูลที่ดีทำให้โมเดลธรรมดาๆ ดูดี แต่ข้อมูลที่ไม่ดีกลับทำให้แม้แต่โมเดลระดับโลกก็ล้มเหลว

2. การสรุปโดยทั่วไป (ตัวชี้วัดความสำเร็จที่เข้าใจผิดมากที่สุด)

โมเดลที่ทำงานได้เฉพาะภายใต้เงื่อนไขที่ฝึกมาเท่านั้นนั้นไม่มีประโยชน์ โมเดลที่ สรุปผลได้ (หมายถึงสามารถทำงานได้ดีในสภาพแวดล้อมใหม่หรือสภาพแวดล้อมที่ไม่เคยเห็นมาก่อน) คือโมเดลที่คุณต้องการ

การสรุปทั่วไปคือสิ่งที่ทำให้โมเดลที่ได้รับการฝึกอบรมบนชุดข้อมูลหนึ่งสามารถ:
• จัดการกับสภาพแสงที่แตกต่างกัน
• จัดการรูปแบบทางกายภาพที่แตกต่างกัน
• ประมวลผลรายการใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง

นี่คือจุดที่การถกเถียงเกี่ยวกับความคิดสร้างสรรค์และการใช้เหตุผลในหลักสูตรปริญญาโทสาขาบริหารธุรกิจ (LLM) เกิดขึ้น นักวิจัยบางคนมองว่าหลักสูตรเหล่านี้เป็น "ฐานข้อมูลสถิติ" ในขณะที่บางคนมองว่าเป็นประกายแห่งความคิดสร้างสรรค์ที่แท้จริง ความจริงแล้วน่าจะอยู่ตรงกลางระหว่างสองสิ่งนี้

เราสามารถแยกความคิดสร้างสรรค์ออกเป็น:

  1. อัจฉริยะที่สร้างสรรค์อย่างแท้จริง
    บุคคลที่ก้าวหน้าในด้านคณิตศาสตร์ ฟิสิกส์ หรือเศรษฐศาสตร์ มีจำนวนน้อยมาก ซึ่งอาจมีเพียง 2-5 คนต่อศตวรรษ
  2. นวัตกรรมทั่วไป
    อาศัยความรู้ข้ามโดเมน การจดจำรูปแบบ การเปรียบเทียบ และการถ่ายโอนโดเมน ค่อยๆ เพิ่มขึ้น ปริมาณมากขึ้น ผลกระทบน้อยลง

สิ่งที่ทั้งสองรูปแบบมีร่วมกันคือความต้องการ แบบจำลองโลกขั้นสูงและแข็งแกร่ง ซึ่งช่วยให้ระบบสามารถคิด สร้างสรรค์ไอเดีย จำลอง ทดสอบ และปรับปรุงได้ แบบจำลองโลกมีไว้สำหรับโดเมนเฉพาะกลุ่ม แต่แบบจำลองสากลทั่วไปยังคงห่างไกล

หลักสูตรนิติศาสตรมหาบัณฑิต (LLM) ในปัจจุบันแสดงให้เห็นถึงนวัตกรรมทั่วไปในระดับหนึ่ง โดยได้รับประโยชน์จากความรู้ข้ามโดเมนและความเข้าใจรูปแบบ จำเป็นต้องมีการศึกษาเพิ่มเติมเกี่ยวกับการเปรียบเทียบและการถ่ายโอนโดเมน (ซึ่งเป็นแนวโน้มการวิจัยในปัจจุบัน)

3. ความรับผิดชอบและความไว้วางใจ

นี่เป็นเรื่องที่ต้องใช้เทคนิคน้อยที่สุดแต่ก็มักจะเป็นเรื่องที่ยากที่สุด

ระบบ AI เป็นไปตามความน่าจะเป็น พวกมันอาจถูกต้องกว่ามนุษย์ถึง 99% แต่ก็ยังไม่สามารถรับประกันความถูกต้องได้

เมื่อระบบเกิดข้อผิดพลาดใครจะรับผิดชอบ?

ความท้าทายนี้ปรากฏในสถานการณ์เช่น:
• การอนุมัติสินเชื่อ
• การวิเคราะห์ทางการแพทย์
• การขับขี่อัตโนมัติ
• การตรวจสอบความปลอดภัย
• การตัดสินทางกฎหมาย

การขับขี่อัตโนมัติแสดงให้เห็นอย่างชัดเจนว่า ระบบขับเคลื่อนอัตโนมัติตอบสนองได้เร็วกว่ามนุษย์ และตามสถิติแล้วเกิดอุบัติเหตุน้อยกว่า อย่างไรก็ตาม หากความผิดพลาดเพียงครั้งเดียวส่งผลกระทบต่อผู้อื่น ช่องว่างความรับผิดชอบก็จะปรากฏให้เห็นทันที

ความไม่แน่นอนทางปรัชญาและกฎหมายดังกล่าวทำให้การปรับใช้ล่าช้ามากกว่าข้อจำกัดของแบบจำลองใดๆ

AI กำลังมุ่งหน้าไปทางไหนต่อไป

จังหวะกำลังเร่งขึ้น ไม่ใช่ช้าลง เมื่อการบีบอัดข้อมูลดีขึ้นและฮาร์ดแวร์มีความเฉพาะทางมากขึ้น AI จะพัฒนาไปมากขึ้น:

จากคลาวด์ → สู่ขอบ → ในที่สุดก็อยู่ในอุปกรณ์อย่างสมบูรณ์

นี่จะปลดล็อค:
• การประมวลผลแบบเรียลไทม์
• ความเป็นส่วนตัวเต็มรูปแบบ
• ความสามารถแบบออฟไลน์
• ลดต้นทุนอย่างมาก

สำหรับบริษัทที่สร้างผลิตภัณฑ์จริง เรื่องนี้มีความสำคัญมากกว่าการมีโมเดล "ใหญ่ที่สุด" มาก

ผู้ชนะจะไม่ใช่ผู้ที่สร้างเครือข่ายประสาทเทียมที่ใหญ่ที่สุด แต่จะเป็นผู้ที่นำ AI ไปใช้ อย่างมีประสิทธิภาพ เชื่อถือได้ และยั่งยืนในระดับขนาดใหญ่

ความคิดปิดท้าย

ทุกสัปดาห์ AI ทำลายความคาดหวังเดิมๆ แต่ภายใต้กระแสความนิยมนั้น สิ่งหนึ่งที่ยังคงเดิมคือ ปัจจัยพื้นฐานยังคงมีความสำคัญ

ข้อมูล การสรุปทั่วไป ความรับผิดชอบ การปรับใช้อย่างมีประสิทธิภาพ

สิ่งเหล่านี้เป็นเสาหลักที่จะกำหนดว่าผลิตภัณฑ์ AI จะประสบความสำเร็จหรือล้มเหลว

ที่ OmniShelf หลักการเหล่านี้จะกำหนดวิธีที่เราสร้าง สิ่งที่เราปรับให้เหมาะสม และวิธีที่เราขยายขอบเขตของสิ่งที่เป็นไปได้บนฮาร์ดแวร์ที่มีข้อจำกัด

ข้อมูลเชิงลึกและการอัปเดต

สำรวจเพิ่มเติมจากบล็อก OmniShelf

ก้าวล้ำนำหน้าด้วยข้อมูลเชิงลึกที่ล้ำหน้า การอัปเดตผลิตภัณฑ์ และแนวโน้มอุตสาหกรรมที่จะช่วยกำหนดอนาคตของเทคโนโลยีค้าปลีก ค้นพบเรื่องราวเพิ่มเติมที่สำคัญต่อธุรกิจของคุณ