2025-12-01

ดร.พงษ์ศักดิ์ วงศ์เลิศคุณากร

Nvidia ครองเกมอย่างไร Google สวนกลับแบบไหน และอนาคตของฮาร์ดแวร์ AI จะไปทางไหน

ดร.พงษ์ศักดิ์ วงศ์เลิศคุณากร

  • ที่ปรึกษาด้านสถานที่ทำงาน
  • ปริญญาเอก (Ph.D.) สาขาการจัดการจากสถาบันบัณฑิตพัฒนบริหารศาสตร์
  • ปริญญาโท (M.S.) สาขาวิทยาการคอมพิวเตอร์และสารสนเทศจาก มหาวิทยาลัยเพนซิลเวเนีย
  • ปริญญาตรี (B.Eng.) สาขาวิศวกรรมคอมพิวเตอร์จาก จุฬาลงกรณ์มหาวิทยาลัย

บทสรุปสำหรับผู้บริหาร

  • Nvidia ได้เปลี่ยนความเฟื่องฟูของ AI ให้กลายเป็นอาณาจักร GPU ด้วยการเป็นเจ้าของโครงสร้างครบวงจร (Full Stack) ตั้งแต่ CUDA ไปจนถึงระบบ DGX
  • Google ไม่ได้แค่ "กำลังไล่ตาม" แต่ได้พัฒนา Tensor Processing Units (TPUs) มาเกือบสิบปี และกำลังมุ่งเน้นไปที่การ บูรณาการในแนวดิ่ง (ชิป → ระบบ → คอมไพเลอร์ → โมเดล → คลาวด์)
  • สมรภูมิการแข่งขันถัดไปไม่ใช่แค่พลังประมวลผลดิบ (raw FLOPs) แต่คือ ประสิทธิภาพด้านพลังงาน ต่อโทเคนที่ฝึก/ให้บริการ, แบนด์วิดท์ของตัวเชื่อมต่อ, และความสามารถในการพกพาของซอฟต์แวร์
  • AWS (Trainium/Inferentia), AMD (MI300/MI325) และ Alibaba กำลังผลักดันทางเลือกที่น่าเชื่อถือ ทำให้ตลาดเปลี่ยนจากระบบผูกขาดไปสู่การมีทางเลือก
  • ผู้ซื้อจะปรับสมดุลระหว่างค่าใช้จ่ายลงทุน (CapEx) กับค่าใช้จ่ายดำเนินการ (OpEx) เมื่อรอบการอัปเกรดชิปสั้นลง สถาปัตยกรรมที่มอบประสิทธิภาพแบบครบวงจร (End-to-End) จะเป็นทางเลือกที่ปลอดภัยกว่าการมุ่งเน้นแค่ประสิทธิภาพสูงสุด (Peak Benchmarks)

1. จากยุคตื่นทองสู่ข้อจำกัดด้านพลังงาน (Grid Constraints)

ปีที่ผ่านมาทำให้ความจริงข้อหนึ่งไม่อาจมองข้ามได้: Nvidia กลายเป็นผู้ขาย "พลั่วและเครื่องมือ" มาตรฐานสำหรับการตื่นทอง AI หากแผนงานของคุณคือ "ฝึกโมเดลระดับแนวหน้า" หรือ "ให้บริการโทเคนหลายพันล้านต่อวัน" คุณน่าจะต้องเข้าคิวรอ H100s

2. ทศวรรษอันเงียบงันและการเดิมพัน TPU ของ Google

Google ไม่ได้เพิ่งตื่นขึ้นมาวันนี้ พวกเขาได้พัฒนา TPU ภายในมาแล้วเจ็ดรุ่น และเปิดให้ใช้งานเชิงพาณิชย์บน Google Cloud ตั้งแต่ปี 2018 ความแตกต่างทางกลยุทธ์คือหัวใจสำคัญ:
แต่ตลาดไม่เคยปล่อยให้มีราชาเพียงคนเดียวตลอดไป และคอขวดที่แท้จริงที่รออยู่ข้างหน้าไม่ใช่แค่ปริมาณการผลิต แต่คือ พลังงาน ศูนย์ข้อมูล AI ขนาดใหญ่ (Hyperscale AI campuses) ถูกวัดด้วยหน่วยเมกะวัตต์ ไม่ใช่วัดด้วยจำนวนแร็ค ผู้ชนะจะไม่ใช่แค่คนที่เร็วที่สุด แต่จะเป็นคนที่เปลี่ยนหน่วยจูล (Joule: พลังงาน) ให้เป็นโทเคนได้อย่างมีประสิทธิภาพสูงสุด

  • เมื่อก่อน: TPU ถูกขายเป็นบริการ (คุณไม่ซื้อชิป แต่เช่าจาก GCP)
  • ในปัจจุบัน เมื่อความต้องการ AI เพิ่มขึ้นอย่างมหาศาล Google จึงได้นำเสนอ โครงสร้างครบวงจรแบบบูรณาการ อย่างเต็มรูปแบบ ตั้งแต่ชิป (TPUs), ระบบ, คอมไพเลอร์ (XLA/PJRT), โมเดล (Gemini) ไปจนถึงเครือข่ายศูนย์ข้อมูลที่ถูกปรับแต่งมาโดยเฉพาะสำหรับการเรียนรู้ของเครื่อง (ML)
    นี่คือการบูรณาการในแนวดิ่งแบบคลาสสิก ซึ่งทีมพัฒนาโมเดล (DeepMind/Gemini) ทำงานเคียงข้างทีมสร้างชิปและคอมไพเลอร์ ทำให้ซิลิคอนและซอฟต์แวร์สามารถพัฒนาร่วมกันได้อย่างรวดเร็วและแน่นแฟ้น ซึ่งเป็น ข้อได้เปรียบเชิงกลยุทธ์ ที่ยากต่อการเลียนแบบสำหรับผู้ผลิตชิปแบบค้าปลีกทั่วไป

3. Tech Deep Dive: GPU vs TPU — ประสิทธิภาพคือแต้มต่อที่แท้จริง (Compute Cores & Math)

  • ใช้ NVLink/NVSwitch + เครือข่าย Infiniband/Ethernet; ให้ประสิทธิภาพการดำเนินงานแบบกลุ่ม (collective ops) ที่แข็งแกร่งทั่วทั้งโหนดที่มีหลาย GPU
  • ใช้ระบบเชื่อมต่อ TPU แบบกำหนดเอง (ICI) และเครือข่ายศูนย์ข้อมูลที่ออกแบบโดยคำนึงถึงคอมไพเลอร์; สถาปัตยกรรมการจัดกำหนดการ (scheduling stack) รู้จักเครือข่าย ไม่ใช่แค่ตัวชิป
    ระบบเชื่อมต่อและขนาด
  • Nvidia ใช้ NVLink/NVSwitch ร่วมกับเครือข่าย Infiniband/Ethernet และมี ประสิทธิภาพการดำเนินการแบบกลุ่ม (collective ops) ที่แข็งแกร่ง ทั่วทั้งโหนดที่มีหลาย GPU
  • Google ใช้ ระบบเชื่อมต่อ TPU แบบกำหนดเอง (ICI) และเครือข่ายศูนย์ข้อมูลที่ออกแบบโดยคำนึงถึง คอมไพเลอร์; สถาปัตยกรรมการจัดกำหนดการ (scheduling stack) รู้จักเครือข่าย ไม่ใช่แค่ตัวชิป
    ชุดซอฟต์แวร์)
  • ระบบนิเวศ CUDA (cuBLAS, cuDNN, NCCL, Triton compiler) คือปราการ—ประกอบด้วยไลบรารีที่สั่งสมมานานนับทศวรรษ, เคอร์เนล, เครื่องมือวิเคราะห์ประสิทธิภาพ (profilers), และฐานนักพัฒนาขนาดใหญ่
  • Google: XLA/PJRT/JAX/TensorFlow และเส้นทางการทำงานของ PyTorch ที่แข็งแกร่งขึ้นเรื่อย ๆ มีเป้าหมายเพื่อให้กราฟโมเดลสามารถพกพาได้ (portable) แนวคิดหลัก: ใช้เส้นทางโค้ดเดียวกัน แต่ได้ประสิทธิภาพที่ดีกว่าบน TPUs ภายใน GCP
    ทำไมสิ่งนี้จึงสำคัญในตอนนี้

เมื่อโมเดลมีขนาดใหญ่ขึ้น สัดส่วนของเวลาที่ใช้ในการสื่อสารแบบกลุ่ม (collective comms), ขั้นตอนของตัวปรับให้เหมาะสม (optimizer steps), การแบ่งส่วนพารามิเตอร์ (parameter sharding), และการเคลื่อนย้ายแคช KV (KV-cache movement) ก็เพิ่มขึ้นตามไปด้วย ชุดสถาปัตยกรรมที่สามารถประสานงานระหว่างชิป + หน่วยความจำ + ระบบเชื่อมต่อ + คอมไพเลอร์ โดยมีการสูญเสียพลังงาน (จูล) น้อยที่สุด คือผู้ชนะ นี่ไม่ใช่แค่การตลาด แต่มันคือ ฟิสิกส์และการจัดกำหนดการ

4. The Energy Equation: Joules per Token Training and serving LLMs at scale is turning into a power budgeting problem:

  • ต้นทุนต่อพารามิเตอร์ที่ฝึกฝน และต้นทุนต่อการให้บริการโทเคน 1 ล้านครั้ง ถูกจำกัดด้วย พลังงานต่อ FLOP และ ประสิทธิภาพของเครือข่าย
  • หาก Google สามารถพิสูจน์ได้ว่ามี ต้นทุนดอลลาร์ต่อโทเคน (แบบครบวงจร) ที่ต่ำกว่า สำหรับปริมาณงาน LLM ทั่วไป ผู้บริหารระดับสูงด้านการเงิน (CFOs) และรัฐบาลจะให้ความสนใจ—โดยเฉพาะอย่างยิ่งเมื่อข้อจำกัดด้านโครงข่ายไฟฟ้าเข้มงวดขึ้น และนโยบายด้านคาร์บอนเริ่มส่งผลกระทบ

Nvidia ทราบเรื่องนี้ดี สถาปัตยกรรมอย่าง Blackwell (และรุ่นต่อ ๆ ไป) จึงมุ่งเน้นไปที่ ประสิทธิภาพของ FP8/FP4, แบนด์วิดท์ของหน่วยความจำ และ การเพิ่มประสิทธิภาพของระบบเชื่อมต่อ เป็นหลัก—และยังคงมุ่งเน้นที่การให้นักพัฒนาอยู่ภายในแรงดึงดูดของ CUDA ต่อไป

5. The Market Is Moving From Monopoly to Optionality It’s not just Google:

  • AWS ได้เปิดตัว Trainium (สำหรับการฝึกฝนโมเดล) และ Inferentia (สำหรับการอนุมาน) ซึ่งขณะนี้อยู่ในรุ่นที่ใหม่ขึ้น โดยมี Neuron SDK ที่ช่วยปรับปรุงเส้นทางการทำงานสำหรับ PyTorch
  • AMD มีแรงขับเคลื่อนด้วยชิป MI300/MI325 และชุดซอฟต์แวร์ ROCm ที่เติบโตอย่างรวดเร็ว ผู้ให้บริการ Hyperscale หลายรายกำลังประเมินคุณสมบัติของ AMD สำหรับทั้งการฝึกฝนและการอนุมาน
  • Alibaba และผู้ให้บริการคลาวด์อื่น ๆ ในเอเชียกำลังส่งสัญญาณถึงการมีสถาปัตยกรรมแบบบูรณาการในแนวดิ่ง (Vertical Stacks) เป็นของตนเอง

ลูกค้าสามารถผสมผสานและจับคู่ตามปริมาณงานได้—ใช้ Nvidia เพื่อความยืดหยุ่นสูงสุด, ใช้ TPUs/Trainium สำหรับ LLMs ที่เน้นต้นทุนที่มีประสิทธิภาพ, และใช้ AMD ในกรณีที่ราคา/ประสิทธิภาพและความพร้อมใช้งานสอดคล้อง (กับความต้องการ) สิ่งนี้เป็นการนำ อำนาจต่อรองด้านราคา กลับคืนมาสู่ผู้ซื้อ ไม่ใช่แค่ผู้จำหน่ายอีกต่อไป

6. CapEx เทียบกับ OpEx: อย่าผูกติดกับชิป แต่จงผูกติดกับผลลัพธ์

การซื้อตู้แร็ค GPU จำนวนมากดูเหมือนจะเป็นเรื่องที่ฉลาด เมื่อความต้องการมีมากกว่าอุปทาน แต่ซิลิคอน (ชิป) เสื่อมมูลค่าอย่างรวดเร็ว เนื่องจากประเภทข้อมูลมีขนาดเล็กลง (จาก FP8 เป็น FP4), แผงหน่วยความจำดีขึ้น และเคอร์เนล (kernel) ฉลาดขึ้น หัวหน้าเจ้าหน้าที่เทคโนโลยี (CTOs) หลายคนกำลังตั้งคำถามว่า:

  • สำหรับปริมาณงานที่มีความผันผวน เราควรเช่าประสิทธิภาพในคลาวด์ และหลีกเลี่ยงการติดอยู่กับชิปซิลิคอนของปีที่แล้วหรือไม่?
  • สำหรับการรันฝึกฝนโมเดลที่คงที่และคาดการณ์ได้ เราควรเป็นเจ้าของ (ฮาร์ดแวร์เอง) เพื่อควบคุมต้นทุนและกำหนดการหรือไม่?
  • เราสามารถทำให้กราฟการฝึกฝนโมเดลของเราสามารถพกพาได้ (ผ่าน Triton/XLA/PJRT) เพื่อที่เราจะสามารถเลือกใช้ผู้จำหน่าย (Vendors) ได้โดยไม่ต้องเขียนโมเดลใหม่หรือไม่?
    คำตอบที่เป็นจริงคือ แนวทางแบบผสมผสาน (hybrid): ยึดความสามารถหลักในส่วนที่คุณมีประสิทธิภาพที่สุด, ขยายการใช้งานในที่อื่นเมื่อต้องการ, และรักษาโค้ดโมเดลของคุณให้เป็น อิสระจากผู้จำหน่าย (vendor-agnostic) ให้มากที่สุดเท่าที่จะทำได้

7. สำหรับผู้นำด้านวิศวกรรม: สิ่งที่ควรวัดผลต่อไป

  • ต้นทุนดอลลาร์ต่อโทเคนแบบครบวงจร (การฝึกฝน + การให้บริการ) ไม่ใช่วัดแค่ TFLOPs สูงสุด
  •  อัตราการใช้งาน (Utilization): เวลาที่ใช้ในการคำนวณที่มีประโยชน์ เทียบกับเวลารอหน่วยความจำ/การสื่อสารแบบกลุ่ม (collectives)
  • ชัยชนะของคอมไพเลอร์: การผสานกราฟระดับ XLA/Triton (graph-level fusions), การปรับแต่งเคอร์เนลอัตโนมัติ (kernel autotuning), และการควอนไทเซชัน (quantization)
  • สุขภาพของระบบเชื่อมต่อ (Interconnect health): ประสิทธิภาพของ 'all-reduce' ที่ขนาดเป้าหมายของคุณ (ตั้งแต่หลายร้อยถึงหลายพันตัวเร่งความเร็ว)
  • ความสามารถในการพกพา (Portability): การนำโมเดลเดียวกันไปใช้งานบน CUDA, XLA, และ Neuron ทำได้ยากเพียงใด?
  • ขีดจำกัดด้านพลังงาน (Power envelope): โทเคนต่อกิโลวัตต์ชั่วโมง (tokens per kWh) ไม่ใช่วัดแค่โทเคนต่อวินาที

8. สำหรับนักลงทุน: เหนือกว่าเส้นโค้งแห่งกระแส
นี่ไม่ใช่สถานการณ์ที่ "Nvidia แพ้ และคนอื่น ๆ ชนะ" แต่มันคือ การขยายตัวของสมรภูมิ (Broadening of the field):

  • Nvidia ยังคงมี ความนิยมในกลุ่มนักพัฒนา (developer mindshare) ที่ไม่มีใครเทียบได้ และมี ชุดซอฟต์แวร์ที่แข็งแกร่งอย่างยิ่ง (juggernaut software stack)
  • ความได้เปรียบของ Google คือ ประสิทธิภาพที่บูรณาการเข้าด้วยกัน ตลอดทั้งระบบ ตั้งแต่ ชิป (chip), คอมไพเลอร์ (compiler), โมเดล (model), ไปจนถึง คลาวด์ (cloud)
  • AWS และ AMD นำเสนอทางเลือกที่น่าเชื่อถือในด้าน ราคา/ประสิทธิภาพ (price/perf) และ อุปทาน (supply)
  • Apple จะไม่เข้าแข่งขันในการ ฝึกฝนโมเดลขนาดใหญ่แบบ Hyperscale แต่ความเป็นผู้นำด้าน ซิลิคอน (ชิป) และ AI บนอุปกรณ์ (on-device AI) ของ Apple อาจกำหนดความคาดหวังสำหรับการ อนุมานที่ส่วนปลาย (Edge Inference) ซึ่งส่งผลกระทบย้อนกลับไปถึงระบบ คลาวด์

วงจรเงินทุน (Capital Cycle) จะเอื้อประโยชน์ต่อบริษัทที่สามารถเปลี่ยน วัตต์ (พลังงานไฟฟ้า) ให้เป็น โทเคน (ผลลัพธ์ของ AI) ได้อย่างมี ประสิทธิภาพสูงสุด และต้องทำเช่นนั้นด้วยสถาปัตยกรรม (Stack) ที่นักพัฒนาชื่นชอบและต้องการใช้งานจริง

ใจความสำคัญ

ยุค AI ไม่ได้เพียงแค่เริ่มต้นขึ้นเท่านั้น แต่กำลัง วิวัฒนาการ สมรภูมิกำลังเปลี่ยนจาก ความเร็วที่ยังไม่ผ่านการปรับแต่ง ไปสู่ ประสิทธิภาพที่ประสานกันอย่างเป็นระบบ — คือความกลมกลืนของซิลิคอน (ชิป), ระบบเชื่อมต่อ (interconnect), คอมไพเลอร์, และโมเดล CUDA ของ Nvidia ยังคงเป็นปราการที่แข็งแกร่ง แต่การที่ Google นำเสนอสถาปัตยกรรม TPU ที่บูรณาการในแนวดิ่งอย่างสมบูรณ์ รวมถึงการเกิดขึ้นของทางเลือกอื่น ๆ จาก AWS/AMD/Alibaba ก็หมายความว่าในที่สุดลูกค้าก็มีอำนาจต่อรองแล้ว

เราใช้คุกกี้เพื่อให้เว็บไซต์ทำงานได้อย่างเหมาะสม วิเคราะห์การใช้งาน และปรับปรุงประสบการณ์ของคุณ โดยการใช้เว็บไซต์นี้ต่อ คุณยอมรับการใช้คุกกี้ของเรา