Google tuyên bố kế hoạch mở rộng hạ tầng AI gấp 1000 lần để giữ vững thế thống trị

Tóm tắt nhanh
Google đặt mục tiêu tăng công suất AI lên 1.000 lần trong 4-5 năm tới, bằng cách tăng gấp đôi năng lực phục vụ AI mỗi sáu tháng để đáp ứng nhu cầu bùng nổ của "kỷ nguyên suy luận". Để đạt được điều này với chi phí và điện năng không đổi, Google tập trung vào thiết kế tích hợp phần mềm với phần cứng tự sản xuất như chip TPU Ironwood và CPU Axion. Công ty cũng đối mặt với thách thức lớn về làm mát, năng lượng (áp dụng làm mát bằng chất lỏng, hệ thống điện 48V/400V DC, đầu tư vào năng lượng hạt nhân) và rủi ro bong bóng AI. Dù vậy, Google tin rằng không đầu tư đủ là rủi ro lớn nhất và đang thách thức sự thống trị của Nvidia bằng cách phát triển giải pháp AI chuyên biệt, hiệu quả hơn, với việc Meta Platforms đang cân nhắc sử dụng TPU của họ.
Google đã công bố một yêu cầu nội bộ đầy tham vọng nhằm tăng công suất AI lên gấp 1.000 lần trong vòng 4 đến 5 năm tới. Động thái này diễn ra trong bối cảnh cuộc đua AI toàn cầu đang nóng lên và đòi hỏi các công ty công nghệ phải đầu tư khổng lồ vào cơ sở hạ tầng tính toán, bất chấp những lo ngại về bong bóng AI.
Phó chủ tịch phụ trách cơ sở hạ tầng AI của Google Cloud, ông Amin Vahdat đã trình bày lộ trình này tại một cuộc họp toàn công ty vào đầu tháng 11, nhấn mạnh rằng Google phải tăng gấp đôi năng lực phục vụ AI sau mỗi sáu tháng để đáp ứng nhu cầu bùng nổ.
Kỷ nguyên suy luận là gì và tại sao nó lại quan trọng với các mô hình AI
Sự phát triển của AI đang bùng nổ chưa từng thấy, lý do là vì chúng ta đã chuyển từ việc chủ yếu huấn luyện các mô hình AI sang một giai đoạn mới gọi là kỷ nguyên suy luận (Inference Era) tức là để AI tự suy luận, tự quyết định.
Trước đây, giai đoạn tốn kém và ngốn tài nguyên nhất là lúc AI đang học hỏi. Nhưng giờ đây thì khác, đối với những mô hình siêu xịn mới nhất như Gemini 3 Pro lại cần một lượng sức mạnh máy tính khổng lồ và liên tục để làm những việc như: suy nghĩ, lập luận và viết code.
Ông Vahdat đã cảnh báo thẳng thắn rằng: Hiện tại, cuộc đua xây dựng cơ sở hạ tầng cho AI mới chính là phần quan trọng nhất và đắt đỏ nhất của toàn bộ cuộc chơi AI này!
Ưu thế của Google đi kèm với thách thức
Để đạt được mức tăng trưởng hạ tầng AI gấp 1.000 lần mà không làm chi phí vượt tầm kiểm soát, Google tiếp tục đặt cược vào hiệu suất và hiệu quả năng lượng.
Tối ưu hóa hiệu suất và chi phí
Google đã đặt ra mục tiêu với quá nhiều thách thức: cần cung cấp năng lực tính toán, lưu trữ và kết nối gấp 1.000 lần so với hiện nay, nhưng phải duy trì chi phí và mức tiêu thụ điện năng ở mức tương đương.
Để thực hiện điều này, Google áp dụng triết lý thiết kế đồng bộ rất giống của Nvidia. Đây là việc tích hợp chặt chẽ phần mềm, thuật toán (do DeepMind tự phát triển) với kiến trúc phần cứng “cây nhà lá vườn” của Google đó là TPU Ironwood và CPU Axion.
Vai trò của TPU Ironwood và CPU Axion là gì
Chip TPU Ironwood thế hệ thứ 7 (ra mắt vào tháng 4/2025) là trung tâm của chiến lược mở rộng này.
- Ironwood được thiết kế cho mục đích suy luận mô hình ngôn ngữ lớn (LLM inferencing).
- Google tuyên bố Ironwood cung cấp hiệu suất đỉnh cao gấp 10 lần so với TPU v5p ra mắt 2018 và hiệu suất trên mỗi watt gấp 2 lần so với thế hệ Trillium trước đó.
- Mỗi chip TPU v7 Ironwood được làm mát bằng chất lỏng có khả năng đạt 4.6 petaFLOPS (FP8 dense). Để hiểu rõ, chúng ta so sánh ngay với Blackwell B200 mới nhất của Nvidia cũng chỉ đạt 4.5 petaFLOPS (FP8 dense).
Bên cạnh đó, Google sử dụng CPU tự phát triển Axion (dựa trên Arm). Các khối lượng công việc đa năng đang được chuyển sang các bộ xử lý hiệu quả hơn này để giải phóng năng lượng và không gian nhiệt cho các TPU ngốn điện để phục vụ tác vụ AI chuyên dụng.

Thách thức hạ tầng và năng lượng
Việc tăng công suất tính toán lên mức siêu lớn tất nhiên cũng phải đòi hỏi phải vượt qua các rào cản vật lý lớn về điện năng và làm mát.
Hiện tại, các con chip AI đang mạnh mẽ đến mức chúng trở thành những "lò sưởi tí hon". Dù kích thước chip rất nhỏ, nhưng nhiệt độ và sức nóng mà chúng tạo ra lại cực kỳ khủng khiếp.
Để giải quyết vấn đề này, Google đang thực hiện hai giải pháp chính:
- Làm mát bằng chất lỏng: Họ đã chuyển sang dùng nước hoặc chất lỏng chuyên dụng để làm mát trực tiếp các chip. Cách này hiệu quả hơn rất nhiều so với quạt gió.
- Hệ thống điện 48V: Google đang triển khai hệ thống phân phối điện 48V. Đây là một giải pháp giúp truyền tải điện hiệu quả hơn và giảm thiểu việc lãng phí điện năng bị biến thành nhiệt.
Trong tương lai, khi các tủ máy (rack) chứa chip mạnh đến mức cần công suất hàng trăm kilowatt, Google đang nghiên cứu đến một bước đột phá lớn hơn: chuyển sang dùng nguồn điện một chiều DC 400 V. Điều này sẽ giúp họ khai thác toàn bộ sức mạnh của các hệ thống học máy khổng lồ mà không sợ bị quá tải về điện.
Cam kết môi trường và khủng hoảng năng lượng
Theo Alphabet (công ty mẹ của Google) luôn đặt mục tiêu Net Zero (phát thải ròng bằng 0) vào năm 2030 giống như chính phủ Việt Nam ta. Tuy nhiên, nhu cầu năng lượng cho mảng AI đang bị cảnh báo là rất lớn và có thể ảnh hưởng đến các mục tiêu khí hậu của Alphabet.
Để giải quyết tình trạng thiếu hụt năng lượng trên toàn cầu, Google đang tìm kiếm các nguồn cung cấp năng lượng tại chỗ đáng tin cậy, sạch sẽ và có chi phí thấp. Google đã công bố đầu tư vào năng lượng hạt nhân (Kyros), sử dụng các lò phản ứng mô-đun nhỏ (SMRs) 500 megawatt.
Bong bóng và rủi ro tài chính của AI sẽ diễn biến thế nào
Mặc dù Google đang dốc hết tiền đầu tư vào công nghệ AI nhưng trên thị trường tài chính, ai cũng đang lo lắng về một bong bóng AI sắp vỡ.
Bản thân Sundar Pichai (CEO Alphabet) cũng phải thẳng thắn thừa nhận: "Có những yếu tố hơi phi lý trong cách thị trường đang định giá các công ty AI hiện nay." Bằng chứng là Alphabet đã nâng dự báo chi tiêu cho xây dựng cơ sở hạ tầng (CapEx) cho năm 2025 lên đến 93 tỷ USD một con số khổng lồ!
Tuy nhiên, ông Pichai có một lập luận rất chắc chắn” Rủi ro lớn nhất không phải là đầu tư quá nhiều, mà là không đầu tư đủ.”
Ông đưa ra ví dụ: Mảng Google Cloud đang tăng trưởng rất ấn tượng, nhưng đáng lẽ doanh thu còn phải cao hơn nữa nếu như họ có đủ năng lực tính toán để phục vụ khách hàng. Nói cách khác, Google chấp nhận rủi ro đầu tư lớn để không bỏ lỡ cơ hội kiếm tiền khủng trong tương lai.
Google có đang thách thức sự thống trị của Nvidia
Google đang tăng tốc đầu tư vào hệ thống TPU (chip xử lý AI riêng của họ) và theo đuổi chiến lược tự làm từ A đến Z (từ thiết kế đến sản xuất chip). Điều này đang tạo ra một giải pháp thay thế rất tiềm năng cho chip GPU của Nvidia vị vua đang thống trị thị trường hạ tầng AI hiện nay.
Chip TPU của Google là một loại mạch điện tử (ASIC) được sinh ra chỉ để làm một việc: tính toán cho AI. Nó không giống như GPU của Nvidia.
- GPU của Nvidia giống như một vận động viên đa năng, rất linh hoạt và làm được nhiều việc hơn.
- TPU của Google giống như một vận động viên chuyên biệt, có thể làm một số tác vụ huấn luyện và suy luận AI khối lượng lớn hiệu quả hơn và ít tốn điện hơn đối thủ.
Canh bạc đặt cược vào TPU của Google đang bắt đầu có hiệu quả khi Meta Platforms đang đàm phán để sử dụng TPU của Google với mục đích là đa dạng hóa nhà cung cấp và giảm bớt sự phụ thuộc vào Nvidia. Dự kiến, Meta có thể bắt đầu thuê năng lực TPU từ năm 2026 và mua chip số lượng lớn từ năm 2027.
Tóm lại, kế hoạch tăng tốc hạ tầng AI lên gấp 1.000 lần của Google không chỉ là một mục tiêu về số lượng mà là là sự thay đổi về cách thiết kế hệ thống.
Google đang biến trung tâm dữ liệu thành một cỗ máy thống nhất và cực kỳ hiệu quả. Họ tập trung vào việc đồng bộ thiết kế giúp phần cứng bắt tay với phần mềm để cùng xử lý tác vụ cùng tiết kiệm điện năng, hơn nữa là dùng chip nhà làm giống như điều Apple đã và đang làm để bảo đảm vị thế dẫn đầu trong cuộc đua với tốc độ chóng mặt!



