Microsoft vừa giới thiệu mô hình AI tạo sinh đột phá mang tên WHAMM, trình diễn khả năng tạo ra phiên bản Quake II theo thời gian thực. Dù chỉ là một minh chứng ý tưởng (proof of concept) và chưa thực sự “vui” để chơi, đây là một bước tiến đáng kinh ngạc trong lĩnh vực AI tạo sinh game, định hình tương lai của ngành công nghiệp trò chơi.
Sự phát triển của các mô hình AI tạo sinh trong game đang diễn ra với tốc độ chóng mặt. Cộng đồng nghiên cứu đã tìm ra cách chạy Doom bên trong mô hình học neural GameNGen của Google, OASIS AI cho phép bạn trải nghiệm một phiên bản Minecraft tạo sinh “điên rồ” ngay trên trình duyệt, và vào tháng 2 năm 2025, Microsoft đã giới thiệu hệ thống game AI tạo sinh WHAM độc đáo của mình.
Mô hình WHAM-1.6B mà Microsoft trình diễn sáu tuần trước đó tuy ấn tượng nhưng còn nhiều hạn chế về mặt thực tiễn. Nó chỉ có thể tạo ra một khung hình mỗi giây ở độ phân giải 300 x 180 và đòi hỏi lượng dữ liệu huấn luyện khổng lồ kéo dài bảy năm để tạo ra một trò chơi “có thể chơi được”. Ngay sau khi ra mắt WHAM-1.6B, Microsoft đã bắt tay vào phát triển phiên bản nâng cấp WHAMM (World Human Action MaskGIT Model), và kết quả thực sự gây sốc. WHAMM không chỉ hoạt động ở độ phân giải video 600 x 340 (gấp đôi WHAM-1.6B) mà còn xuất hình ảnh với tốc độ tối thiểu 10 FPS và có thể tái tạo Quake II chỉ với một tuần dữ liệu huấn luyện.
Kiến trúc tinh chỉnh là yếu tố then chốt tạo nên những cải tiến này. Thay vì sử dụng hệ thống tự hồi quy “LLM-like” điển hình, nơi mô hình AI tạo ra từng token một, thiết lập MaskGIT của WHAMM cho phép “tạo ra tất cả các token cho một hình ảnh trong số lượng thế hệ bất kỳ mà chúng ta muốn”. Nói cách khác, mô hình AI mới này tận dụng khả năng xử lý song song để tăng tốc độ đầu ra, cải thiện chất lượng hình ảnh và độ chính xác dự đoán.
Hình ảnh game Quake II được tạo bởi AI WHAMM của Microsoft trên trình duyệt, thể hiện chất lượng đồ họa chưa tối ưu.
Từ góc độ thực tế, các trò chơi được tạo bởi WHAMM chưa thực sự thú vị để chơi. Hình ảnh bị mờ, nhòe, và thô, tốc độ khung hình chưa lý tưởng (mặc dù không quá khác biệt so với trải nghiệm của game thủ năm 1997), và kẻ thù trong game hầu như không thể nhận dạng được. Phiên bản demo cũng bị giật lag nghiêm trọng, mặc dù Microsoft đổ lỗi cho “độ trễ đáng kể” này là do trình phát web chứ không phải bản thân mô hình AI.
WHAMM cũng gặp phải vấn đề “trí nhớ ngắn hạn” mà chúng ta thường thấy ở các mô hình AI tạo sinh game khác. Là một mô hình dự đoán, WHAMM tạo ra các khung hình mới bằng cách nhìn vào các khung hình trước đó – nó kém trong việc theo dõi máu và đạn dược, kẻ thù có thể biến mất nếu bạn không nhìn vào chúng (hoặc xuất hiện ngẫu nhiên không rõ lý do), và nếu bạn đẩy nhân vật vào tường hoặc nhìn chằm chằm xuống sàn, bạn có thể bị dịch chuyển đến một vị trí khác trên bản đồ.
Tuy nhiên, trong các thử nghiệm, WHAMM dường như có ít vấn đề “trí nhớ ngắn hạn” hơn một số mô hình khác. Độ dài ngữ cảnh 0.9 giây của nó vừa đủ tốt để ngăn chặn những trải nghiệm “xoắn não, ảo giác” mà người dùng đã gặp phải khi chơi với AI Minecraft tạo sinh, mặc dù độ dài ngữ cảnh rõ ràng là một thách thức lớn mà Microsoft cần phải vượt qua.
Cũng cần lưu ý rằng WHAMM chỉ được huấn luyện trên cấp độ đầu tiên của Quake II. Nếu bạn lên thang máy ở cuối cấp độ, mô hình sẽ bị treo. Vì vậy, khẳng định của Microsoft rằng WHAMM có thể được huấn luyện chỉ với dữ liệu video trong một tuần có phần gây hiểu lầm – mô hình yêu cầu ít dữ liệu huấn luyện hơn WHAM-1.6B, nhưng lượng dữ liệu cần thiết để tạo ra một trò chơi tương tác sẽ khác nhau tùy thuộc vào độ dài nội dung, độ phức tạp của game và các yếu tố khác.
Về cách công nghệ này sẽ được sử dụng trong tương lai, Microsoft nhận thức rằng AI tạo sinh thời gian thực có thể tạo ra “các loại phương tiện truyền thông tương tác mới”, nhưng họ vẫn đang khám phá xem phương tiện đó nên là gì.
Bạn có thể trải nghiệm phiên bản Quake II được tạo bởi AI thời gian thực tại website Copilot Labs. Các trò chơi sẽ được giới hạn thời gian và sẽ đặt lại khi hết giờ. Xin nhắc lại, đây chỉ là một minh chứng ý tưởng, vì vậy đừng kỳ vọng quá nhiều vào nó.
Nguồn: Microsoft