Hermes Agent là gì? AI agent tự học của Nous Research

Xuất bản vào 19 tháng 06, 2026

Tóm tắt nhanh

Hermes Agent là nền tảng AI Agent mã nguồn mở đột phá do Nous Research phát triển, đánh dấu sự chuyển dịch từ chatbot hỗ trợ thông thường sang trợ lý AI chủ động hành động. Với khả năng lưu trữ ngữ cảnh liên tục qua cơ chế ghi nhớ dự án và tự tạo kỹ năng mới, công cụ này giải quyết triệt để hạn chế của các chatbot hoạt động theo từng phiên độc lập. Bên cạnh đó, hệ thống hỗ trợ tích hợp đa nền tảng từ Telegram đến Discord, lên lịch tự động hóa bằng ngôn ngữ tự nhiên và chia nhỏ công việc thông qua kiến trúc subagents cách ly. Môi trường sandbox đa tầng bảo mật tuyệt đối giúp người dùng yên tâm tự lưu trữ và kiểm soát hoàn toàn dữ liệu cá nhân.

Càng học nhiều thì càng giỏi hơn, nguyên tắc tưởng chỉ áp dụng cho con người này hóa ra cũng đúng với Hermes Agent, một AI agent mã nguồn mở của Nous Research. Mỗi lần làm việc cùng bạn, Hermes Agent không quên đi mà ghi nhớ lại, hiểu bạn sâu hơn và tự giỏi lên qua từng phiên sử dụng, nhờ một hệ thống bộ nhớ có thể nhớ mọi thứ về bạn ngay cả khi máy đã tắt cả tuần.

Hermes Agent là gì?

Hermes Agent là một AI agent mã nguồn mở do Nous Research, phòng nghiên cứu đứng sau các dòng model Hermes, Nomos và Psyche, phát triển và phát hành dưới giấy phép MIT. Khác với các Antigravity hay Codex phụ thuộc vào môi trường IDE hay các chatbot thông thường cuối cùng vẫn chỉ là lớp vỏ gọi một API duy nhất, Hermes Agent được thiết kế để chạy liên tục trên hạ tầng riêng của người dùng, từ một con VPS giá rẻ cho đến cụm GPU hay hạ tầng serverless và nó hoạt động gần giống như Open Claw .

Điểm khác biệt cốt lõi của Hermes Agent nằm ở khả năng quản trị trí nhớ lâu dài và tự chuyển hóa trải nghiệm thành skills thực tế. Thay vì chỉ lưu trữ thông tin thô hay ghi nhớ sở thích một cách thụ động như các AI như Gemini hay Claude, Hermes sở hữu một "vòng lặp học tập" khép kín tức là sau mỗi phiên làm việc, nó chủ động đúc kết quy trình thành các công cụ làm việc mới để sử dụng cho những lần sau. Hệ thống này được vận hành bởi một "Agent quản trị" (Curator) chạy ngầm để tự động chấm điểm, cắt tỉa và hợp nhất kiến thức, kết hợp cùng công nghệ tìm kiếm FTS5 giúp truy xuất ký ức cũ nhanh gấp 4.500 lần mà không tốn chi phí token. Nhờ đó, Hermes không chỉ phản hồi rồi quên đi mà thực sự trở thành một cộng sự ngày càng am hiểu và chuyên nghiệp hơn theo thời gian sử dụng.

Bốn tính năng tạo nên khác biệt của Hermes Agent

Nous Research không gọi Hermes Agent là chatbot hay copilot mà định vị nó như một agent có vòng lặp học tập được tích hợp sẵn. Bốn nhóm tính năng dưới đây giải thích vì sao cách gọi đó không chỉ là chiêu marketing.

Bộ nhớ xuyên phiên làm việc

Điểm yếu lớn nhất của hầu hết AI hiện nay là trạng thái trí nhớ đều lưu trữ thông tin thô của đoạn chat chứ chưa nhớ được cách làm việc. Hermes Agent đã đưa ra cách xử lý vấn đề này bằng ba cơ chế kết hợp:

Truy xuất nhanh: Dùng cơ chế tìm kiếm toàn văn FTS5, giúp tìm lại ký ức cũ nhanh hơn khoảng 4.500 lần so với cách tìm kiếm thông thường, mà không tốn thêm token giống như Gemini hay Cowork.
Thấu hiểu người dùng: Tích hợp phương pháp mô hình hóa người dùng theo hướng dialectic từ Honcho, giúp agent hiểu sâu sở thích, thói quen và bối cảnh cá nhân xuyên suốt hàng nghìn phiên làm việc.
Liên tục: Agent tiếp nối công việc đúng tại nơi bạn đã dừng lại, kể cả khi đó là một dự án từ nhiều tuần trước.

Tự tạo và tự cải thiện kỹ năng

Đây là tính năng giúp Hermes Agent hoạt động như một cộng sự tích lũy kinh nghiệm, thay vì chỉ là một công cụ trả lời theo yêu cầu:

Tự học từ thực tế: Sau khi hoàn thành các tác vụ phức tạp, Hermes Agent tự đúc kết quy trình thành kỹ năng mới (skills) và lưu vào thư viện để dùng tự động cho lần sau.
Chuẩn mở agentskills.io: Các kỹ năng này tuân theo chuẩn mở, có thể đóng gói, chia sẻ và tái sử dụng giữa các hệ thống AI khác nhau mà không cần viết lại từ đầu.
Cơ chế Curator: Một tác nhân quản trị sẽ chạy ngầm định kỳ chấm điểm, cắt tỉa và hợp nhất các kỹ năng (skills) trùng nhau, điều giúp thư viện kỹ năng không phình to và rối loạn theo thời gian.

Hiện diện trên hơn 23 nền tảng nhắn tin

Hermes Agent không bị giới hạn trong chỉ dùng trong máy tính mà tích hợp trực tiếp vào các kênh giao tiếp trên điện thoại mà người dùng đã quen dùng hằng ngày:

Đa kênh, một bộ não: Có thể ra lệnh cho Hermes Agent qua Telegram, Discord, Slack, WhatsApp, Signal, email hoặc SMS.
Duy trì ngữ cảnh: Dù nhắn tin qua Telegram vào buổi sáng và chuyển sang Discord vào buổi tối thì agent vẫn giữ một dòng ký ức duy nhất, không bị phân mảnh theo từng kênh.
Tương tác đa phương thức: Hỗ trợ gửi tin nhắn thoại, hình ảnh và video, kèm khả năng phân tích nội dung đa phương thức.

Linh hoạt về hạ tầng chạy

Hermes Agent hỗ trợ sáu loại backend để thực thi lệnh: máy cục bộ, Docker, SSH, Daytona, Singularity và Modal. Với Daytona và Modal, môi trường có thể tạm ngủ khi không dùng đến và gần như không tốn chi phí lúc rảnh, chỉ thức dậy khi có việc cần xử lý. Đây là lý do Nous Research mô tả Hermes Agent là agent luôn trực tuyến mà không cần người dùng phải duy trì một máy chủ chạy 24/7 với chi phí cao quanh năm.

Giao diện tổng quan của Hermes Agent trên desktop app — Hermes Agent, AI agent tự học của Nous Research

Bộ công cụ tích hợp sẵn và những giới hạn cần biết

Hơn 40 công cụ dựng sẵn, từ tìm kiếm web đến tự động hóa lịch

Hermes Agent đi kèm hơn 40 công cụ có sẵn, bao gồm tìm kiếm web, thao tác trình duyệt, xử lý file và thực thi script Python qua RPC để chạy các tác vụ con mà không tốn thêm ngữ cảnh của agent chính. Một hệ thống lập lịch bằng ngôn ngữ tự nhiên cho phép đặt các tác vụ định kỳ như báo cáo hằng ngày hay sao lưu dữ liệu, rồi để agent tự chạy mà không cần ai nhắc lại. Với những việc cần tách biệt hoàn toàn, Hermes Agent còn hỗ trợ các sub-agent có cuộc trò chuyện, terminal và script riêng giúp xử lý song song nhiều việc mà không làm loãng bộ nhớ chính.

Những thách thức và lưu ý về bảo mật

Dù đang cập nhật nhanh, Hermes Agent vẫn có một số điểm người dùng cần lưu ý trước khi triển khai:

Độ ổn định của cơ chế tự học: Khả năng tự cải thiện kỹ năng giúp tăng tỷ lệ thành công theo báo cáo của Tencen Cloud ghi nhận mức tăng tới 52% và tiết kiệm tới 61% lượng token. Tuy nhiên đây là cơ chế tự tiến hóa (self-evolving), hiệu quả thực tế vẫn phụ thuộc vào model nền mà người dùng chọn và vẫn cần có sự giám sát của con người thay vì tin tưởng tuyệt đối.
Rủi ro từ quyền hạn cao và trách nhiệm bảo mật thuộc về người dùng: Hermes Agent có thể can thiệp sâu vào hệ thống (excessive agency), nên việc kết nối trực tiếp với nhiều nền tảng nhắn tin đòi hỏi người dùng tự quản lý API key và thiết lập rào chắn (guardrails). Khác với các dịch vụ AI đóng, Hermes Agent trao toàn bộ quyền kiểm soát cho người dùng, đồng nghĩa người dùng cũng phải chịu trách nhiệm cao hơn trong việc cấu hình quyền truy cập để tránh rò rỉ thông tin.

Vì sao Hermes Agent tăng trưởng thần tốc?

Hermes Agent có thể bùng nổ nhờ cách làm marketing của Nous Research nhưng theo mình nó đến từ ba yếu tố chính.

Chính sách di cư không rào cản từ OpenClaw

Nhận thấy lượng người dùng lớn của OpenClaw, Nous Research xây dựng công cụ di chuyển cho phép mang nguyên persona, API key, toàn bộ kỹ năng và bộ nhớ sang Hermes Agent chỉ bằng một lệnh mà không bị mất dữ liệu cũ và tất nhiên là không cần cấu hình lại từ đầu.

Nếu bạn đang dùng OpenClaw và muốn thử Hermes Agent mà không mất dữ liệu cũ, hãy tìm công cụ di chuyểnhermes claw migrate tích hợp sẵn trong Hermes Agent trước khi nghĩ đến việc cài lại từ đầu.

Đặt cược vào vòng lặp học tập khép kín thay vì chạy đua tính năng

Trong khi nhiều agent khác cạnh tranh về số lượng công cụ, Hermes Agent định vị mình là một thực thể tự tiến hóa, biết đúc kết kinh nghiệm thành kỹ năng mới và giữ bộ nhớ dài hạn để hiểu người dùng sâu hơn theo thời gian. Hướng đi này tạo ra giá trị bền vững, từng được cộng đồng tận dụng cho những dự án như tự động hóa sản xuất nội dung quy mô lớn với độ nhất quán cao qua nhiều phiên làm việc.

Vai trò làm nền tảng sinh dữ liệu huấn luyện

Không chỉ là trợ lý cá nhân, Hermes Agent còn là một công cụ nghiên cứu mạnh mẽ. Nó có khả năng tạo ra hàng nghìn quỹ đạo gọi công cụ (tool-calling trajectories) song song và nén chúng lại để huấn luyện các mô hình AI khác. Việc biến trải nghiệm thực tế của agent thành dữ liệu huấn luyện giúp Hermes trở thành nền tảng không thể thiếu cho các nhà phát triển muốn xây dựng thế hệ AI tự chủ tiếp theo.

Hermes Agent khác gì một agent harness?

Nhiều người mới tìm hiểu dễ nhầm Hermes Agent với khái niệm agent harness vốn là bộ khung quyết định cách một model gọi công cụ, nó xử lý vòng lặp suy luận và điều phối các bước thực thi bên trong. Nếu coi harness là phần động cơ và khung gầm quyết định cách một chiếc xe vận hành, thì Hermes Agent giống một chiếc xe đã lắp sẵn động cơ đó rồi cộng thêm ghế ngồi, hệ thống định vị và cả bộ nhớ hành trình của riêng người lái.

Nói cách khác, harness là lớp kiến trúc kỹ thuật nằm bên dưới, còn Hermes Agent là sản phẩm hoàn chỉnh dành cho người dùng cuối, đã đóng gói sẵn bộ nhớ, hệ thống kỹ năng, kênh giao tiếp và lựa chọn hạ tầng chạy. Một nhà phát triển có thể tự xây harness riêng để kiểm soát từng chi tiết nhỏ, nhưng phần lớn người dùng không cần đi sâu đến mức đó, họ chỉ cần một agent chạy được ngay và ngày càng thông minh hơn qua quá trình sử dụng. Để hiểu rõ hơn về lớp kiến trúc bên dưới này, có thể đọc thêm Agent harness là gì? Bộ khung giúp AI làm việc hiệu quả, nơi giải thích chi tiết cách các framework dạng này hoạt động.

Hermes Agent có đáng thử ngay bây giờ?

Với việc toàn bộ mã nguồn mở, không thu thập dữ liệu người dùng và có thể tự host hoàn toàn, Hermes Agent là một trong số ít agent hiện nay cho phép người dùng kiểm soát trọn vẹn dữ liệu của chính mình, trong khi vẫn có được trải nghiệm trợ lý liên tục với trí nhớ thật, không phải trí nhớ giả lập chỉ tồn tại trong một cuộc chat đơn lẻ. Sau bản v0.16.0, rào cản kỹ thuật lớn nhất với người dùng không quen terminal cũng đã được dỡ bỏ phần lớn, khi ứng dụng desktop native cho Windows, macOS và Linux đã thay thế hoàn toàn cách dùng CLI thuần trước đây.

Điều còn lại để đánh giá Hermes Agent không phải là nó có chạy được hay không, mà là nó học được gì sau vài tuần sử dụng thật. Cách kiểm chứng nhanh nhất là cài bản desktop hoặc chạy CLI trên một VPS rẻ, kết nối với một kênh nhắn tin quen dùng như Telegram, rồi quan sát agent tự hình thành những kỹ năng nào từ chính cách bạn dùng nó mỗi ngày. Đó cũng là tiền đề để so sánh Hermes Agent với các lựa chọn khác trên thị trường, từ Agent Harness cho đến OpenClaw và Claude Cowork, trong phần tiếp theo của loạt bài này.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Gemini đồng hành cùng Argentina và Messi tại World Cup 2026

Gemini đã thắng lớn theo đúng nghĩa đen ngay khi Messi lập cú hat-trick đầu tiên tại World Cup 2026, giúp Argentina đè bẹp Algeria với tỷ số 3-0 và cân bằng kỷ lục 16 bàn thắng của Miroslav Klose. Khoảnh khắc lịch sử này chính là bệ phóng hoàn hảo cho Gemini. Trước đó vào tháng 3/2026, Google và Liên đoàn bóng đá Argentina (AFA) đã đưa ra một quyết định táo bạo: thay vì chỉ in logo trên áo tập, họ ký hợp đồng để AI này tham gia hỗ trợ chiến thuật và đưa ra các quyết định chuyên môn. Đến nay, thương vụ đặt cược này đã chứng minh đó là một chiến lược hoàn toàn đúng đắn. Từ áo tập đến phòng họp chiến thuật Thỏa thuận giữa AFA và Google được công bố tại Times Square, New York, một địa điểm được chọn có chủ ý để gây chú ý với truyền thông toàn cầu. Logo Gemini xuất hiện trên toàn bộ trang phục tập luyện của đội tuyển nam, nữ lẫn các lứa trẻ Argentina, đứng ngang hàng với Adidas và American Express trong tầng tài trợ cao nhất của AFA. Nhưng phần thú vị không nằm ở chiếc áo. Theo thông tin từ Inside World Football, ban huấn luyện Argentina sẽ dùng Gemini cho ba việc cụ thể: phân tích chiến thuật, phòng ngừa chấn thương và hỗ trợ ra quyết định. Nói cách khác, Gemini có mặt trong những cuộc họp mà trước đây chỉ có Scaloni và các trợ lý của ông được ngồi. Google không tiết lộ cụ thể những công cụ Gemini nào được tích hợp vào quy trình làm việc của AFA. Điều duy nhất rõ ràng là họ đang dùng World Cup để đưa Gemini vào thực tế bóng đá chuyên nghiệp, và kết quả sẽ được chấm điểm công khai. Gemini làm gì trong phòng thay đồ? Argentina đến World Cup 2026 với tư cách nhà đương kim vô địch. Mọi quyết định của Scaloni, từ danh sách triệu tập đến lựa chọn đội hình, đều bị soi kỹ hơn bất kỳ đội nào khác, và đây cũng chính là lý do Argentina trở thành phòng thí nghiệm lý tưởng nhất mà Google từng có cho Gemini trong môi trường bóng đá chuyên nghiệp và đặc biệt là ở giải đấu lớn. Phân tích chiến thuật Gemini được dùng để xử lý dữ liệu trận đấu của cả Argentina lẫn đối thủ, bao gồm thống kê di chuyển, mẫu hình tấn công và điểm yếu phòng thủ. Thay vì ban huấn luyện phải ngồi xem lại hàng giờ video, AI tổng hợp và đưa ra các sơ đồ chiến thuật được tạo tự động điều này sẽ tiết kiệm đáng kể thời gian chuẩn bị trước mỗi trận. Phòng ngừa chấn thương Đây là bài toán mà mọi đội bóng lớn đều muốn giải, đặc biệt khi Messi và nhiều trụ cột đã ở độ tuổi cần quản lý tải lượng tập luyện cẩn thận. Gemini phân tích dữ liệu sinh học và lịch sử chấn thương để đưa ra cảnh báo sớm, giúp ban huấn luyện điều chỉnh cường độ tập trước khi vấn đề thực sự xảy ra. Đó là lý do vì sao vừa ghi hat-trick Scaloni đã quyết định thay Messi ra để đảm bảo thể lực và an toàn cho các trận đấu sau. AI trong phòng ngừa chấn thương tất nhiên không phải diều mới mẻ gì khi mà tại Premier League đã có Microsoft làm đối tác cho mục đích tương tự. Điểm khác biệt lần này là Gemini được tích hợp trực tiếp vào quy trình của một đội tuyển dự giải lớn, không chỉ ở cấp câu lạc bộ. Phía người hâm mộ: tạo ảnh Messi, theo dõi tỉ số không cần mở khóa màn hình Song song với việc hỗ trợ ban huấn luyện, Gemini cũng triển khai một loạt tính năng hướng đến người hâm mộ, và đây mới là phần mà hàng trăm triệu người thực sự chạm vào. Gemini cho phép tạo nội dung về cầu thủ luôn Người dùng có thể tạo ảnh, bài nhạc và nội dung kỹ thuật số gắn với các cầu thủ Argentina như Messi ngay trong ứng dụng Gemini. Tính năng này được thiết kế để đưa trải nghiệm World Cup đến gần hơn với những người không thể đến sân trực tiếp. Tỉ số thời gian thực và bản tin tự động Trên Google Search, tỉ số trận đấu được ghim lên màn hình khóa và cập nhật theo thời gian thực, có animation riêng cho bàn thắng và thẻ đỏ mà không cần mở khóa điện thoại. Với người dùng Gemini trả phí, tính năng Scheduled Actions cho phép thiết lập bản tin bóng đá tự động mỗi ngày, bao gồm tỉ số, tin tức và lịch thi đấu, được giao đúng giờ đã chọn mà không cần nhắc lại mỗi ngày. Hạ tầng phục vụ ngày thi đấu Google cập nhật Street View tại 16 sân vận động chủ nhà và tối ưu hóa lộ trình trên Waze cho ngày thi đấu. Waze còn hiển thị tỉ số trực tiếp khi xe dừng đèn đỏ, để người lái không cần cầm điện thoại trong lúc di chuyển. World Cup 2026 là phép thử thật sự cho AI trong thể thao Google không chỉ tài trợ cho Argentina. Gemini còn có mặt trên áo của Pháp, Morocco, Iraq, Thổ Nhĩ Kỳ và Mỹ, trong khi Pixel là điện thoại chính thức của đội Pháp với Gemini được dùng cho liên lạc nội bộ. Đây rõ ràng là chiến lược tổng thể của Google và không phải một hợp đồng đơn lẻ. Điều khiến World Cup 2026 trở nên đặc biệt là nó sẽ trả lời một câu hỏi mà không phòng lab nào làm được: người dùng thực sự dùng AI để làm gì khi có một giải đấu World Cup 2026 kéo dài 6 tuần với 104 trận? Các tính năng chạy trên sức hút ban đầu sẽ tắt dần sau vòng bảng. Những gì người dùng còn tiếp tục dùng đến tận trận chung kết mới là câu trả lời thật cho câu hỏi AI phù hợp ở đâu trong cuộc sống hàng ngày, và Google biết rõ điều đó. Giám đốc truyền thông Google khu vực Mỹ Latinh, Flor Sabatini, phát biểu rằng World Cup 2026 sẽ đánh dấu một trước và sau trong lịch sử bóng đá nhờ AI. Câu nói nghe có vẻ marketing, nhưng thực tế là lần đầu tiên một mô hình AI lớn được tích hợp vào chuẩn bị của đội đương kim vô địch, ngay giữa một giải đấu được xem nhiều nhất hành tinh. World Cup 2026 là bài kiểm tra thật của Gemini Điểm đáng chú ý nhất của toàn bộ câu chuyện này không phải logo Gemini trên áo Messi. Đó là việc Argentina tất nhiên vẫn là đội được kỳ vọng nhất và bị soi kỹ nhất, với áp lực bảo vệ chức vô địch vẫn đặt một phần quy trình chuẩn bị của mình vào AI. Nếu Argentina thành công, Gemini có một case study không thể mua bằng tiền quảng cáo. Nếu Argentina thất bại mà ban huấn luyện quy trách nhiệm một phần cho AI, câu chuyện sẽ đi theo chiều ngược lại hoàn toàn. Dù kết quả thế nào, đây là lần đầu tiên AI phải chịu trách nhiệm ở một sân khấu thực sự có giá trị, không phải benchmark, không phải demo, mà là World Cup. Với người dùng AI, điều đáng theo dõi không chỉ là Argentina có vô địch hay không, mà là xem liệu Gemini có thực sự thay đổi cách một đội bóng vận hành, hay chỉ là logo trên áo tập đẹp hơn mọi năm.

Nam•

17 thg 6, 2026

Đọc thêm

Toàn cảnh công nghệ AI tại World Cup 2026

Quả bóng Adidas Trionda, mô hình 3D cầu thủ chính xác đến từng milimet, robot chó tuần tra sân vận động và Google Gemini ngồi ngay bên đường biên cùng đội tuyển Argentina. World Cup 2026 không chỉ là giải đấu lớn nhất lịch sử với 104 trận đấu tại 16 thành phố ở Mỹ, Canada và Mexico mà còn là cuộc triển khai AI quy mô nhất từng có trong thể thao. Quả bóng thông minh Adidas Trionda hoạt động như thế nào Quả bóng chính thức của giải đấu mang tên Adidas Trionda được trang bị cảm biến IMU (Inertial Measurement Unit) hoạt động ở tần số 500Hz, tức là mỗi giây nó thu thập 500 điểm dữ liệu về chuyển động, độ xoáy và thời điểm chính xác bóng chạm chân cầu thủ. Điều này đặc biệt quan trọng cho các tình huống việt vị, bởi cảm biến sẽ xác định chính xác đến từng mili giây thời điểm bóng rời chân người chuyền. Dấu thời gian (timestamp) từ cảm biến được đồng bộ ngay lập tức với hệ thống theo dõi cầu thủ, giúp khóa chặt vị trí của mọi cái bóng trên sân tại đúng khoảnh khắc ấy thay vì phụ thuộc vào mắt thường vốn có thể lệch đến nửa giây. Kết quả là những quyết định việt vị được đưa ra nhanh chóng và chính xác hơn bao giờ hết. Công nghệ tối tân này đã lập tức cứu nguy cho đội tuyển Thụy Điển khi xác định chính xác thời điểm chạm bóng của tiền đạo Alexander Isak . Trước đó, niềm vui của người ghi bàn Svanberg phải tạm chùng xuống khi tổ VAR vào cuộc kiểm tra. Trong pha bóng diễn ra với tốc độ chóng mặt, anh dường như đã đứng dưới hàng thủ Tunisia khi bóng được đưa vào vòng cấm, khiến nhiều người tin rằng bàn thắng sẽ bị hủy bỏ. Thế nhưng, chính dữ liệu từ cảm biến chuyển động gắn bên trong quả bóng Trionda của Adidas đã chứng minh Svanberg kịp di chuyển trở lại vị trí hợp lệ, mang về bàn thắng hợp pháp cho Thụy Điển trong sự vỡ òa của người hâm mộ. . Công nghệ việt vị bán tự động với mô hình 3D cầu thủ Công nghệ bắt việt vị bán tự động (SAOT) đã được nâng cấp đáng kể cho World Cup 2026 với điểm nhấn là avatar 3D của từng cầu thủ. Mỗi cầu thủ tham dự giải đấu được quét kỹ thuật số toàn thân chỉ trong khoảng một giây, tạo ra mô hình 3D với kích thước cơ thể chi tiết đến từng bộ phận. Khi có tình huống cần VAR xem xét, hệ thống sẽ phủ các mô hình 3D này lên dữ liệu theo dõi thời gian thực từ hơn 12 camera chuyên dụng tại mỗi sân vận động. Cách tiếp cận này giải quyết triệt để vấn đề tồn tại lâu nay của đường kẻ việt vị 2D, khi cánh tay, vai hoặc bàn chân cầu thủ có thể bị che khuất từ một góc camera nhất định. Mô hình 3D lấp đầy những khoảng trống đó bằng dữ liệu giải phẫu thực tế, và kết quả hiện lên dưới dạng hoạt hình 3D hoàn chỉnh trên sân cũng như trên sóng truyền hình, thay thế hoàn toàn những đường kẻ phẳng xanh đỏ từng gây bối rối cho khán giả. Football AI Pro: nền tảng phân tích AI cho cả 48 đội FIFA đã hợp tác cùng Lenovo để xây dựng Football AI Pro, một nền tảng phân tích được xây dựng trên mô hình nền tảng Football Language của FIFA, vốn được huấn luyện từ hàng trăm triệu điểm dữ liệu bóng đá qua nhiều thập kỷ thi đấu. Đây là lần đầu tiên trong lịch sử World Cup mà tất cả 48 đội tham dự đều có quyền truy cập vào cùng một nền tảng phân tích, thay vì các liên đoàn giàu có hơn nắm lợi thế nhờ công cụ dữ liệu tốt hơn. Nền tảng này xuất kết quả dưới nhiều định dạng: tóm tắt văn bản, clip video, biểu đồ tương tác và trực quan hóa chiến thuật 3D. Các đội có thể sử dụng nó trước và sau trận đấu để phân tích chiến thuật đối thủ, phát hiện mẫu hình đá phạt, theo dõi cường độ vận động cầu thủ và phân tích lịch sử đối đầu. Tuy nhiên, FIFA cấm sử dụng trong thời gian thi đấu, ban huấn luyện chỉ được dùng vào giờ nghỉ giữa hiệp và sau trận. Camera trên ngực trọng tài với AI ổn định hình ảnh Lần đầu tiên trong lịch sử, trọng tài ở cả 104 trận World Cup đều đeo camera trên ngực. Hình ảnh thô từ camera khi trọng tài chạy ở tốc độ cao vốn rung lắc và không thể dùng cho phát sóng, nhưng FIFA chạy mô hình AI ổn định hình ảnh theo thời gian thực trên từng khung hình, tạo ra chất lượng đủ chuẩn phát sóng. Kết quả là góc nhìn "Referee View" mang đến trải nghiệm chủ quan từ mặt sân, nhanh chóng trở thành một trong những đổi mới phát sóng được yêu thích nhất. Góc nhìn này không chỉ phục vụ giải trí mà còn cung cấp cho các nhà phân tích một nguồn dữ liệu mới: chính xác tầm nhìn mà trọng tài có khi đưa ra quyết định. Google Gemini trên đường biên và trải nghiệm người hâm mộ Tháng 3 năm 2026, Liên đoàn bóng đá Argentina công bố Google là nhà tài trợ toàn cầu chính thức, với logo Gemini xuất hiện trên áo tập của cả đội nam, nữ và trẻ. Nhưng sự hợp tác này vượt xa quảng cáo thương hiệu, vì ban kỹ thuật Argentina sử dụng Gemini trực tiếp cho phân tích chiến thuật từ video trận đấu, theo dõi dữ liệu tải trọng và phục hồi chấn thương, truy vấn dữ liệu lịch sử về các kịch bản đối đầu cụ thể, cũng như tạo bản tóm tắt đối thủ riêng cho từng cầu thủ. Đáng chú ý, cầu thủ và huấn luyện viên Argentina sử dụng Gemini qua ứng dụng tiêu chuẩn chứ không qua giao diện tùy chỉnh nào, phản ánh mức độ trưởng thành của các công cụ AI đa năng trong ứng dụng thể thao chuyên nghiệp. Bên cạnh đó, Google cũng triển khai hàng loạt tính năng cho người hâm mộ: tỷ số trực tiếp ghim trên màn hình khóa Android, tóm tắt trận đấu AI trên ứng dụng Gemini, sơ đồ chiến thuật theo yêu cầu, mẫu áo đấu trên Google Photos, điều hướng sân vận động qua Google Maps và thống kê trận đấu trên Google Search. Robot chó, nhận diện khuôn mặt và an ninh AI Tại các địa điểm tổ chức, FIFA triển khai robot chó Boston Dynamics Spot cho tuần tra an ninh vòng ngoài và kiểm tra cơ sở vật chất. Những robot này thực hiện tuần tra tự động ở các khu vực hạn chế, với camera trên thân kết nối vào hệ thống AI an ninh của sân vận động, đặc biệt hiệu quả ở những không gian khó giám sát liên tục như khu vực đường hầm, hành lang kỹ thuật ngầm và vòng ngoài sân vào ban đêm. Tầng sinh trắc học cũng đáng chú ý không kém: một số sân vận động sử dụng nhận diện khuôn mặt cho việc vào cổng, khuôn mặt bạn chính là vé vào, được xử lý đối chiếu với cơ sở dữ liệu trong chưa đầy một giây. Tuy nhiên, sự hiện diện rộng rãi của giám sát AI cũng đặt ra câu hỏi về quyền riêng tư trong các sự kiện thể thao quy mô lớn. AI dự đoán nhà vô địch: mỗi mô hình một đáp án Trước khi giải đấu khởi tranh, nhiều hệ thống AI đã mô phỏng toàn bộ 104 trận đấu để dự đoán nhà vô địch, và kết quả hoàn toàn không thống nhất. ChatGPT dự đoán Tây Ban Nha, mô hình nghiên cứu của FanDuel chọn Pháp (thắng Argentina 3 trên 2 trong trận chung kết), còn Yahoo Sports cùng DataCamp đều đặt cược vào Brazil. Sự bất đồng này rất đáng suy ngẫm, bởi mọi mô hình đều được cung cấp cùng một nguồn dữ liệu công khai gồm bảng xếp hạng FIFA, điểm ELO, phong độ vòng loại và báo cáo chấn thương, nhưng cách đánh trọng số khác nhau lại tạo ra những kết quả hoàn toàn khác biệt. Và tất nhiên, không mô hình nào có thể tính toán được cú sút chân trái của Messi ở phút 89 trong trận knock-out. Đó vẫn là bóng đá. AI không còn là thử nghiệm mà là hạ tầng Điều tạo nên sự khác biệt của World Cup 2026 so với các giải đấu trước không nằm ở bất kỳ công nghệ đơn lẻ nào, mà ở việc AI đã chuyển từ giai đoạn thử nghiệm sang hạ tầng vận hành. Quả bóng thông minh, hệ thống việt vị 3D, camera trọng tài, nền tảng phân tích: không thứ nào trong số này là dự án thí điểm. Chúng là nền tảng hoạt động cơ bản cho mọi trận đấu. Cảm biến 500Hz trong quả bóng không hiểu gì về bóng đá, nó chỉ đo độ xoáy. Nhưng quyết định mà nó tạo ra, chính xác đến milimet, hiển thị dưới dạng 3D và trả kết quả trong vài giây tình huống của tuyển Thụy Điển là điển hình và từ đó nó sẽ thay đổi cách môn bóng đá được vận hành. Đó mới là hình dạng thực sự của AI khi vận hành ở quy mô lớn.

Nam•

16 thg 6, 2026

Đọc thêm

Anthropic vừa ra mắt model cực kì mạnh mẽ Claude Fable 5

Anthropic đã thả một quả bom đến thế giới với AI với Claude Fable 5 và nó đã trở thành model được bàn tán nhiều nhất tuần này. Không chỉ vì sức mạnh của nó, mà vì cái cách Anthropic đưa nó ra thế giới: đây là lần đầu tiên một model thuộc dòng Mythos class được phép tiếp cận người dùng thông thường, sau hai tháng bị giữ kín vì lý do an toàn. Fable 5 là gì và tại sao nó khác các model trước? Về bản chất, Fable 5 không phải một model xây từ đầu mà là phiên bản "an toàn hóa" của Mythos 5, tức model mạnh nhất Anthropic từng xây dựng. Hồi tháng 4/2026, Mythos Preview chỉ được cấp quyền truy cập cho một nhóm rất nhỏ các tổ chức như AWS, Apple, Google, Cisco và JPMorgan Chase thông qua Project Glasswing, bởi khả năng phát hiện và khai thác lỗ hổng phần mềm của nó quá mạnh để tung ra đại trà. Anthropic cũng đã ra mắt Claude Opus 4.8 trước đó như một bước đệm trong lộ trình phát triển dòng model thế hệ mới này. Để đưa được Mythos ra ngoài, Anthropic mất thêm hai tháng xây dựng các lớp classifier chạy song song. Đây là những AI chuyên biệt phân tích yêu cầu trước khi model chính xử lý, và khi phát hiện câu hỏi thuộc vùng nhạy cảm, hệ thống tự động chuyển sang Claude Opus 4.8 mà không tính thêm phí. Anthropic cho biết cơ chế này chỉ kích hoạt trong chưa đến 5% số phiên làm việc, nghĩa là phần lớn người dùng thông thường sẽ không nhận thấy sự khác biệt nào so với Mythos 5 thuần. Fable 5 và Mythos 5 có cùng mức giá: $10/triệu token đầu vào và $50/triệu token đầu ra, thấp hơn một nửa so với Mythos Preview trước đây. Người dùng gói Pro, Max, Team và Enterprise được dùng miễn phí đến hết ngày 22/6/2026. Từ ngày 23/6, Anthropic chuyển sang tính phí theo lượng dùng cho đến khi hạ tầng đủ mạnh để đưa model trở lại gói cố định. Fable 5 khác Mythos 5 như thế nào ở phần bảo mật? Dù cùng chia sẻ một model nền, Fable 5 và Mythos 5 là hai sản phẩm khác nhau về mặt thiết kế. Sự khác biệt nằm hoàn toàn ở các lớp classifier an toàn được tích hợp bên trên model gốc. Ba lớp classifier mà Fable 5 có, Mythos 5 không có Fable 5 được trang bị ba lớp phân loại an toàn chạy song song với model chính, gồm: an ninh mạng (Cybersecurity), sinh học và hóa học (Biology and Chemistry) và chưng cất (Distillation). Khi người dùng gửi yêu cầu thuộc các vùng này, Fable 5 tự động chuyển sang xử lý bằng Claude Opus 4.8 thay vì model chính, đồng thời thông báo rõ cho người dùng biết. Mythos 5 không có các lớp lọc này. Nó giữ nguyên toàn bộ khả năng khai thác lỗ hổng phần mềm và nghiên cứu sinh học mà Anthropic đánh giá là quá nguy hiểm để phân phối rộng rãi. Đó là lý do Mythos 5 vẫn chỉ dành cho nhóm hạn chế trong Project Glasswing, bao gồm các chuyên gia phòng thủ mạng, tổ chức hạ tầng trọng yếu và nhà nghiên cứu sinh học được cấp quyền. Hiệu suất thực tế bị ảnh hưởng ra sao? Sự khác biệt về classifier dẫn đến kết quả đo lường khác nhau đáng kể trong các tác vụ chuyên biệt. Trên benchmark ExploitBench dành riêng cho an ninh mạng, Mythos 5 đạt 78%, trong khi Fable 5 chỉ đạt gần mức 40% của Opus 4.8, bởi cơ chế fallback kích hoạt ngay khi phát hiện các yêu cầu liên quan đến tấn công mạng. Với nghiên cứu khoa học, Mythos 5 có thể thiết kế protein và tạo giả thuyết mới với tốc độ gấp 10 lần phương pháp trước, trong khi những khả năng này bị giới hạn trong Fable 5 để đảm bảo an toàn. Nếu bạn là nhà nghiên cứu hoặc làm việc trong lĩnh vực an ninh mạng hợp pháp, cần lưu ý rằng Fable 5 có thể tự động chuyển hướng một số yêu cầu sang Opus 4.8, ngay cả khi ngữ cảnh hoàn toàn hợp lệ. Anthropic thừa nhận điều này và đang tiếp tục cải thiện độ chính xác của classifier. Hiệu năng thực tế: con số nói gì? Trên benchmark SWE-Bench Pro dành cho lập trình, Fable 5 đạt 80,3%, so với 69,2% của Opus 4.8 và 58,6% của GPT-5.5. Con số ấn tượng hơn đến từ môi trường thực tế: Stripe dùng Fable 5 để di trú toàn bộ codebase Ruby 50 triệu dòng trong một ngày, trong khi cả nhóm kỹ sư làm thủ công cần hơn hai tháng cho cùng tác vụ đó. Với phân tích kinh doanh, Fable 5 là model đầu tiên vượt mốc 90% trên bộ kiểm tra analytics phức tạp của Hex, cao hơn Opus 4.8 tới 10 điểm phần trăm. IMC, một công ty giao dịch tài chính, cho biết model đạt điểm gần như tuyệt đối trên bộ đánh giá nội bộ bao gồm tra cứu dữ kiện, suy luận nhân quả và tính toán giá trị kỳ vọng. Điểm khác biệt lớn nhất so với các model trước nằm ở khả năng duy trì tập trung trong tác vụ dài nhiều ngày mà không cần con người giám sát từng bước. Thay vì nhận lệnh và chạy từng câu lệnh rời rạc, Fable 5 có thể tiếp nhận một dự án lớn, tự lập kế hoạch, chạy kiểm thử và xử lý lỗi theo vòng lặp, hoạt động gần với cách một kỹ sư làm việc hơn là một công cụ trả lời câu hỏi. Fable 5 hiện có trên Claude API với model ID claude-fable-5, đồng thời hỗ trợ trên Amazon Bedrock và Google Vertex AI dành cho doanh nghiệp theo gói tiêu thụ. Notion tích hợp Fable 5: từ ghi chú rời rạc đến kế hoạch hoàn chỉnh Notion là một trong những ứng dụng đầu tiên tích hợp Fable 5, và lý do khá dễ hiểu. Loại tác vụ mà Fable 5 xử lý tốt nhất, cụ thể là đọc nhiều nguồn dữ liệu rời rạc, tổng hợp và tạo ra cấu trúc có logic, chính xác là những gì người dùng Notion cần nhất trong công việc hằng ngày. Simon Last, đồng sáng lập Notion, mô tả use case chính là biến ghi chú cuộc họp lộn xộn thành bảng công việc có phân công và thứ tự ưu tiên. Thay vì người dùng phải đọc lại toàn bộ biên bản, tóm tắt và tạo task thủ công, Fable 5 thực hiện toàn bộ chuỗi đó mà không cần được nhắc từng bước. Chưa có thông báo gì với Notion về Fable 5 sau ngày 22/6. Sau mốc đó, chi phí chưa biết sẽ tính toán như thế nào với Notion AI nếu rẻ hơn chính chủ Anthropic thì thật là tuyệt vời. Một số điều cần lưu ý trước khi dùng Fable 5 mạnh, nhưng có hai điểm đáng cân nhắc trước khi đưa vào quy trình làm việc thực tế. Thứ nhất, mức giá $50/ 1 triệu token đầu ra là khá cao so với mặt bằng chung, phù hợp với tác vụ kỹ thuật hoặc phân tích phức tạp, nhưng không nhất thiết phải dùng cho các tác vụ đơn giản mà Sonnet hay Haiku xử lý tốt với chi phí thấp hơn nhiều. Thứ hai, lớp classifier bảo vệ hoạt động tốt trong hầu hết trường hợp nhưng cũng có thể kích hoạt nhầm trong một số ngữ cảnh nghiên cứu hợp lệ, điều mà Anthropic thừa nhận và đang tiếp tục cải thiện. Với người dùng cá nhân đang ở gói Pro hoặc Max, những ngày còn lại trước mốc 22/6 là đủ để đánh giá xem Fable 5 có thực sự với giá đó có tạo ra được lợi nhuận không trước khi quyết định có nên trả thêm tiền hay không.

Nam•

10 thg 6, 2026

Đọc thêm

Microsoft tung 7 mô hình AI mới thách thức OpenAI

Microsoft vừa tung cùng lúc 7 mô hình AI mới tại Build 2026, trong đó MAI-Thinking-1 sở hữu 35 tỉ tham số và được huấn luyện hoàn toàn từ dữ liệu sạch. Đây là lần đầu tiên gã khổng lồ phần mềm công khai thách thức vị thế của chính đối tác chiến lược OpenAI trên sân chơi mô hình AI. MAI-Thinking-1 và tham vọng suy luận AI của riêng Microsoft Tâm điểm của sự kiện Build 2026 chính là MAI-Thinking-1, mô hình AI suy luận đầu tiên do Microsoft tự phát triển từ đầu. Với khoảng 35 tỉ tham số hoạt động, mô hình này được thiết kế để xử lý các tác vụ đòi hỏi suy luận nhiều bước, làm việc với ngữ cảnh dài và hỗ trợ lập trình phức tạp, tất cả với chi phí thấp hơn so với nhiều mô hình AI quy mô lớn hiện nay. Điểm đáng chú ý nhất là Microsoft khẳng định MAI-Thinking-1 được huấn luyện từ dữ liệu sạch, không sử dụng phương pháp chắt lọc (distillation) từ các mô hình AI của bên thứ ba. Nói cách khác, đây là lời tuyên bố rõ ràng rằng Microsoft đủ năng lực nghiên cứu AI độc lập mà không cần "mượn" tri thức từ GPT hay bất kỳ mô hình nào khác. Theo kết quả đánh giá mà Microsoft công bố, MAI-Thinking-1 đạt hiệu suất cạnh tranh trong các bài kiểm tra lập trình và được đánh giá tương đương nhiều mô hình AI hàng đầu hiện nay trong các thử nghiệm đánh giá mù. Con số 35 tỉ tham số cũng cho thấy Microsoft đang hướng tới hiệu quả thay vì chạy đua kích thước, vì nhiều mô hình đối thủ có số tham số lớn hơn gấp nhiều lần nhưng chưa chắc đã vượt trội về chất lượng đầu ra. Từ lập trình đến giọng nói: hệ sinh thái AI khép kín Không chỉ dừng ở mô hình suy luận, Microsoft còn giới thiệu thêm 6 mô hình AI mới nhằm xây dựng một hệ sinh thái AI hoàn chỉnh phục vụ cả người dùng cá nhân lẫn doanh nghiệp. Từ lập trình, tạo ảnh cho đến giọng nói, mỗi mảnh ghép đều có mô hình chuyên biệt. Lập trình thông minh hơn với MAI-Code-1-Flash Đối với các lập trình viên, MAI-Code-1-Flash là tin vui lớn. Mô hình này chuyên về sinh mã nguồn và hỗ trợ phát triển phần mềm, được tối ưu hóa cho các tác vụ lập trình thực tế. Điều quan trọng hơn là nó sẽ được tích hợp trực tiếp vào GitHub Copilot và Visual Studio Code, hai công cụ mà hàng triệu lập trình viên sử dụng hằng ngày. Điều này có nghĩa là trải nghiệm gợi ý mã nguồn và viết code tự động sẽ được nâng cấp đáng kể ngay trên môi trường làm việc quen thuộc. Hình ảnh và giọng nói: hai mảnh ghép còn thiếu Ở mảng sáng tạo nội dung, Microsoft công bố MAI-Image-2.5 cùng phiên bản MAI-Image-2.5-Flash. Đây là các mô hình tạo sinh và chỉnh sửa hình ảnh thế hệ mới, trong đó phiên bản Flash được tối ưu cho khả năng phản hồi nhanh, phù hợp với các ứng dụng cần xử lý thời gian thực như chỉnh sửa ảnh trực tiếp hay tạo hình minh họa theo yêu cầu. Về lĩnh vực âm thanh, Microsoft giới thiệu hai mô hình quan trọng: MAI-Voice-2 với khả năng tổng hợp giọng nói tự nhiên hơn và hỗ trợ thêm nhiều ngôn ngữ mới MAI-Transcribe-1.5 chuyển đổi giọng nói thành văn bản với tốc độ xử lý nhanh hơn đáng kể so với thế hệ trước Ngoài ra, Microsoft cũng phát triển thêm những biến thể được tối ưu riêng cho nền tảng Microsoft Foundry, giúp doanh nghiệp dễ dàng xây dựng và triển khai ứng dụng AI của riêng mình. Chiến lược giảm phụ thuộc OpenAI Nếu như trước đây Microsoft chủ yếu được nhìn nhận là đối tác cung cấp hạ tầng và nền tảng triển khai cho OpenAI, thì Build 2026 cho thấy hãng đang từng bước sở hữu đầy đủ các mảnh ghép quan trọng trong hệ sinh thái AI. Microsoft hiện đã có mô hình suy luận, mô hình lập trình, mô hình tạo ảnh, mô hình tổng hợp giọng nói và mô hình nhận dạng giọng nói, tất cả được kết nối trực tiếp với hệ sinh thái Azure, Copilot và Microsoft Foundry. Chiến lược này giúp Microsoft chủ động hơn trong việc phát triển công nghệ cốt lõi, đồng thời giảm rủi ro khi phụ thuộc vào các đối tác bên ngoài. Cụ thể hơn, việc sở hữu mô hình AI riêng cho phép Microsoft kiểm soát lộ trình sản phẩm, tối ưu chi phí vận hành và tùy chỉnh mô hình theo nhu cầu cụ thể của từng dịch vụ mà không phải chờ đợi hay đàm phán với bên thứ ba. Cuộc đua mô hình AI sẽ đi về đâu? Việc ra mắt đồng thời 7 mô hình AI mới cho thấy Microsoft đang đầu tư mạnh vào các công nghệ nền tảng nhằm cạnh tranh trực tiếp với những tên tuổi lớn như OpenAI, Google hay Anthropic. Khi đối tác lớn nhất của OpenAI quyết định tự xây mô hình AI riêng, đó là tín hiệu rõ ràng nhất rằng cuộc đua AI đã bước sang giai đoạn mới, nơi không ai muốn đặt tương lai công nghệ của mình vào tay kẻ khác. Với các nhà phát triển và doanh nghiệp, đây là lúc để theo dõi sát nền tảng Microsoft Foundry và hệ sinh thái Azure AI, vì những công cụ mà trước đây chỉ có OpenAI mới cung cấp sắp xuất hiện ngay trong hệ sinh thái Microsoft quen thuộc. Build 2026 có thể sẽ được nhớ đến như thời điểm Microsoft chính thức phát đi tuyên ngôn về một hệ sinh thái AI độc lập, toàn diện và mang đậm dấu ấn riêng.

Nam•

4 thg 6, 2026

Đọc thêm