Google ra mắt Gemini 3: Mô hình AI thông minh nhất thế giới, bước tiến mới của Google tới AGI

Xuất bản vào 19 tháng 11, 2025

Tóm tắt nhanh

Vào ngày 19 tháng 11 năm 2025, Google đã ra mắt Gemini 3, mô hình AI tiên tiến nhất của mình, được CEO Sundar Pichai ca ngợi là tốt nhất thế giới về khả năng hiểu đa phương thức và là một bước tiến tới AGI. Gemini 3 vượt trội đáng kể so với Gemini 2.5 và các đối thủ như Claude 4.5 Sonnet, GPT 5.1 trong các bảng xếp hạng và bài kiểm tra, đặc biệt ở khả năng suy luận cấp độ tiến sĩ và sức mạnh đa phương thức. Mô hình này có thể ứng dụng trong học tập, sáng tạo, phân tích thể thao và được tích hợp chế độ suy nghĩ nâng cao Deep Think, đồng thời đang được triển khai rộng rãi trên hệ sinh thái Google, bao gồm Gemini chat và Google Search.

Ngày 19-11-2025, Google đã chính thức giới thiệu Gemini 3, mô hình AI tiên tiến và thông minh nhất của mình, được thiết kế để giúp người dùng hiện thực hóa mọi ý tưởng.

CEO Sundar Pichai đã tuyên bố Gemini 3 là "mô hình tốt nhất trên thế giới về khả năng hiểu đa phương thức". Mô hình này đánh dấu sự nâng cấp trong hành trình tiến tới trí tuệ nhân tạo tổng quát (AGI).

Sự nâng cấp so với Gemini 2.5 như thế nào

Như vậy sau 8 tháng kể từ khi ra mắt Gemini 2.5 thì Google đã quay lại với Gemini 3 Pro với sự nâng cấp về khả năng suy luận và hiểu ngữ cảnh, nó là sự kết hợp của tất cả các khả năng của các thế hệ Gemini trước lại với nhau.

Càn quét các bảng xếp hạng

Gemini 3 Pro với sự ra mắt có thể nói trong âm thầm không phải là một bước nhảy vọt nhưng vẫn có sức nặng khi đã đứng đầu rất nhiều bảng xếp hạng LLM (như LMArena,...)

Tất nhiên nếu so với Gemini 2.5 thì Gemini 3 hoàn toàn vượt trội ở mọi tiêu chuẩn AI, như ở việc xác định ngữ cảnh và ý định đằng sau yêu cầu của người dùng, cho phép người dùng nhận được kết quả mong muốn với ít đoạn prompting hơn.
Gemini 3 vượt trội so với Gemini thế hệ trước là bình thường nhưng điểm số của nó cũng vượt qua cả Claude 4.5 Sonnet và GPT 5.1 đơn cứ như việc Gemini 3 thể hiện khả năng suy luận ở cấp độ tiến sĩ (PhD-level reasoning) với điểm số cao trên các bài kiểm tra Humanity’s Last Exam là 37.5% không dùng công cụ vượt trội so với Claude Sonnet 4.5 (13.7%) và GPT 5.1 (26.5%) hoặc điểm GPQA Diamond (91.9%) cũng tiếp tục vượt lên với Claude Sonnet 4.5 (83.4%) và GPT 5.1 (88.1%)

So sánh hiệu suất suy luận cấp độ tiến sĩ

(PhD-Level Reasoning)

Nguồn: Dữ liệu từ Google

Sức mạnh đa phương thức (Multimodality)

Gemini 3 vẫn được tiếp nối với Gemini 2.5 ở khả năng tổng hợp thông tin liền mạch trên nhiều phương thức, bao gồm văn bản, hình ảnh, video, âm thanh và mã code. Tất nhiên là với bài kiểm tra đều tốt hơn Gemini 2.5 với 81% điểm MMMU-Pro (Gemini 2.5 là 68%) và 87.6% điểm Video-MMMU (Gemini 2.5 là 83.6% theo Google).

Điểm số của Gemini 3 — Thống kê sức mạnh Gemini 3

Tình huống sử dụng thực tế như thế nào

Sử dụng trong học tập và nghiên cứu: Gemini 3 có thể phân tích các bài báo học thuật hoặc bài giảng video dài và tạo mã code cho các hình ảnh trực quan tương tác hoặc thẻ ghi nhớ nhưng mình đã thử với video dài 4 tiếng thật sự Gemini 3 chế độ Fast sẽ không ghi nhớ được hết sẽ sai hoặc thiếu các chi tiết vì vậy bây giờ chưa nên tin tưởng hoàn toàn vào những thông tin mà Gemini 3 đưa ra mà hãy làm việc đó với Notebook LM.
Trong lĩnh vực sáng tạo và lập kế hoạch: Gemini 3 hoàn toàn có thể phiên dịch và chuyển đổi các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau thành sách dạy nấu ăn rất thích hợp để chia sẻ. Thậm chí theo Google nó hoàn toàn có thể viết một bài thơ nắm bắt được vật lý học của phản ứng tổng hợp hạt nhân, hoặc viết mã code để tạo hình ảnh trực quan về dòng plasma trong tokamak.
Trong lĩnh vực phân tích video thể thao: Gemini 3 có thể phân tích video về trận đấu thể thao (như pickleball, quần vợt,...) xác định các kĩ năng cần cải thiện và tạo kế hoạch luyện tập.

Gemini 3 Deep Think có chế độ suy nghĩ nâng cao không

Google cũng giới thiệu Deep think mode một chế độ suy luận được tăng cường, để giúp giải quyết các vấn đề phức tạp hơn giống như Gemini 2.5 nhưng thật sự nó cho ra kết quả sẽ rất là lâu.

Chế độ Deep Think đang được thử nghiệm và dự kiến sẽ sớm có mặt cho người dùng đăng ký Google AI Ultra trong những tuần tới vì vậy mình chưa có cơ hội trải nghiệm nhưng với người dùng bình thường thì chế độ Thinking cũng khá phù hợp.

Khả năng cho nhà phát triển và tốc độ triển khai

Khả năng coding Gemini 3 tốt như thế nào

Gemini 3 có sự thể hiện rất tốt trong khả năng tạo mã code và xử lý các prompt phức tạp để tạo ra giao diện web tương tác và phong phú hơn nhưng thật sự vẫn về khả năng coding mình vẫn tin tưởng Claude Sonnet 4.5 hơn, bởi khi Gemini 3 gặp vấn đề với code sẽ không tập trung xử lý vấn đề đó mà càng sửa càng sai không giống như Claude Sonnet 4.5 điều này gây khó khăn so với những người không hiểu nhiều về code.

Về tốc độ, khi sử dụng coding thì Gemini 3 nhanh hơn đáng kể so với Claude Sonnet 4.5 và GPT 5.1 đặc biệt nhanh gấp 2 lần so với Gemini 2.5 đối với các tác vụ nhỏ và trung bình.
Để hỗ trợ phát triển các agent, Google cũng phát hành nền tảng phát triển agentic mới là Google Antigravity sử dụng khả năng suy luận và công cụ của Gemini 3 để biến AI thành một agent mới có khả năng hoạt động độc lập và tích cực.

Bao giờ có thể sử dụng Gemini 3

Gemini 3 đang được triển khai trên toàn bộ hệ sinh thái của Google bắt đầu ngày 19 tháng 11

Ở khung chat Gemini thì Google đã cho chọn chế độ Fast và Thinking và Pro chứ không phải lựa chọn LLM như Gemini 2.5 nữa điều đó cũng sẽ cho thấy việc Google tự động hóa việc lựa chọn LLM cho các tác vụ từ đơn giản phức tạp giống như điều mà Open AI đã làm với GPT-5.1.
Gemini 3 cũng lần đầu được tích hợp luôn trong Google Search với chế độ AI Mode. Chế độ AI này sử dụng Gemini 3 để kích hoạt các trải nghiệm giao diện người dùng tạo sinh (generative UI) mới, chẳng hạn như bố cục hình ảnh sống động và các công cụ tương tác, được tạo ra dựa trên truy vấn của người dùng. Một động thái theo ý kiến cá nhân là để cạnh tranh với Open Atlas ChatGPT Atlas và Perplexity Comet.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Gemini đồng hành cùng Argentina và Messi tại World Cup 2026

Gemini đã thắng lớn theo đúng nghĩa đen ngay khi Messi lập cú hat-trick đầu tiên tại World Cup 2026, giúp Argentina đè bẹp Algeria với tỷ số 3-0 và cân bằng kỷ lục 16 bàn thắng của Miroslav Klose. Khoảnh khắc lịch sử này chính là bệ phóng hoàn hảo cho Gemini. Trước đó vào tháng 3/2026, Google và Liên đoàn bóng đá Argentina (AFA) đã đưa ra một quyết định táo bạo: thay vì chỉ in logo trên áo tập, họ ký hợp đồng để AI này tham gia hỗ trợ chiến thuật và đưa ra các quyết định chuyên môn. Đến nay, thương vụ đặt cược này đã chứng minh đó là một chiến lược hoàn toàn đúng đắn. Từ áo tập đến phòng họp chiến thuật Thỏa thuận giữa AFA và Google được công bố tại Times Square, New York, một địa điểm được chọn có chủ ý để gây chú ý với truyền thông toàn cầu. Logo Gemini xuất hiện trên toàn bộ trang phục tập luyện của đội tuyển nam, nữ lẫn các lứa trẻ Argentina, đứng ngang hàng với Adidas và American Express trong tầng tài trợ cao nhất của AFA. Nhưng phần thú vị không nằm ở chiếc áo. Theo thông tin từ Inside World Football, ban huấn luyện Argentina sẽ dùng Gemini cho ba việc cụ thể: phân tích chiến thuật, phòng ngừa chấn thương và hỗ trợ ra quyết định. Nói cách khác, Gemini có mặt trong những cuộc họp mà trước đây chỉ có Scaloni và các trợ lý của ông được ngồi. Google không tiết lộ cụ thể những công cụ Gemini nào được tích hợp vào quy trình làm việc của AFA. Điều duy nhất rõ ràng là họ đang dùng World Cup để đưa Gemini vào thực tế bóng đá chuyên nghiệp, và kết quả sẽ được chấm điểm công khai. Gemini làm gì trong phòng thay đồ? Argentina đến World Cup 2026 với tư cách nhà đương kim vô địch. Mọi quyết định của Scaloni, từ danh sách triệu tập đến lựa chọn đội hình, đều bị soi kỹ hơn bất kỳ đội nào khác, và đây cũng chính là lý do Argentina trở thành phòng thí nghiệm lý tưởng nhất mà Google từng có cho Gemini trong môi trường bóng đá chuyên nghiệp và đặc biệt là ở giải đấu lớn. Phân tích chiến thuật Gemini được dùng để xử lý dữ liệu trận đấu của cả Argentina lẫn đối thủ, bao gồm thống kê di chuyển, mẫu hình tấn công và điểm yếu phòng thủ. Thay vì ban huấn luyện phải ngồi xem lại hàng giờ video, AI tổng hợp và đưa ra các sơ đồ chiến thuật được tạo tự động điều này sẽ tiết kiệm đáng kể thời gian chuẩn bị trước mỗi trận. Phòng ngừa chấn thương Đây là bài toán mà mọi đội bóng lớn đều muốn giải, đặc biệt khi Messi và nhiều trụ cột đã ở độ tuổi cần quản lý tải lượng tập luyện cẩn thận. Gemini phân tích dữ liệu sinh học và lịch sử chấn thương để đưa ra cảnh báo sớm, giúp ban huấn luyện điều chỉnh cường độ tập trước khi vấn đề thực sự xảy ra. Đó là lý do vì sao vừa ghi hat-trick Scaloni đã quyết định thay Messi ra để đảm bảo thể lực và an toàn cho các trận đấu sau. AI trong phòng ngừa chấn thương tất nhiên không phải diều mới mẻ gì khi mà tại Premier League đã có Microsoft làm đối tác cho mục đích tương tự. Điểm khác biệt lần này là Gemini được tích hợp trực tiếp vào quy trình của một đội tuyển dự giải lớn, không chỉ ở cấp câu lạc bộ. Phía người hâm mộ: tạo ảnh Messi, theo dõi tỉ số không cần mở khóa màn hình Song song với việc hỗ trợ ban huấn luyện, Gemini cũng triển khai một loạt tính năng hướng đến người hâm mộ, và đây mới là phần mà hàng trăm triệu người thực sự chạm vào. Gemini cho phép tạo nội dung về cầu thủ luôn Người dùng có thể tạo ảnh, bài nhạc và nội dung kỹ thuật số gắn với các cầu thủ Argentina như Messi ngay trong ứng dụng Gemini. Tính năng này được thiết kế để đưa trải nghiệm World Cup đến gần hơn với những người không thể đến sân trực tiếp. Tỉ số thời gian thực và bản tin tự động Trên Google Search, tỉ số trận đấu được ghim lên màn hình khóa và cập nhật theo thời gian thực, có animation riêng cho bàn thắng và thẻ đỏ mà không cần mở khóa điện thoại. Với người dùng Gemini trả phí, tính năng Scheduled Actions cho phép thiết lập bản tin bóng đá tự động mỗi ngày, bao gồm tỉ số, tin tức và lịch thi đấu, được giao đúng giờ đã chọn mà không cần nhắc lại mỗi ngày. Hạ tầng phục vụ ngày thi đấu Google cập nhật Street View tại 16 sân vận động chủ nhà và tối ưu hóa lộ trình trên Waze cho ngày thi đấu. Waze còn hiển thị tỉ số trực tiếp khi xe dừng đèn đỏ, để người lái không cần cầm điện thoại trong lúc di chuyển. World Cup 2026 là phép thử thật sự cho AI trong thể thao Google không chỉ tài trợ cho Argentina. Gemini còn có mặt trên áo của Pháp, Morocco, Iraq, Thổ Nhĩ Kỳ và Mỹ, trong khi Pixel là điện thoại chính thức của đội Pháp với Gemini được dùng cho liên lạc nội bộ. Đây rõ ràng là chiến lược tổng thể của Google và không phải một hợp đồng đơn lẻ. Điều khiến World Cup 2026 trở nên đặc biệt là nó sẽ trả lời một câu hỏi mà không phòng lab nào làm được: người dùng thực sự dùng AI để làm gì khi có một giải đấu World Cup 2026 kéo dài 6 tuần với 104 trận? Các tính năng chạy trên sức hút ban đầu sẽ tắt dần sau vòng bảng. Những gì người dùng còn tiếp tục dùng đến tận trận chung kết mới là câu trả lời thật cho câu hỏi AI phù hợp ở đâu trong cuộc sống hàng ngày, và Google biết rõ điều đó. Giám đốc truyền thông Google khu vực Mỹ Latinh, Flor Sabatini, phát biểu rằng World Cup 2026 sẽ đánh dấu một trước và sau trong lịch sử bóng đá nhờ AI. Câu nói nghe có vẻ marketing, nhưng thực tế là lần đầu tiên một mô hình AI lớn được tích hợp vào chuẩn bị của đội đương kim vô địch, ngay giữa một giải đấu được xem nhiều nhất hành tinh. World Cup 2026 là bài kiểm tra thật của Gemini Điểm đáng chú ý nhất của toàn bộ câu chuyện này không phải logo Gemini trên áo Messi. Đó là việc Argentina tất nhiên vẫn là đội được kỳ vọng nhất và bị soi kỹ nhất, với áp lực bảo vệ chức vô địch vẫn đặt một phần quy trình chuẩn bị của mình vào AI. Nếu Argentina thành công, Gemini có một case study không thể mua bằng tiền quảng cáo. Nếu Argentina thất bại mà ban huấn luyện quy trách nhiệm một phần cho AI, câu chuyện sẽ đi theo chiều ngược lại hoàn toàn. Dù kết quả thế nào, đây là lần đầu tiên AI phải chịu trách nhiệm ở một sân khấu thực sự có giá trị, không phải benchmark, không phải demo, mà là World Cup. Với người dùng AI, điều đáng theo dõi không chỉ là Argentina có vô địch hay không, mà là xem liệu Gemini có thực sự thay đổi cách một đội bóng vận hành, hay chỉ là logo trên áo tập đẹp hơn mọi năm.

Nam•

17 thg 6, 2026

Đọc thêm

Điều khiển Codex từ điện thoại bằng ChatGPT app

Đang ở ngoài đường mà nhớ ra một chi tiết nhỏ trong dự án cần thay đổi, bạn không nhất thiết phải mở laptop hay remote desktop vào máy. Nếu đã thiết lập kết nối, ChatGPT app trên điện thoại có thể trở thành màn hình điều khiển cho Codex, còn máy tính ở nhà hoặc văn phòng vẫn là nơi chạy code thật. ChatGPT app không chạy Codex trên điện thoại Điểm dễ hiểu sai nhất là tưởng Codex đang chạy trực tiếp trong điện thoại. Thực tế ở đây điện thoại chỉ gửi prompt, câu trả lời, phê duyệt và tin nhắn tiếp theo, trong khi môi trường làm việc thật nằm trên máy Mac hoặc Windows đang chạy Codex. Nói cách khác, app ChatGPT là bộ điều khiển từ xa, còn máy host mới là nơi có repo, terminal, credentials, plugin, MCP server và các công cụ khác. Cách vận hành này rất hợp lý vì codebase thường nằm trên máy phát triển, không nằm trên điện thoại. Khi bạn nhắn yêu cầu như sửa lỗi TypeScript, chạy test hoặc xem diff, Codex xử lý trong project đã chọn trên host rồi gửi lại kết quả để bạn theo dõi. Nếu bạn muốn tìm hiểu nền tảng trước khi dùng remote, có thể đọc bài Codex là gì và cách sử dụng Codex để nắm vai trò của công cụ này trong workflow làm việc. Cần chuẩn bị gì trước khi kết nối ChatGPT app và Codex? Theo tài liệu cập nhật Codex hiện tại của OpenAI, ChatGPT app đã hỗ trợ điều khiển Codex trên cả macOS và Windows còn hiện tại thì chưa có hỗ trợ ở Linux và đặc biệt là tính năng này hỗ trợ tất cả các tài khoản ChatGPT kể cả Free và Go. Sau đó bạn chỉ chuẩn bị đăng nhập cùng một tài khoản hoặc workspace trên cả hai thiết bị: ChatGPT mobile (bản mới nhất trên iOS hoặc Android) và Codex (bản mới nhất trên máy host đang online). Máy host phải luôn bật và Codex phải đang chạy trong suốt thời gian bạn điều khiển từ xa. Nếu máy sleep, mất mạng hoặc Codex App bị đóng, kết nối từ điện thoại sẽ mất ngay lập tức và mọi tác vụ đang chạy có thể bị gián đoạn. Điểm đáng chú ý là toàn bộ quá trình thiết lập bắt đầu từ Codex App trên máy host và rất đơn giản chỉ cần quét QR code là xong . Tức là trong Codex App, bạn chọn mục thiết lập Codex mobile ở sidebar, sau đó quét mã QR bằng điện thoại, rồi hoàn tất xác nhận trong ChatGPT app. Riêng với workspace doanh nghiệp, quản trị viên có thể cần bật quyền Remote Control trước rồi bạn mới có thể kết nối được. Mã QR này là để điều khiển máy tính của bạn, vì vậy bạn hãy bảo mật QR này không được phép chia sẻ để đảm bảo không có điều đáng tiếc xảy ra với máy tính của bạn Vậy mình tổng hợp lại bước kết nối giữa ChatGPT app và Codex khá là đơn giản Máy tính host cần online và đang chạy Codex ChatGPT app và Codex cần đăng nhập cùng tài khoản hoặc workspace Thiết lập mã QR Codex trên host và hoàn tất trên điện thoại Các yêu cầu MFA, SSO hoặc passkey vẫn có thể áp dụng Sau khi kết nối, bạn có thể làm gì? Khi host đã xuất hiện trong Codex trên điện thoại, bạn có thể bắt đầu thread mới trong project trên host hoặc tiếp tục thread đang có. Đây là phần làm trải nghiệm trở nên đáng giá: bạn có thể gửi follow up, trả lời câu hỏi của Codex, duyệt command, xem output, xem diff, xem test result, thậm chí nhận thông báo khi task hoàn tất hoặc cần bạn chú ý. Ví dụ thực tế, bạn đang ngồi cà phê và nhớ ra form đăng nhập có lỗi validate. Bạn có thể mở ChatGPT app, chọn host đang kết nối, nhắn rằng hãy kiểm tra luồng auth, sửa lỗi validate email và chạy test liên quan. Codex sẽ thao tác trên repo ở máy host, còn bạn chỉ cần xem kết quả, approve hành động khi cần và quyết định có yêu cầu chỉnh tiếp hay không. Đây cũng là lý do mọi người bắt đầu xem Codex hay các IDE khác như một đồng nghiệp làm việc trong môi trường thật, chứ không phải chỉ là một công cụ code nữa. Sức mạnh của nó nằm ở việc đọc file, chạy lệnh, chỉnh sửa code và giữ mạch công việc qua nhiều vòng trao đổi. Giới hạn nào cần nhớ khi dùng từ điện thoại với ChatGPT app Điều khiển qua điện thoại tất nhiên phụ thuộc hoàn toàn vào máy host nếu máy tính sleep, mất mạng, đóng Codex hoặc không còn đăng nhập đúng workspace, điện thoại sẽ không còn môi trường để điều khiển. Tuy nhiên nếu Codex đang thực hiện dở tác vụ thì nó sẽ vẫn thực hiện tiếp trên máy host và sẽ được thông báo xong ngay khi điện thoại kết nối lại nên mọi người sẽ bớt lo khi điện thoại tự nhiên mất mạng khi đang chạy dở trên Codex. Một lưu ý nữa là trên Windows, các tác vụ dùng Computer Use còn yêu cầu phiên làm việc chạy ở nền trước phù hợp, vì vậy đây không phải phương án thay thế hoàn toàn cho việc ngồi trực tiếp trước máy . Bạn cũng nên phân biệt việc giao một tác vụ gọn với việc review thay đổi lớn. Điện thoại rất hợp cho bug nhỏ, chạy test, hỏi nhanh về một file, duyệt các tác vụ ngắn hoặc kiểm tra trạng thái task. Tuy nhiên, các tác vụ yêu cầu làm việc với mức độ cao vẫn nên được review trên màn hình lớn để tránh bỏ sót chi tiết. Cách dùng thực tế cho hiệu quả Cách dùng hiệu quả nhất là giao việc có phạm vi rõ ràng và kết quả cụ thể. Thay vì nhắn chung chung "hãy sửa đăng nhập"thì hãy mô tả rõ lỗi xảy ra ở đâu, sau khi sửa kỳ vọng hành vi như thế nào, test nào cần chạy và phần nào không được đụng vào. Codex xử lý tốt hơn khi biết rõ ranh giới công việc, đặc biệt vì điều khiển qua điện thoại khiến mỗi vòng phản hồi chậm hơn so với ngồi trực tiếp trước máy. Một nhịp làm việc thực tế có thể là: mô tả chi tiết công việc cần làm dù nhỏ hay vừa, yêu cầu Codex đọc các file liên quan, để nó đề xuất hướng giải quyết, chỉ approve khi cần thiết và chờ báo cáo kết quả. Làm quen với nhịp này, bạn sẽ thấy những khoảng thời gian vụn vặt bên ngoài hoàn toàn có thể xử lý được việc thật, trong khi vẫn giữ quyền quyết định cuối cùng trong tay mình. So sánh với Claude Code Remote và Telegram bot Hiện có rất nhiều cách phổ biến để điều khiển AI coding agent từ điện thoại tuy nhiên mình mới chỉ biết đến 3 cách và mỗi cách phục vụ một nhu cầu khác nhau. Tiêu chí ChatGPT app + Codex Claude Code Remote Telegram + Codex Chat tự nhiên ✅ Rất tốt ✅ Tốt ❌ Cần đúng cú pháp Kiểm soát chi tiết Trung bình Cao nhất Thấp Độ ổn định kết nối Ổn định Ổn định Hay mất kết nối UI trên mobile Tối ưu tốt Chưa tối ưu hoàn toàn Dùng app Telegram sẵn có Setup ban đầu Dễ, quét QR Dễ Cần tự cấu hình bot Yêu cầu máy tính bật ✅ Bắt buộc ✅ Bắt buộc ✅ Bắt buộc Claude Code Remote Control là lựa chọn mạnh nhất về mặt kiểm soát bạn xem được terminal output trực tiếp, can thiệp giữa chừng được và cảm giác sát với agent hơn. Tuy nhiên UI trên màn hình điện thoại nhỏ chưa được tối ưu hoàn toàn, một số thao tác vẫn khó có thể thực hiện khi không có bàn phím vật lý. Telegram bot là lựa chọn không cần app riêng và dễ tiếp cận ban đầu, nhưng trải nghiệm thực tế có nhiều hạn chế: hay bị chậm, thi thoảng mất kết nối giữa chừng mà không báo trước, và vì thiếu context AI thực sự nên những yêu cầu phức tạp hơn một chút là bot bắt đầu không hiểu ý, buộc bạn phải gõ lệnh chính xác thay vì mô tả tự nhiên. ChatGPT app + Codex nằm ở điểm cân bằng tốt nhất cho phần lớn người dùng — đủ mượt, đủ thông minh, setup nhanh bằng QR và không cần học thêm cú pháp mới để bắt đầu. ChatGPT app kết nối với Codex không biến điện thoại thành máy lập trình, mà biến nó thành cửa điều khiển cho một máy phát triển đang sẵn sàng làm việc. Nếu host được bật, quyền được thiết lập đúng và task đủ gọn, đây là cách thực dụng nhất hiện tại để xử lý công việc code khi không ngồi trước laptop.

Nam•

22 thg 6, 2026

Đọc thêm

Hermes Agent là gì? AI agent tự học của Nous Research

Càng học nhiều thì càng giỏi hơn, nguyên tắc tưởng chỉ áp dụng cho con người này hóa ra cũng đúng với Hermes Agent, một AI agent mã nguồn mở của Nous Research. Mỗi lần làm việc cùng bạn, Hermes Agent không quên đi mà ghi nhớ lại, hiểu bạn sâu hơn và tự giỏi lên qua từng phiên sử dụng, nhờ một hệ thống bộ nhớ có thể nhớ mọi thứ về bạn ngay cả khi máy đã tắt cả tuần. Hermes Agent là gì? Hermes Agent là một AI agent mã nguồn mở do Nous Research, phòng nghiên cứu đứng sau các dòng model Hermes, Nomos và Psyche, phát triển và phát hành dưới giấy phép MIT. Khác với các Antigravity hay Codex phụ thuộc vào môi trường IDE hay các chatbot thông thường cuối cùng vẫn chỉ là lớp vỏ gọi một API duy nhất, Hermes Agent được thiết kế để chạy liên tục trên hạ tầng riêng của người dùng, từ một con VPS giá rẻ cho đến cụm GPU hay hạ tầng serverless và nó hoạt động gần giống như Open Claw . Điểm khác biệt cốt lõi của Hermes Agent nằm ở khả năng quản trị trí nhớ lâu dài và tự chuyển hóa trải nghiệm thành skills thực tế. Thay vì chỉ lưu trữ thông tin thô hay ghi nhớ sở thích một cách thụ động như các AI như Gemini hay Claude, Hermes sở hữu một "vòng lặp học tập" khép kín tức là sau mỗi phiên làm việc, nó chủ động đúc kết quy trình thành các công cụ làm việc mới để sử dụng cho những lần sau. Hệ thống này được vận hành bởi một "Agent quản trị" (Curator) chạy ngầm để tự động chấm điểm, cắt tỉa và hợp nhất kiến thức, kết hợp cùng công nghệ tìm kiếm FTS5 giúp truy xuất ký ức cũ nhanh gấp 4.500 lần mà không tốn chi phí token. Nhờ đó, Hermes không chỉ phản hồi rồi quên đi mà thực sự trở thành một cộng sự ngày càng am hiểu và chuyên nghiệp hơn theo thời gian sử dụng. Bốn tính năng tạo nên khác biệt của Hermes Agent Nous Research không gọi Hermes Agent là chatbot hay copilot mà định vị nó như một agent có vòng lặp học tập được tích hợp sẵn. Bốn nhóm tính năng dưới đây giải thích vì sao cách gọi đó không chỉ là chiêu marketing. Bộ nhớ xuyên phiên làm việc Điểm yếu lớn nhất của hầu hết AI hiện nay là trạng thái trí nhớ đều lưu trữ thông tin thô của đoạn chat chứ chưa nhớ được cách làm việc. Hermes Agent đã đưa ra cách xử lý vấn đề này bằng ba cơ chế kết hợp: Truy xuất nhanh: Dùng cơ chế tìm kiếm toàn văn FTS5, giúp tìm lại ký ức cũ nhanh hơn khoảng 4.500 lần so với cách tìm kiếm thông thường, mà không tốn thêm token giống như Gemini hay Cowork. Thấu hiểu người dùng: Tích hợp phương pháp mô hình hóa người dùng theo hướng dialectic từ Honcho, giúp agent hiểu sâu sở thích, thói quen và bối cảnh cá nhân xuyên suốt hàng nghìn phiên làm việc. Liên tục: Agent tiếp nối công việc đúng tại nơi bạn đã dừng lại, kể cả khi đó là một dự án từ nhiều tuần trước. Tự tạo và tự cải thiện kỹ năng Đây là tính năng giúp Hermes Agent hoạt động như một cộng sự tích lũy kinh nghiệm, thay vì chỉ là một công cụ trả lời theo yêu cầu: Tự học từ thực tế: Sau khi hoàn thành các tác vụ phức tạp, Hermes Agent tự đúc kết quy trình thành kỹ năng mới (skills) và lưu vào thư viện để dùng tự động cho lần sau. Chuẩn mở agentskills.io: Các kỹ năng này tuân theo chuẩn mở, có thể đóng gói, chia sẻ và tái sử dụng giữa các hệ thống AI khác nhau mà không cần viết lại từ đầu. Cơ chế Curator: Một tác nhân quản trị sẽ chạy ngầm định kỳ chấm điểm, cắt tỉa và hợp nhất các kỹ năng (skills) trùng nhau, điều giúp thư viện kỹ năng không phình to và rối loạn theo thời gian. Hiện diện trên hơn 23 nền tảng nhắn tin Hermes Agent không bị giới hạn trong chỉ dùng trong máy tính mà tích hợp trực tiếp vào các kênh giao tiếp trên điện thoại mà người dùng đã quen dùng hằng ngày: Đa kênh, một bộ não: Có thể ra lệnh cho Hermes Agent qua Telegram, Discord, Slack, WhatsApp, Signal, email hoặc SMS. Duy trì ngữ cảnh: Dù nhắn tin qua Telegram vào buổi sáng và chuyển sang Discord vào buổi tối thì agent vẫn giữ một dòng ký ức duy nhất, không bị phân mảnh theo từng kênh. Tương tác đa phương thức: Hỗ trợ gửi tin nhắn thoại, hình ảnh và video, kèm khả năng phân tích nội dung đa phương thức. Linh hoạt về hạ tầng chạy Hermes Agent hỗ trợ sáu loại backend để thực thi lệnh: máy cục bộ, Docker, SSH, Daytona, Singularity và Modal. Với Daytona và Modal, môi trường có thể tạm ngủ khi không dùng đến và gần như không tốn chi phí lúc rảnh, chỉ thức dậy khi có việc cần xử lý. Đây là lý do Nous Research mô tả Hermes Agent là agent luôn trực tuyến mà không cần người dùng phải duy trì một máy chủ chạy 24/7 với chi phí cao quanh năm. Có thể cài đặt Hermes Agent chỉ cần một lệnh curl duy nhất, hỗ trợ Linux, macOS và Windows qua WSL2 hoặc từ ngày 5/6/2026 với phiên bản v0.16.0 "The Surface Release" đã chính thức ra mắt ứng dụng Native Desktop cho Windows, macOS và Linux với giao diện đồ họa (GUI) hoàn thiện, giúp người dùng phổ thông tiếp cận dễ dàng mà không cần dùng terminal. Bộ công cụ tích hợp sẵn và những giới hạn cần biết Hơn 40 công cụ dựng sẵn, từ tìm kiếm web đến tự động hóa lịch Hermes Agent đi kèm hơn 40 công cụ có sẵn, bao gồm tìm kiếm web, thao tác trình duyệt, xử lý file và thực thi script Python qua RPC để chạy các tác vụ con mà không tốn thêm ngữ cảnh của agent chính. Một hệ thống lập lịch bằng ngôn ngữ tự nhiên cho phép đặt các tác vụ định kỳ như báo cáo hằng ngày hay sao lưu dữ liệu, rồi để agent tự chạy mà không cần ai nhắc lại. Với những việc cần tách biệt hoàn toàn, Hermes Agent còn hỗ trợ các sub-agent có cuộc trò chuyện, terminal và script riêng giúp xử lý song song nhiều việc mà không làm loãng bộ nhớ chính. Những thách thức và lưu ý về bảo mật Dù đang cập nhật nhanh, Hermes Agent vẫn có một số điểm người dùng cần lưu ý trước khi triển khai: Độ ổn định của cơ chế tự học: Khả năng tự cải thiện kỹ năng giúp tăng tỷ lệ thành công theo báo cáo của Tencen Cloud ghi nhận mức tăng tới 52% và tiết kiệm tới 61% lượng token. Tuy nhiên đây là cơ chế tự tiến hóa (self-evolving), hiệu quả thực tế vẫn phụ thuộc vào model nền mà người dùng chọn và vẫn cần có sự giám sát của con người thay vì tin tưởng tuyệt đối. Rủi ro từ quyền hạn cao và trách nhiệm bảo mật thuộc về người dùng: Hermes Agent có thể can thiệp sâu vào hệ thống (excessive agency), nên việc kết nối trực tiếp với nhiều nền tảng nhắn tin đòi hỏi người dùng tự quản lý API key và thiết lập rào chắn (guardrails). Khác với các dịch vụ AI đóng, Hermes Agent trao toàn bộ quyền kiểm soát cho người dùng, đồng nghĩa người dùng cũng phải chịu trách nhiệm cao hơn trong việc cấu hình quyền truy cập để tránh rò rỉ thông tin. Vì sao Hermes Agent tăng trưởng thần tốc? Hermes Agent có thể bùng nổ nhờ cách làm marketing của Nous Research nhưng theo mình nó đến từ ba yếu tố chính. Chính sách di cư không rào cản từ OpenClaw Nhận thấy lượng người dùng lớn của OpenClaw, Nous Research xây dựng công cụ di chuyển cho phép mang nguyên persona, API key, toàn bộ kỹ năng và bộ nhớ sang Hermes Agent chỉ bằng một lệnh mà không bị mất dữ liệu cũ và tất nhiên là không cần cấu hình lại từ đầu. Nếu bạn đang dùng OpenClaw và muốn thử Hermes Agent mà không mất dữ liệu cũ, hãy tìm công cụ di chuyểnhermes claw migrate tích hợp sẵn trong Hermes Agent trước khi nghĩ đến việc cài lại từ đầu. Đặt cược vào vòng lặp học tập khép kín thay vì chạy đua tính năng Trong khi nhiều agent khác cạnh tranh về số lượng công cụ, Hermes Agent định vị mình là một thực thể tự tiến hóa, biết đúc kết kinh nghiệm thành kỹ năng mới và giữ bộ nhớ dài hạn để hiểu người dùng sâu hơn theo thời gian. Hướng đi này tạo ra giá trị bền vững, từng được cộng đồng tận dụng cho những dự án như tự động hóa sản xuất nội dung quy mô lớn với độ nhất quán cao qua nhiều phiên làm việc. Vai trò làm nền tảng sinh dữ liệu huấn luyện Không chỉ là trợ lý cá nhân, Hermes Agent còn là một công cụ nghiên cứu mạnh mẽ. Nó có khả năng tạo ra hàng nghìn quỹ đạo gọi công cụ (tool-calling trajectories) song song và nén chúng lại để huấn luyện các mô hình AI khác. Việc biến trải nghiệm thực tế của agent thành dữ liệu huấn luyện giúp Hermes trở thành nền tảng không thể thiếu cho các nhà phát triển muốn xây dựng thế hệ AI tự chủ tiếp theo. Hermes Agent khác gì một agent harness? Nhiều người mới tìm hiểu dễ nhầm Hermes Agent với khái niệm agent harness vốn là bộ khung quyết định cách một model gọi công cụ, nó xử lý vòng lặp suy luận và điều phối các bước thực thi bên trong. Nếu coi harness là phần động cơ và khung gầm quyết định cách một chiếc xe vận hành, thì Hermes Agent giống một chiếc xe đã lắp sẵn động cơ đó rồi cộng thêm ghế ngồi, hệ thống định vị và cả bộ nhớ hành trình của riêng người lái. Nói cách khác, harness là lớp kiến trúc kỹ thuật nằm bên dưới, còn Hermes Agent là sản phẩm hoàn chỉnh dành cho người dùng cuối, đã đóng gói sẵn bộ nhớ, hệ thống kỹ năng, kênh giao tiếp và lựa chọn hạ tầng chạy. Một nhà phát triển có thể tự xây harness riêng để kiểm soát từng chi tiết nhỏ, nhưng phần lớn người dùng không cần đi sâu đến mức đó, họ chỉ cần một agent chạy được ngay và ngày càng thông minh hơn qua quá trình sử dụng. Để hiểu rõ hơn về lớp kiến trúc bên dưới này, có thể đọc thêm Agent harness là gì? Bộ khung giúp AI làm việc hiệu quả, nơi giải thích chi tiết cách các framework dạng này hoạt động. Hermes Agent có đáng thử ngay bây giờ? Với việc toàn bộ mã nguồn mở, không thu thập dữ liệu người dùng và có thể tự host hoàn toàn, Hermes Agent là một trong số ít agent hiện nay cho phép người dùng kiểm soát trọn vẹn dữ liệu của chính mình, trong khi vẫn có được trải nghiệm trợ lý liên tục với trí nhớ thật, không phải trí nhớ giả lập chỉ tồn tại trong một cuộc chat đơn lẻ. Sau bản v0.16.0, rào cản kỹ thuật lớn nhất với người dùng không quen terminal cũng đã được dỡ bỏ phần lớn, khi ứng dụng desktop native cho Windows, macOS và Linux đã thay thế hoàn toàn cách dùng CLI thuần trước đây. Điều còn lại để đánh giá Hermes Agent không phải là nó có chạy được hay không, mà là nó học được gì sau vài tuần sử dụng thật. Cách kiểm chứng nhanh nhất là cài bản desktop hoặc chạy CLI trên một VPS rẻ, kết nối với một kênh nhắn tin quen dùng như Telegram, rồi quan sát agent tự hình thành những kỹ năng nào từ chính cách bạn dùng nó mỗi ngày. Đó cũng là tiền đề để so sánh Hermes Agent với các lựa chọn khác trên thị trường, từ Agent Harness cho đến OpenClaw và Claude Cowork, trong phần tiếp theo của loạt bài này.

Nam•

19 thg 6, 2026

Đọc thêm

Toàn cảnh công nghệ AI tại World Cup 2026

Quả bóng Adidas Trionda, mô hình 3D cầu thủ chính xác đến từng milimet, robot chó tuần tra sân vận động và Google Gemini ngồi ngay bên đường biên cùng đội tuyển Argentina. World Cup 2026 không chỉ là giải đấu lớn nhất lịch sử với 104 trận đấu tại 16 thành phố ở Mỹ, Canada và Mexico mà còn là cuộc triển khai AI quy mô nhất từng có trong thể thao. Quả bóng thông minh Adidas Trionda hoạt động như thế nào Quả bóng chính thức của giải đấu mang tên Adidas Trionda được trang bị cảm biến IMU (Inertial Measurement Unit) hoạt động ở tần số 500Hz, tức là mỗi giây nó thu thập 500 điểm dữ liệu về chuyển động, độ xoáy và thời điểm chính xác bóng chạm chân cầu thủ. Điều này đặc biệt quan trọng cho các tình huống việt vị, bởi cảm biến sẽ xác định chính xác đến từng mili giây thời điểm bóng rời chân người chuyền. Dấu thời gian (timestamp) từ cảm biến được đồng bộ ngay lập tức với hệ thống theo dõi cầu thủ, giúp khóa chặt vị trí của mọi cái bóng trên sân tại đúng khoảnh khắc ấy thay vì phụ thuộc vào mắt thường vốn có thể lệch đến nửa giây. Kết quả là những quyết định việt vị được đưa ra nhanh chóng và chính xác hơn bao giờ hết. Công nghệ tối tân này đã lập tức cứu nguy cho đội tuyển Thụy Điển khi xác định chính xác thời điểm chạm bóng của tiền đạo Alexander Isak . Trước đó, niềm vui của người ghi bàn Svanberg phải tạm chùng xuống khi tổ VAR vào cuộc kiểm tra. Trong pha bóng diễn ra với tốc độ chóng mặt, anh dường như đã đứng dưới hàng thủ Tunisia khi bóng được đưa vào vòng cấm, khiến nhiều người tin rằng bàn thắng sẽ bị hủy bỏ. Thế nhưng, chính dữ liệu từ cảm biến chuyển động gắn bên trong quả bóng Trionda của Adidas đã chứng minh Svanberg kịp di chuyển trở lại vị trí hợp lệ, mang về bàn thắng hợp pháp cho Thụy Điển trong sự vỡ òa của người hâm mộ. . Công nghệ việt vị bán tự động với mô hình 3D cầu thủ Công nghệ bắt việt vị bán tự động (SAOT) đã được nâng cấp đáng kể cho World Cup 2026 với điểm nhấn là avatar 3D của từng cầu thủ. Mỗi cầu thủ tham dự giải đấu được quét kỹ thuật số toàn thân chỉ trong khoảng một giây, tạo ra mô hình 3D với kích thước cơ thể chi tiết đến từng bộ phận. Khi có tình huống cần VAR xem xét, hệ thống sẽ phủ các mô hình 3D này lên dữ liệu theo dõi thời gian thực từ hơn 12 camera chuyên dụng tại mỗi sân vận động. Cách tiếp cận này giải quyết triệt để vấn đề tồn tại lâu nay của đường kẻ việt vị 2D, khi cánh tay, vai hoặc bàn chân cầu thủ có thể bị che khuất từ một góc camera nhất định. Mô hình 3D lấp đầy những khoảng trống đó bằng dữ liệu giải phẫu thực tế, và kết quả hiện lên dưới dạng hoạt hình 3D hoàn chỉnh trên sân cũng như trên sóng truyền hình, thay thế hoàn toàn những đường kẻ phẳng xanh đỏ từng gây bối rối cho khán giả. Football AI Pro: nền tảng phân tích AI cho cả 48 đội FIFA đã hợp tác cùng Lenovo để xây dựng Football AI Pro, một nền tảng phân tích được xây dựng trên mô hình nền tảng Football Language của FIFA, vốn được huấn luyện từ hàng trăm triệu điểm dữ liệu bóng đá qua nhiều thập kỷ thi đấu. Đây là lần đầu tiên trong lịch sử World Cup mà tất cả 48 đội tham dự đều có quyền truy cập vào cùng một nền tảng phân tích, thay vì các liên đoàn giàu có hơn nắm lợi thế nhờ công cụ dữ liệu tốt hơn. Nền tảng này xuất kết quả dưới nhiều định dạng: tóm tắt văn bản, clip video, biểu đồ tương tác và trực quan hóa chiến thuật 3D. Các đội có thể sử dụng nó trước và sau trận đấu để phân tích chiến thuật đối thủ, phát hiện mẫu hình đá phạt, theo dõi cường độ vận động cầu thủ và phân tích lịch sử đối đầu. Tuy nhiên, FIFA cấm sử dụng trong thời gian thi đấu, ban huấn luyện chỉ được dùng vào giờ nghỉ giữa hiệp và sau trận. Camera trên ngực trọng tài với AI ổn định hình ảnh Lần đầu tiên trong lịch sử, trọng tài ở cả 104 trận World Cup đều đeo camera trên ngực. Hình ảnh thô từ camera khi trọng tài chạy ở tốc độ cao vốn rung lắc và không thể dùng cho phát sóng, nhưng FIFA chạy mô hình AI ổn định hình ảnh theo thời gian thực trên từng khung hình, tạo ra chất lượng đủ chuẩn phát sóng. Kết quả là góc nhìn "Referee View" mang đến trải nghiệm chủ quan từ mặt sân, nhanh chóng trở thành một trong những đổi mới phát sóng được yêu thích nhất. Góc nhìn này không chỉ phục vụ giải trí mà còn cung cấp cho các nhà phân tích một nguồn dữ liệu mới: chính xác tầm nhìn mà trọng tài có khi đưa ra quyết định. Google Gemini trên đường biên và trải nghiệm người hâm mộ Tháng 3 năm 2026, Liên đoàn bóng đá Argentina công bố Google là nhà tài trợ toàn cầu chính thức, với logo Gemini xuất hiện trên áo tập của cả đội nam, nữ và trẻ. Nhưng sự hợp tác này vượt xa quảng cáo thương hiệu, vì ban kỹ thuật Argentina sử dụng Gemini trực tiếp cho phân tích chiến thuật từ video trận đấu, theo dõi dữ liệu tải trọng và phục hồi chấn thương, truy vấn dữ liệu lịch sử về các kịch bản đối đầu cụ thể, cũng như tạo bản tóm tắt đối thủ riêng cho từng cầu thủ. Đáng chú ý, cầu thủ và huấn luyện viên Argentina sử dụng Gemini qua ứng dụng tiêu chuẩn chứ không qua giao diện tùy chỉnh nào, phản ánh mức độ trưởng thành của các công cụ AI đa năng trong ứng dụng thể thao chuyên nghiệp. Bên cạnh đó, Google cũng triển khai hàng loạt tính năng cho người hâm mộ: tỷ số trực tiếp ghim trên màn hình khóa Android, tóm tắt trận đấu AI trên ứng dụng Gemini, sơ đồ chiến thuật theo yêu cầu, mẫu áo đấu trên Google Photos, điều hướng sân vận động qua Google Maps và thống kê trận đấu trên Google Search. Robot chó, nhận diện khuôn mặt và an ninh AI Tại các địa điểm tổ chức, FIFA triển khai robot chó Boston Dynamics Spot cho tuần tra an ninh vòng ngoài và kiểm tra cơ sở vật chất. Những robot này thực hiện tuần tra tự động ở các khu vực hạn chế, với camera trên thân kết nối vào hệ thống AI an ninh của sân vận động, đặc biệt hiệu quả ở những không gian khó giám sát liên tục như khu vực đường hầm, hành lang kỹ thuật ngầm và vòng ngoài sân vào ban đêm. Tầng sinh trắc học cũng đáng chú ý không kém: một số sân vận động sử dụng nhận diện khuôn mặt cho việc vào cổng, khuôn mặt bạn chính là vé vào, được xử lý đối chiếu với cơ sở dữ liệu trong chưa đầy một giây. Tuy nhiên, sự hiện diện rộng rãi của giám sát AI cũng đặt ra câu hỏi về quyền riêng tư trong các sự kiện thể thao quy mô lớn. AI dự đoán nhà vô địch: mỗi mô hình một đáp án Trước khi giải đấu khởi tranh, nhiều hệ thống AI đã mô phỏng toàn bộ 104 trận đấu để dự đoán nhà vô địch, và kết quả hoàn toàn không thống nhất. ChatGPT dự đoán Tây Ban Nha, mô hình nghiên cứu của FanDuel chọn Pháp (thắng Argentina 3 trên 2 trong trận chung kết), còn Yahoo Sports cùng DataCamp đều đặt cược vào Brazil. Sự bất đồng này rất đáng suy ngẫm, bởi mọi mô hình đều được cung cấp cùng một nguồn dữ liệu công khai gồm bảng xếp hạng FIFA, điểm ELO, phong độ vòng loại và báo cáo chấn thương, nhưng cách đánh trọng số khác nhau lại tạo ra những kết quả hoàn toàn khác biệt. Và tất nhiên, không mô hình nào có thể tính toán được cú sút chân trái của Messi ở phút 89 trong trận knock-out. Đó vẫn là bóng đá. AI không còn là thử nghiệm mà là hạ tầng Điều tạo nên sự khác biệt của World Cup 2026 so với các giải đấu trước không nằm ở bất kỳ công nghệ đơn lẻ nào, mà ở việc AI đã chuyển từ giai đoạn thử nghiệm sang hạ tầng vận hành. Quả bóng thông minh, hệ thống việt vị 3D, camera trọng tài, nền tảng phân tích: không thứ nào trong số này là dự án thí điểm. Chúng là nền tảng hoạt động cơ bản cho mọi trận đấu. Cảm biến 500Hz trong quả bóng không hiểu gì về bóng đá, nó chỉ đo độ xoáy. Nhưng quyết định mà nó tạo ra, chính xác đến milimet, hiển thị dưới dạng 3D và trả kết quả trong vài giây tình huống của tuyển Thụy Điển là điển hình và từ đó nó sẽ thay đổi cách môn bóng đá được vận hành. Đó mới là hình dạng thực sự của AI khi vận hành ở quy mô lớn.

Nam•

16 thg 6, 2026

Đọc thêm