Claude nâng cấp 1 triệu token context window miễn phí

Xuất bản vào 16 tháng 03, 2026

Tóm tắt nhanh

Anthropic vừa gây chấn động ngành công nghiệp AI khi công bố 1 triệu token context window cho Claude Opus 4.6 và Sonnet 4.6 với mức giá tiêu chuẩn, loại bỏ hoàn toàn phụ phí cho ngữ cảnh dài. Động thái này đối lập hoàn toàn với các đối thủ như Google và OpenAI, buộc cả ngành phải xem xét lại cách định giá của mình, đồng thời mang lại lợi ích đáng kể về hiệu suất và chi phí cho người dùng. Bài viết cũng nhấn mạnh chất lượng vượt trội của Claude trong việc duy trì ngữ cảnh dài và nâng cấp giới hạn media quan trọng.

Trong một động thái được đánh giá là 'lật ngược bàn cờ' trong ngành công nghiệp AI, Anthropic vừa công bố một nâng cấp mang tính cách mạng: cung cấp 1 triệu token context window cho các phiên bản Claude Opus 4.6 và Sonnet 4.6 với mức giá tiêu chuẩn. Điều đáng nói là không hề có bất kỳ phụ phí nào cho ngữ cảnh dài, một chính sách hoàn toàn đối lập với hầu hết các nhà cung cấp AI khác, bao gồm cả Google và OpenAI, những người thường tăng giá theo giới hạn ngữ cảnh.

Claude với một triệu token context window có giá bao nhiêu?

Đây là điểm thay đổi cực lớn mà Anthropic mang lại. Một triệu token tương đương với khoảng 750.000 từ, đủ để xử lý 10 đến 15 cuốn tiểu thuyết đầy đủ chỉ trong một lần. Con số này có ý nghĩa to lớn trong các tình huống làm việc thực tế:

Thay vì phải chia nhỏ codebase hay tài liệu thành từng phần, người dùng có thể đưa toàn bộ dự án vào một phiên làm việc duy nhất, giúp AI làm việc với nó như một khối thống nhất.
Claude có thể giữ nguyên toàn bộ thông tin từ đầu đến cuối khi phân tích hàng nghìn trang hợp đồng pháp lý, loại bỏ nguy cơ mất ngữ cảnh giữa chừng.
Các kỹ thuật xử lý ngữ cảnh dài phức tạp trước đây như chia nhỏ tài liệu, tóm tắt có mất mát hoặc xóa context giữa chừng để giải phóng bộ nhớ, giờ đây đều không còn cần thiết.

Cấu trúc giá mới không phụ phí ở một triệu token

Điều làm ngạc nhiên nhất là cấu trúc giá mới hoàn toàn không có phụ phí cho ngữ cảnh dài. Mức giá tiêu chuẩn được áp dụng cho toàn bộ từ 1 đến 1 triệu token:

Opus 4.6: 5$ đầu vào và 25$ đầu ra mỗi 1 triệu token.
Sonnet 4.6: 3 $ la đầu vào và 15 $ đầu ra mỗi 1 triệu token.

Để dễ hình dung, trước đây, khi sử dụng context window vượt quá 200.000 token, nhiều nhà cung cấp thường tính thêm phụ phí từ 2 đến 4 lần. Đặc biệt, người dùng Claude Code với các gói Pro (20 $), Max (100 $), Team và Enterprise đều tự động nhận được 1 triệu token context window khi sử dụng Opus 4.6 mà không cần thêm tín dụng sử dụng.

Claude Opus 4.6 có thực sự nhớ hết 1 triệu token không?

Một câu hỏi thường gặp khi tăng kích thước context window là liệu chất lượng suy luận có bị ảnh hưởng. Anthropic đã giải đáp mối lo ngại này bằng các kết quả benchmark ấn tượng.

Claude Opus 4.6 đạt 78,3% trên MRCR v2 – một bài đo khả năng tìm lại thông tin ẩn trong lượng văn bản khổng lồ. Đây là mức cao nhất so với tất cả các model tiên tiến hiện tại ở cùng độ dài ngữ cảnh.

Để so sánh:

Độ chính xác của GPT giảm đáng kể, chỉ đạt 36% ở 1 triệu context.
Gemini thậm chí còn thể hiện kém hơn, chỉ ở mức 26%, cho thấy các mô hình này đã "quên" đến ⅓ những gì đã được cung cấp trước đó khi đạt đến ngữ cảnh dài.

Với Sonnet 4.6, khả năng ghi nhớ hơn ⅔ ngữ cảnh dài càng chứng tỏ vị thế dẫn đầu của Anthropic trong việc xử lý thông tin phức tạp.

Biểu đồ so sánh Claude với Gemini, GPT trong 1M token — Biểu đồ so sánh Claude với Gemini,GPT trong 1M token

Giới hạn media của Claude tăng gấp 6 lần lên 600 ảnh mỗi request

Bên cạnh context window, một nâng cấp khác tuy ít được chú ý nhưng lại vô cùng quan trọng là giới hạn media. Giới hạn này đã tăng lên 600 ảnh hoặc trang PDF mỗi request, gấp 6 lần so với mức 100 trước đó. Điều này đặc biệt có ý nghĩa với những người làm việc chuyên sâu với các tác vụ yêu cầu xử lý nhiều tài liệu trực quan hoặc PDF, điều này thực sự có ý nghĩa đối với những người dùng gói Pro, Max của Claude cứ chạm token limit liên tục và lại tiếp tục phải chờ.

Giảm đáng kể chi phí sử dụng cho doanh nghiệp

Tính năng đột phá này có sẵn ngay trên Claude Platform, Microsoft Azure Foundry và Google Cloud Vertex AI. Đối với người dùng Claude Code trên các gói Max, Team và Enterprise sử dụng Opus 4.6 thì 1 triệu token context window đã được bật mặc định mà không cần cài đặt thêm. Điều này không chỉ nâng cao hiệu suất mà còn làm giảm đáng kể chi phí cho các hệ thống AI thường xuyên gọi API của Claude, mang lại lợi ích kinh tế lớn cho các doanh nghiệp và nhà phát triển.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Tư duy CEO Y Combinator về 6 câu hỏi để bắt đầu dự án

Mình đã nghe rất nhiều về repo gstack của CEO Y Combinator thế là tò mò cài vào thử, thứ khiến mình bất ngờ nhất không phải các workflow xịn mà là tư duy thật sự khác biệt của vị CEO này. Đó là lệnh đầu tiên trong cả hệ thống: /office-hours với sáu câu hỏi bắt đầu nhưng lại không hỏi về code chỉ hỏi những thứ mà hầu hết mọi người chưa trả lời được trước khi bắt tay vào build. gstack là gì và tại sao Garry Tan tạo ra nó gstack là bộ công cụ mã nguồn mở của Garry Tan, CEO Y Combinator, chủ yếu được thiết kế ra dành cho Claude Code. Ý tưởng cốt lõi của repo là thay vì dùng AI như một người viết code đơn thuần, Garry Tan muốn biến Claude thành cả một nhóm AI agent làm việc thu nhỏ, mỗi thành viên phụ trách một vai trò khác nhau từ người định hướng sản phẩm, kiểm tra bảo mật, đến người kiểm thử và phát hành. Toàn bộ quy trình chạy theo vòng lặp có thứ tự: suy nghĩ → lên kế hoạch → xây dựng → kiểm tra → thử nghiệm → phát hành → đánh giá lại . Cụ thể hơn, gstack chia Claude Code thành 23 vai trò chuyên biệt tất nhiên trong workflow kết quả của bước trước tự động được chuyển sang bước tiếp theo mà không cần bạn làm thủ công. Một số lệnh nổi bật như sau: /office-hours 6 câu hỏi buộc bạn suy nghĩ lại tính năng trước khi viết dòng code đầu tiên /plan-ceo-review tìm xem bạn đang làm quá nhiều hay quá ít so với thực tế cần /review bắt lỗi nghiêm trọng mà các công cụ kiểm tra tự động thông thường không thấy /qa mở trình duyệt thật, thao tác thật, tìm lỗi thật /cso chạy kiểm tra bảo mật theo chuẩn quốc tế tự động /ship đồng bộ, kiểm tra, đẩy code và tạo pull request trong một lệnh duy nhất Kết quả gstack hoạt động thế nào? Garry Tan cho biết tốc độ làm việc của ông năm 2026 nhanh hơn khoảng 810 lần so với năm 2013 khi đo bằng dòng code hoàn chỉnh mỗi ngày (11.417 so với 14 dòng). Trong 60 ngày, ông ship 3 dịch vụ production và hơn 40 tính năng, tất cả trong khi vẫn điều hành Y Combinator toàn thời gian. Andrej Karpathy, đồng sáng lập OpenAI, cũng chia sẻ rằng ông không gõ một dòng code nào kể từ tháng 12/2025 nhờ các tác nhân AI. Nhưng trong tất cả các lệnh đó, /office-hours là thứ đáng chú ý nhất vì một lý do ngược lại với phần còn lại, nó không giúp bạn làm việc nhanh hơn mà nó giúp bạn không làm nhầm thứ ngay từ đầu. Tại sao /office-hours lại được xếp đầu tiên Garry Tan đặt /office-hours ở đầu workflow vì một quan sát đơn giản: hầu hết các sản phẩm thất bại không phải vì code kém mà vì làm sai thứ mọi người cần. Họ bỏ hàng tuần viết một tính năng không ai cần, hoặc xây dựng đúng tính năng nhưng lại sai đối tượng, hoặc giải quyết một vấn đề mà người dùng đã có cách giải quyết tốt hơn từ lâu. Lệnh này có hai chế độ: Startup mode dành cho founder và người build sản phẩm thật, và Builder mode dành cho side project, hackathon, open source. Bài này tập trung vào Startup mode, nơi 6 câu hỏi được áp dụng đúng nghĩa nhất. 6 câu hỏi của /office-hours và tại sao mỗi câu đều đáng giá Đây không phải 6 câu hỏi để trả lời qua loa rồi tiếp tục đến các phần sau. Chúng được thiết kế để bạn suy nghĩ thật, vì câu trả lời càng trung thực thì kết quả Claude tạo ra càng bám sát đúng thứ bạn thực sự cần và bạn sẽ tiết kiệm được rất nhiều thời gian về sau. Bạn có thể xem nội dung gốc đầy đủ 6 cau hỏi tại office-hours/SKILL.md.tmpl. Demand reality: Nhu cầu có thật không? Câu hỏi gốc: "Ai cụ thể đang gặp vấn đề này? Họ đang giải quyết tạm bằng cách nào?" Không phải người dùng nói chung hay team marketing mà tác giả muốn hướng đến một người thật, có tên(càng tốt) đang vật lộn với vấn đề cụ thể là gì. Nếu bạn không biết được một người như vậy, bạn sẽ chưa thực sự hiểu họ cần gì. Ví dụ cụ thể: Thay vì "người dùng muốn quản lý task tốt hơn", phải là "Minh, project manager tại công ty 20 người, đang copy-paste giữa Notion và Google Sheet mỗi sáng thứ Hai vì hai tool không sync được." Tất nhiên đây là ví dụ mọi người tự áp dụng vào trường hợp của mình. Status quo: Họ đang dùng gì thay thế? Câu hỏi gốc: "Giải pháp thay thế tạm thời hiện tại của họ là gì? Bạn cần tốt hơn bao nhiêu để họ chịu đổi sang dùng giải pháp của bạn?" Mọi người đều đang giải quyết vấn đề theo một cách nào đó, dù là Excel, sticky note, hay nhóm chat WhatsApp. Nếu giải pháp hiện tại của họ đủ tốt, họ chẳng có lý do gì để chuyển dữ liệu và phải học sử dụng lại một nền tảng hoàn toàn mới, vì vậy giải pháp của bạn phải làm thực sự tốt hơn để họ còn cân nhắc. Desperate specificity: Ai đang cần giải pháp này đủ nhiều? Câu hỏi gốc: "Ai đang cần giải pháp đến mức có thể dùng bản beta xấu xí của bạn ngay hôm nay?" Đây là câu phân biệt "nice-to-have" và "must-have". Nếu bạn không tìm được ai sẵn sàng dùng một bản chưa hoàn chỉnh, chưa có UI đẹp, còn nhiều lỗi, thì vấn đề bạn đang giải quyết chưa đủ cấp bách. Người dùng thật của giai đoạn đầu là người cần đến mức họ chịu đựng được cả sản phẩm chưa đẹp nhưng có sửa đổi và hướng đi phù hợp. Narrowest wedge: Phần nhỏ nhất là gì? Câu hỏi gốc: "Phần nhỏ nhất có thể ra mắt ngày mai là gì? Không phải toàn bộ sản phẩm mà là phần nhỏ nhất." Không phải phiên bản đầu tiên đầy đủ tính năng mà là phần nhỏ hơn nữa. Câu hỏi này thường cắt bỏ 80% những thứ bạn tự thêm vào vì nghĩ "làm luôn cho tiện". Đây là lỗi mà mình rất hay bị khiến cho mọi thứ vượt tầm kiểm soát, phần này giúp mọi người ra mắt phần nhỏ nhất trước, lắng nghe phản hồi từ người dùng thật rồi mới quyết định mở rộng tiếp. Lưu ý: Nhiều người hay nhầm "phần nhỏ nhất" với "phiên bản đầu tiên đầy đủ tính năng". Thực ra phần nhỏ nhất đúng nghĩa có thể chỉ là tính năng nhỏ giải quyết một vấn đề duy nhất, cho một nhóm người dùng duy nhất, không hơn không kém. Observation and surprise: Bạn đã xem người thật dùng chưa? Câu hỏi gốc: "Bạn đã ngồi xem người thật dùng sản phẩm chưa? Họ dùng theo cách bạn không ngờ không?" Câu hỏi này có lẽ nên để cho vòng lặp thứ hai trở đi, khi bạn đã có bản thử nghiệm trong tay. Thay vì hỏi cảm nhận qua tin nhắn hay khảo sát, hãy ngồi xem trực tiếp hoặc xem lại video ghi màn hình khi họ dùng. Những phát hiện đáng giá nhất thường không phải từ lời họ nói mà từ những thao tác họ làm mà bạn không thiết kế, hoặc những bước họ bỏ qua dù bạn nghĩ là quan trọng. Lưu ý: Nếu bạn đang ở vòng đầu tiên và chưa có sản phẩm nào, mình nghĩ có thể bỏ qua câu này và quay lại sau khi đã ra mắt phần nhỏ nhất ở bước 4. Future-fit: Tầm nhìn 2 đến 3 năm Câu hỏi gốc: "2-3 năm nữa, thứ bạn đang build có còn phù hợp không, hay trend đang đi ngược lại?" Không phải để dự đoán tương lai chính xác, mà để tránh build thứ đang chết dần. Nếu xu hướng đang làm cho vấn đề bạn giải quyết trở nên ít cấp bách hơn trong 2 năm tới, đó chắc chắn là tín hiệu cần xem xét lại từ đầu còn nếu bạn muốn đánh nhanh thắng nhanh để tránh big tech ra sản phẩm giống hệt bạn thì hãy bỏ qua câu hỏi này. Ví dụ thực tế: một ý tưởng tưởng đơn giản bị lật ngược hoàn toàn Trong tài liệu của gstack, Garry Tan lấy một ví dụ rất thực tế. Bạn mở /office-hours và nói: "Tôi muốn làm một app tóm tắt lịch làm việc hàng ngày." Claude không đồng ý ngay và bắt đầu làm theo. Thay vào đó, nó phản hồi: thứ bạn vừa mô tả không chỉ là app tóm tắt lịch mà thực chất là một trợ lý cá nhân AI toàn diện. Hai thứ này khác nhau hoàn toàn về quy mô, độ phức tạp kỹ thuật và kỳ vọng của người dùng. Chỉ từ một câu mô tả ban đầu, /office-hours giúp bạn nhìn ra: 5 tính năng bạn đang mô tả mà chưa nhận ra 4 giả định cần kiểm chứng trước khi bắt tay làm 3 hướng triển khai khác nhau với mức độ phức tạp khác nhau 1 gợi ý: ra mắt phần nhỏ nhất trước, phần còn lại để làm dần về sau Toàn bộ quá trình đó xảy ra rồi cho ra kết quả sẽ được lưu lại thành tài liệu để các bước tiếp theo trong quy trình tự động đọc và tiếp tục. Khả năng mở rộng của 6 câu hỏi này ra ngoài repo gstack 6 câu hỏi của /office-hours không phụ thuộc vào Claude Code, không cần cài gstack. Chúng là tư duy, cách YC partners ngồi đánh giá startup, và bạn có thể áp dụng ngay hôm nay bằng bất kỳ công cụ AI nào đang dùng. Sự khác biệt khi dùng qua gstack là khi Claude sẽ không để bạn trả lời qua loa. Nó giúp Claude hiểu yêu cầu cụ thể hơn và nó không tiếp tục cho đến khi câu trả lời đủ thực tế. Đó là lý do vì sao/office-hours là skill đáng sợ nhất trong cả repo, không phải vì nó khó dùng, mà vì nó hỏi đúng thứ bạn đang bỏ qua. Thử ngay hôm nay: Trước khi làm sản phẩm tiếp theo, paste 6 câu hỏi trên vào Claude, Gemini, hay ChatGPT cùng với mô tả ý tưởng của bạn. Yêu cầu nó hỏi từng câu một và không cho phép bạn bỏ qua. Kết quả thường bất ngờ hơn bạn nghĩ, kể cả với những ý tưởng bạn đã nghĩ rất kỹ. gstack hiện có hơn 117k lượt star trên GitHub và vẫn đang tăng. Với mình, phần đáng giá nhất không phải các lệnh kỹ thuật như /review hay /ship, mà chính là /office-hours vì đây là lệnh duy nhất trong cả bộ công cụ buộc bạn dừng lại và suy nghĩ trước khi làm bất cứ điều gì.

Nam•

27 thg 6, 2026

Đọc thêm

Điều khiển Codex từ điện thoại bằng ChatGPT app

Đang ở ngoài đường mà nhớ ra một chi tiết nhỏ trong dự án cần thay đổi, bạn không nhất thiết phải mở laptop hay remote desktop vào máy. Nếu đã thiết lập kết nối, ChatGPT app trên điện thoại có thể trở thành màn hình điều khiển cho Codex, còn máy tính ở nhà hoặc văn phòng vẫn là nơi chạy code thật. ChatGPT app không chạy Codex trên điện thoại Điểm dễ hiểu sai nhất là tưởng Codex đang chạy trực tiếp trong điện thoại. Thực tế ở đây điện thoại chỉ gửi prompt, câu trả lời, phê duyệt và tin nhắn tiếp theo, trong khi môi trường làm việc thật nằm trên máy Mac hoặc Windows đang chạy Codex. Nói cách khác, app ChatGPT là bộ điều khiển từ xa, còn máy host mới là nơi có repo, terminal, credentials, plugin, MCP server và các công cụ khác. Cách vận hành này rất hợp lý vì codebase thường nằm trên máy phát triển, không nằm trên điện thoại. Khi bạn nhắn yêu cầu như sửa lỗi TypeScript, chạy test hoặc xem diff, Codex xử lý trong project đã chọn trên host rồi gửi lại kết quả để bạn theo dõi. Nếu bạn muốn tìm hiểu nền tảng trước khi dùng remote, có thể đọc bài Codex là gì và cách sử dụng Codex để nắm vai trò của công cụ này trong workflow làm việc. Cần chuẩn bị gì trước khi kết nối ChatGPT app và Codex? Theo tài liệu cập nhật Codex hiện tại của OpenAI, ChatGPT app đã hỗ trợ điều khiển Codex trên cả macOS và Windows còn hiện tại thì chưa có hỗ trợ ở Linux và đặc biệt là tính năng này hỗ trợ tất cả các tài khoản ChatGPT kể cả Free và Go. Sau đó bạn chỉ chuẩn bị đăng nhập cùng một tài khoản hoặc workspace trên cả hai thiết bị: ChatGPT mobile (bản mới nhất trên iOS hoặc Android) và Codex (bản mới nhất trên máy host đang online). Máy host phải luôn bật và Codex phải đang chạy trong suốt thời gian bạn điều khiển từ xa. Nếu máy sleep, mất mạng hoặc Codex App bị đóng, kết nối từ điện thoại sẽ mất ngay lập tức và mọi tác vụ đang chạy có thể bị gián đoạn. Điểm đáng chú ý là toàn bộ quá trình thiết lập bắt đầu từ Codex App trên máy host và rất đơn giản chỉ cần quét QR code là xong . Tức là trong Codex App, bạn chọn mục thiết lập Codex mobile ở sidebar, sau đó quét mã QR bằng điện thoại, rồi hoàn tất xác nhận trong ChatGPT app. Riêng với workspace doanh nghiệp, quản trị viên có thể cần bật quyền Remote Control trước rồi bạn mới có thể kết nối được. Mã QR này là để điều khiển máy tính của bạn, vì vậy bạn hãy bảo mật QR này không được phép chia sẻ để đảm bảo không có điều đáng tiếc xảy ra với máy tính của bạn Vậy mình tổng hợp lại bước kết nối giữa ChatGPT app và Codex khá là đơn giản Máy tính host cần online và đang chạy Codex ChatGPT app và Codex cần đăng nhập cùng tài khoản hoặc workspace Thiết lập mã QR Codex trên host và hoàn tất trên điện thoại Các yêu cầu MFA, SSO hoặc passkey vẫn có thể áp dụng Sau khi kết nối, bạn có thể làm gì? Khi host đã xuất hiện trong Codex trên điện thoại, bạn có thể bắt đầu thread mới trong project trên host hoặc tiếp tục thread đang có. Đây là phần làm trải nghiệm trở nên đáng giá: bạn có thể gửi follow up, trả lời câu hỏi của Codex, duyệt command, xem output, xem diff, xem test result, thậm chí nhận thông báo khi task hoàn tất hoặc cần bạn chú ý. Ví dụ thực tế, bạn đang ngồi cà phê và nhớ ra form đăng nhập có lỗi validate. Bạn có thể mở ChatGPT app, chọn host đang kết nối, nhắn rằng hãy kiểm tra luồng auth, sửa lỗi validate email và chạy test liên quan. Codex sẽ thao tác trên repo ở máy host, còn bạn chỉ cần xem kết quả, approve hành động khi cần và quyết định có yêu cầu chỉnh tiếp hay không. Đây cũng là lý do mọi người bắt đầu xem Codex hay các IDE khác như một đồng nghiệp làm việc trong môi trường thật, chứ không phải chỉ là một công cụ code nữa. Sức mạnh của nó nằm ở việc đọc file, chạy lệnh, chỉnh sửa code và giữ mạch công việc qua nhiều vòng trao đổi. Giới hạn nào cần nhớ khi dùng từ điện thoại với ChatGPT app Điều khiển qua điện thoại tất nhiên phụ thuộc hoàn toàn vào máy host nếu máy tính sleep, mất mạng, đóng Codex hoặc không còn đăng nhập đúng workspace, điện thoại sẽ không còn môi trường để điều khiển. Tuy nhiên nếu Codex đang thực hiện dở tác vụ thì nó sẽ vẫn thực hiện tiếp trên máy host và sẽ được thông báo xong ngay khi điện thoại kết nối lại nên mọi người sẽ bớt lo khi điện thoại tự nhiên mất mạng khi đang chạy dở trên Codex. Một lưu ý nữa là trên Windows, các tác vụ dùng Computer Use còn yêu cầu phiên làm việc chạy ở nền trước phù hợp, vì vậy đây không phải phương án thay thế hoàn toàn cho việc ngồi trực tiếp trước máy . Bạn cũng nên phân biệt việc giao một tác vụ gọn với việc review thay đổi lớn. Điện thoại rất hợp cho bug nhỏ, chạy test, hỏi nhanh về một file, duyệt các tác vụ ngắn hoặc kiểm tra trạng thái task. Tuy nhiên, các tác vụ yêu cầu làm việc với mức độ cao vẫn nên được review trên màn hình lớn để tránh bỏ sót chi tiết. Cách dùng thực tế cho hiệu quả Cách dùng hiệu quả nhất là giao việc có phạm vi rõ ràng và kết quả cụ thể. Thay vì nhắn chung chung "hãy sửa đăng nhập"thì hãy mô tả rõ lỗi xảy ra ở đâu, sau khi sửa kỳ vọng hành vi như thế nào, test nào cần chạy và phần nào không được đụng vào. Codex xử lý tốt hơn khi biết rõ ranh giới công việc, đặc biệt vì điều khiển qua điện thoại khiến mỗi vòng phản hồi chậm hơn so với ngồi trực tiếp trước máy. Một nhịp làm việc thực tế có thể là: mô tả chi tiết công việc cần làm dù nhỏ hay vừa, yêu cầu Codex đọc các file liên quan, để nó đề xuất hướng giải quyết, chỉ approve khi cần thiết và chờ báo cáo kết quả. Làm quen với nhịp này, bạn sẽ thấy những khoảng thời gian vụn vặt bên ngoài hoàn toàn có thể xử lý được việc thật, trong khi vẫn giữ quyền quyết định cuối cùng trong tay mình. So sánh với Claude Code Remote và Telegram bot Hiện có rất nhiều cách phổ biến để điều khiển AI coding agent từ điện thoại tuy nhiên mình mới chỉ biết đến 3 cách và mỗi cách phục vụ một nhu cầu khác nhau. Tiêu chí ChatGPT app + Codex Claude Code Remote Telegram + Codex Chat tự nhiên ✅ Rất tốt ✅ Tốt ❌ Cần đúng cú pháp Kiểm soát chi tiết Trung bình Cao nhất Thấp Độ ổn định kết nối Ổn định Ổn định Hay mất kết nối UI trên mobile Tối ưu tốt Chưa tối ưu hoàn toàn Dùng app Telegram sẵn có Setup ban đầu Dễ, quét QR Dễ Cần tự cấu hình bot Yêu cầu máy tính bật ✅ Bắt buộc ✅ Bắt buộc ✅ Bắt buộc Claude Code Remote Control là lựa chọn mạnh nhất về mặt kiểm soát bạn xem được terminal output trực tiếp, can thiệp giữa chừng được và cảm giác sát với agent hơn. Tuy nhiên UI trên màn hình điện thoại nhỏ chưa được tối ưu hoàn toàn, một số thao tác vẫn khó có thể thực hiện khi không có bàn phím vật lý. Telegram bot là lựa chọn không cần app riêng và dễ tiếp cận ban đầu, nhưng trải nghiệm thực tế có nhiều hạn chế: hay bị chậm, thi thoảng mất kết nối giữa chừng mà không báo trước, và vì thiếu context AI thực sự nên những yêu cầu phức tạp hơn một chút là bot bắt đầu không hiểu ý, buộc bạn phải gõ lệnh chính xác thay vì mô tả tự nhiên. ChatGPT app + Codex nằm ở điểm cân bằng tốt nhất cho phần lớn người dùng — đủ mượt, đủ thông minh, setup nhanh bằng QR và không cần học thêm cú pháp mới để bắt đầu. ChatGPT app kết nối với Codex không biến điện thoại thành máy lập trình, mà biến nó thành cửa điều khiển cho một máy phát triển đang sẵn sàng làm việc. Nếu host được bật, quyền được thiết lập đúng và task đủ gọn, đây là cách thực dụng nhất hiện tại để xử lý công việc code khi không ngồi trước laptop.

Nam•

22 thg 6, 2026

Đọc thêm

Hermes Agent là gì? AI agent tự học của Nous Research

Càng học nhiều thì càng giỏi hơn, nguyên tắc tưởng chỉ áp dụng cho con người này hóa ra cũng đúng với Hermes Agent, một AI agent mã nguồn mở của Nous Research. Mỗi lần làm việc cùng bạn, Hermes Agent không quên đi mà ghi nhớ lại, hiểu bạn sâu hơn và tự giỏi lên qua từng phiên sử dụng, nhờ một hệ thống bộ nhớ có thể nhớ mọi thứ về bạn ngay cả khi máy đã tắt cả tuần. Hermes Agent là gì? Hermes Agent là một AI agent mã nguồn mở do Nous Research, phòng nghiên cứu đứng sau các dòng model Hermes, Nomos và Psyche, phát triển và phát hành dưới giấy phép MIT. Khác với các Antigravity hay Codex phụ thuộc vào môi trường IDE hay các chatbot thông thường cuối cùng vẫn chỉ là lớp vỏ gọi một API duy nhất, Hermes Agent được thiết kế để chạy liên tục trên hạ tầng riêng của người dùng, từ một con VPS giá rẻ cho đến cụm GPU hay hạ tầng serverless và nó hoạt động gần giống như Open Claw . Điểm khác biệt cốt lõi của Hermes Agent nằm ở khả năng quản trị trí nhớ lâu dài và tự chuyển hóa trải nghiệm thành skills thực tế. Thay vì chỉ lưu trữ thông tin thô hay ghi nhớ sở thích một cách thụ động như các AI như Gemini hay Claude, Hermes sở hữu một "vòng lặp học tập" khép kín tức là sau mỗi phiên làm việc, nó chủ động đúc kết quy trình thành các công cụ làm việc mới để sử dụng cho những lần sau. Hệ thống này được vận hành bởi một "Agent quản trị" (Curator) chạy ngầm để tự động chấm điểm, cắt tỉa và hợp nhất kiến thức, kết hợp cùng công nghệ tìm kiếm FTS5 giúp truy xuất ký ức cũ nhanh gấp 4.500 lần mà không tốn chi phí token. Nhờ đó, Hermes không chỉ phản hồi rồi quên đi mà thực sự trở thành một cộng sự ngày càng am hiểu và chuyên nghiệp hơn theo thời gian sử dụng. Bốn tính năng tạo nên khác biệt của Hermes Agent Nous Research không gọi Hermes Agent là chatbot hay copilot mà định vị nó như một agent có vòng lặp học tập được tích hợp sẵn. Bốn nhóm tính năng dưới đây giải thích vì sao cách gọi đó không chỉ là chiêu marketing. Bộ nhớ xuyên phiên làm việc Điểm yếu lớn nhất của hầu hết AI hiện nay là trạng thái trí nhớ đều lưu trữ thông tin thô của đoạn chat chứ chưa nhớ được cách làm việc. Hermes Agent đã đưa ra cách xử lý vấn đề này bằng ba cơ chế kết hợp: Truy xuất nhanh: Dùng cơ chế tìm kiếm toàn văn FTS5, giúp tìm lại ký ức cũ nhanh hơn khoảng 4.500 lần so với cách tìm kiếm thông thường, mà không tốn thêm token giống như Gemini hay Cowork. Thấu hiểu người dùng: Tích hợp phương pháp mô hình hóa người dùng theo hướng dialectic từ Honcho, giúp agent hiểu sâu sở thích, thói quen và bối cảnh cá nhân xuyên suốt hàng nghìn phiên làm việc. Liên tục: Agent tiếp nối công việc đúng tại nơi bạn đã dừng lại, kể cả khi đó là một dự án từ nhiều tuần trước. Tự tạo và tự cải thiện kỹ năng Đây là tính năng giúp Hermes Agent hoạt động như một cộng sự tích lũy kinh nghiệm, thay vì chỉ là một công cụ trả lời theo yêu cầu: Tự học từ thực tế: Sau khi hoàn thành các tác vụ phức tạp, Hermes Agent tự đúc kết quy trình thành kỹ năng mới (skills) và lưu vào thư viện để dùng tự động cho lần sau. Chuẩn mở agentskills.io: Các kỹ năng này tuân theo chuẩn mở, có thể đóng gói, chia sẻ và tái sử dụng giữa các hệ thống AI khác nhau mà không cần viết lại từ đầu. Cơ chế Curator: Một tác nhân quản trị sẽ chạy ngầm định kỳ chấm điểm, cắt tỉa và hợp nhất các kỹ năng (skills) trùng nhau, điều giúp thư viện kỹ năng không phình to và rối loạn theo thời gian. Hiện diện trên hơn 23 nền tảng nhắn tin Hermes Agent không bị giới hạn trong chỉ dùng trong máy tính mà tích hợp trực tiếp vào các kênh giao tiếp trên điện thoại mà người dùng đã quen dùng hằng ngày: Đa kênh, một bộ não: Có thể ra lệnh cho Hermes Agent qua Telegram, Discord, Slack, WhatsApp, Signal, email hoặc SMS. Duy trì ngữ cảnh: Dù nhắn tin qua Telegram vào buổi sáng và chuyển sang Discord vào buổi tối thì agent vẫn giữ một dòng ký ức duy nhất, không bị phân mảnh theo từng kênh. Tương tác đa phương thức: Hỗ trợ gửi tin nhắn thoại, hình ảnh và video, kèm khả năng phân tích nội dung đa phương thức. Linh hoạt về hạ tầng chạy Hermes Agent hỗ trợ sáu loại backend để thực thi lệnh: máy cục bộ, Docker, SSH, Daytona, Singularity và Modal. Với Daytona và Modal, môi trường có thể tạm ngủ khi không dùng đến và gần như không tốn chi phí lúc rảnh, chỉ thức dậy khi có việc cần xử lý. Đây là lý do Nous Research mô tả Hermes Agent là agent luôn trực tuyến mà không cần người dùng phải duy trì một máy chủ chạy 24/7 với chi phí cao quanh năm. Có thể cài đặt Hermes Agent chỉ cần một lệnh curl duy nhất, hỗ trợ Linux, macOS và Windows qua WSL2 hoặc từ ngày 5/6/2026 với phiên bản v0.16.0 "The Surface Release" đã chính thức ra mắt ứng dụng Native Desktop cho Windows, macOS và Linux với giao diện đồ họa (GUI) hoàn thiện, giúp người dùng phổ thông tiếp cận dễ dàng mà không cần dùng terminal. Bộ công cụ tích hợp sẵn và những giới hạn cần biết Hơn 40 công cụ dựng sẵn, từ tìm kiếm web đến tự động hóa lịch Hermes Agent đi kèm hơn 40 công cụ có sẵn, bao gồm tìm kiếm web, thao tác trình duyệt, xử lý file và thực thi script Python qua RPC để chạy các tác vụ con mà không tốn thêm ngữ cảnh của agent chính. Một hệ thống lập lịch bằng ngôn ngữ tự nhiên cho phép đặt các tác vụ định kỳ như báo cáo hằng ngày hay sao lưu dữ liệu, rồi để agent tự chạy mà không cần ai nhắc lại. Với những việc cần tách biệt hoàn toàn, Hermes Agent còn hỗ trợ các sub-agent có cuộc trò chuyện, terminal và script riêng giúp xử lý song song nhiều việc mà không làm loãng bộ nhớ chính. Những thách thức và lưu ý về bảo mật Dù đang cập nhật nhanh, Hermes Agent vẫn có một số điểm người dùng cần lưu ý trước khi triển khai: Độ ổn định của cơ chế tự học: Khả năng tự cải thiện kỹ năng giúp tăng tỷ lệ thành công theo báo cáo của Tencen Cloud ghi nhận mức tăng tới 52% và tiết kiệm tới 61% lượng token. Tuy nhiên đây là cơ chế tự tiến hóa (self-evolving), hiệu quả thực tế vẫn phụ thuộc vào model nền mà người dùng chọn và vẫn cần có sự giám sát của con người thay vì tin tưởng tuyệt đối. Rủi ro từ quyền hạn cao và trách nhiệm bảo mật thuộc về người dùng: Hermes Agent có thể can thiệp sâu vào hệ thống (excessive agency), nên việc kết nối trực tiếp với nhiều nền tảng nhắn tin đòi hỏi người dùng tự quản lý API key và thiết lập rào chắn (guardrails). Khác với các dịch vụ AI đóng, Hermes Agent trao toàn bộ quyền kiểm soát cho người dùng, đồng nghĩa người dùng cũng phải chịu trách nhiệm cao hơn trong việc cấu hình quyền truy cập để tránh rò rỉ thông tin. Vì sao Hermes Agent tăng trưởng thần tốc? Hermes Agent có thể bùng nổ nhờ cách làm marketing của Nous Research nhưng theo mình nó đến từ ba yếu tố chính. Chính sách di cư không rào cản từ OpenClaw Nhận thấy lượng người dùng lớn của OpenClaw, Nous Research xây dựng công cụ di chuyển cho phép mang nguyên persona, API key, toàn bộ kỹ năng và bộ nhớ sang Hermes Agent chỉ bằng một lệnh mà không bị mất dữ liệu cũ và tất nhiên là không cần cấu hình lại từ đầu. Nếu bạn đang dùng OpenClaw và muốn thử Hermes Agent mà không mất dữ liệu cũ, hãy tìm công cụ di chuyểnhermes claw migrate tích hợp sẵn trong Hermes Agent trước khi nghĩ đến việc cài lại từ đầu. Đặt cược vào vòng lặp học tập khép kín thay vì chạy đua tính năng Trong khi nhiều agent khác cạnh tranh về số lượng công cụ, Hermes Agent định vị mình là một thực thể tự tiến hóa, biết đúc kết kinh nghiệm thành kỹ năng mới và giữ bộ nhớ dài hạn để hiểu người dùng sâu hơn theo thời gian. Hướng đi này tạo ra giá trị bền vững, từng được cộng đồng tận dụng cho những dự án như tự động hóa sản xuất nội dung quy mô lớn với độ nhất quán cao qua nhiều phiên làm việc. Vai trò làm nền tảng sinh dữ liệu huấn luyện Không chỉ là trợ lý cá nhân, Hermes Agent còn là một công cụ nghiên cứu mạnh mẽ. Nó có khả năng tạo ra hàng nghìn quỹ đạo gọi công cụ (tool-calling trajectories) song song và nén chúng lại để huấn luyện các mô hình AI khác. Việc biến trải nghiệm thực tế của agent thành dữ liệu huấn luyện giúp Hermes trở thành nền tảng không thể thiếu cho các nhà phát triển muốn xây dựng thế hệ AI tự chủ tiếp theo. Hermes Agent khác gì một agent harness? Nhiều người mới tìm hiểu dễ nhầm Hermes Agent với khái niệm agent harness vốn là bộ khung quyết định cách một model gọi công cụ, nó xử lý vòng lặp suy luận và điều phối các bước thực thi bên trong. Nếu coi harness là phần động cơ và khung gầm quyết định cách một chiếc xe vận hành, thì Hermes Agent giống một chiếc xe đã lắp sẵn động cơ đó rồi cộng thêm ghế ngồi, hệ thống định vị và cả bộ nhớ hành trình của riêng người lái. Nói cách khác, harness là lớp kiến trúc kỹ thuật nằm bên dưới, còn Hermes Agent là sản phẩm hoàn chỉnh dành cho người dùng cuối, đã đóng gói sẵn bộ nhớ, hệ thống kỹ năng, kênh giao tiếp và lựa chọn hạ tầng chạy. Một nhà phát triển có thể tự xây harness riêng để kiểm soát từng chi tiết nhỏ, nhưng phần lớn người dùng không cần đi sâu đến mức đó, họ chỉ cần một agent chạy được ngay và ngày càng thông minh hơn qua quá trình sử dụng. Để hiểu rõ hơn về lớp kiến trúc bên dưới này, có thể đọc thêm Agent harness là gì? Bộ khung giúp AI làm việc hiệu quả, nơi giải thích chi tiết cách các framework dạng này hoạt động. Hermes Agent có đáng thử ngay bây giờ? Với việc toàn bộ mã nguồn mở, không thu thập dữ liệu người dùng và có thể tự host hoàn toàn, Hermes Agent là một trong số ít agent hiện nay cho phép người dùng kiểm soát trọn vẹn dữ liệu của chính mình, trong khi vẫn có được trải nghiệm trợ lý liên tục với trí nhớ thật, không phải trí nhớ giả lập chỉ tồn tại trong một cuộc chat đơn lẻ. Sau bản v0.16.0, rào cản kỹ thuật lớn nhất với người dùng không quen terminal cũng đã được dỡ bỏ phần lớn, khi ứng dụng desktop native cho Windows, macOS và Linux đã thay thế hoàn toàn cách dùng CLI thuần trước đây. Điều còn lại để đánh giá Hermes Agent không phải là nó có chạy được hay không, mà là nó học được gì sau vài tuần sử dụng thật. Cách kiểm chứng nhanh nhất là cài bản desktop hoặc chạy CLI trên một VPS rẻ, kết nối với một kênh nhắn tin quen dùng như Telegram, rồi quan sát agent tự hình thành những kỹ năng nào từ chính cách bạn dùng nó mỗi ngày. Đó cũng là tiền đề để so sánh Hermes Agent với các lựa chọn khác trên thị trường, từ Agent Harness cho đến OpenClaw và Claude Cowork, trong phần tiếp theo của loạt bài này.

Nam•

19 thg 6, 2026

Đọc thêm

Gemini đồng hành cùng Argentina và Messi tại World Cup 2026

Gemini đã thắng lớn theo đúng nghĩa đen ngay khi Messi lập cú hat-trick đầu tiên tại World Cup 2026, giúp Argentina đè bẹp Algeria với tỷ số 3-0 và cân bằng kỷ lục 16 bàn thắng của Miroslav Klose. Khoảnh khắc lịch sử này chính là bệ phóng hoàn hảo cho Gemini. Trước đó vào tháng 3/2026, Google và Liên đoàn bóng đá Argentina (AFA) đã đưa ra một quyết định táo bạo: thay vì chỉ in logo trên áo tập, họ ký hợp đồng để AI này tham gia hỗ trợ chiến thuật và đưa ra các quyết định chuyên môn. Đến nay, thương vụ đặt cược này đã chứng minh đó là một chiến lược hoàn toàn đúng đắn. Từ áo tập đến phòng họp chiến thuật Thỏa thuận giữa AFA và Google được công bố tại Times Square, New York, một địa điểm được chọn có chủ ý để gây chú ý với truyền thông toàn cầu. Logo Gemini xuất hiện trên toàn bộ trang phục tập luyện của đội tuyển nam, nữ lẫn các lứa trẻ Argentina, đứng ngang hàng với Adidas và American Express trong tầng tài trợ cao nhất của AFA. Nhưng phần thú vị không nằm ở chiếc áo. Theo thông tin từ Inside World Football, ban huấn luyện Argentina sẽ dùng Gemini cho ba việc cụ thể: phân tích chiến thuật, phòng ngừa chấn thương và hỗ trợ ra quyết định. Nói cách khác, Gemini có mặt trong những cuộc họp mà trước đây chỉ có Scaloni và các trợ lý của ông được ngồi. Google không tiết lộ cụ thể những công cụ Gemini nào được tích hợp vào quy trình làm việc của AFA. Điều duy nhất rõ ràng là họ đang dùng World Cup để đưa Gemini vào thực tế bóng đá chuyên nghiệp, và kết quả sẽ được chấm điểm công khai. Gemini làm gì trong phòng thay đồ? Argentina đến World Cup 2026 với tư cách nhà đương kim vô địch. Mọi quyết định của Scaloni, từ danh sách triệu tập đến lựa chọn đội hình, đều bị soi kỹ hơn bất kỳ đội nào khác, và đây cũng chính là lý do Argentina trở thành phòng thí nghiệm lý tưởng nhất mà Google từng có cho Gemini trong môi trường bóng đá chuyên nghiệp và đặc biệt là ở giải đấu lớn. Phân tích chiến thuật Gemini được dùng để xử lý dữ liệu trận đấu của cả Argentina lẫn đối thủ, bao gồm thống kê di chuyển, mẫu hình tấn công và điểm yếu phòng thủ. Thay vì ban huấn luyện phải ngồi xem lại hàng giờ video, AI tổng hợp và đưa ra các sơ đồ chiến thuật được tạo tự động điều này sẽ tiết kiệm đáng kể thời gian chuẩn bị trước mỗi trận. Phòng ngừa chấn thương Đây là bài toán mà mọi đội bóng lớn đều muốn giải, đặc biệt khi Messi và nhiều trụ cột đã ở độ tuổi cần quản lý tải lượng tập luyện cẩn thận. Gemini phân tích dữ liệu sinh học và lịch sử chấn thương để đưa ra cảnh báo sớm, giúp ban huấn luyện điều chỉnh cường độ tập trước khi vấn đề thực sự xảy ra. Đó là lý do vì sao vừa ghi hat-trick Scaloni đã quyết định thay Messi ra để đảm bảo thể lực và an toàn cho các trận đấu sau. AI trong phòng ngừa chấn thương tất nhiên không phải diều mới mẻ gì khi mà tại Premier League đã có Microsoft làm đối tác cho mục đích tương tự. Điểm khác biệt lần này là Gemini được tích hợp trực tiếp vào quy trình của một đội tuyển dự giải lớn, không chỉ ở cấp câu lạc bộ. Phía người hâm mộ: tạo ảnh Messi, theo dõi tỉ số không cần mở khóa màn hình Song song với việc hỗ trợ ban huấn luyện, Gemini cũng triển khai một loạt tính năng hướng đến người hâm mộ, và đây mới là phần mà hàng trăm triệu người thực sự chạm vào. Gemini cho phép tạo nội dung về cầu thủ luôn Người dùng có thể tạo ảnh, bài nhạc và nội dung kỹ thuật số gắn với các cầu thủ Argentina như Messi ngay trong ứng dụng Gemini. Tính năng này được thiết kế để đưa trải nghiệm World Cup đến gần hơn với những người không thể đến sân trực tiếp. Tỉ số thời gian thực và bản tin tự động Trên Google Search, tỉ số trận đấu được ghim lên màn hình khóa và cập nhật theo thời gian thực, có animation riêng cho bàn thắng và thẻ đỏ mà không cần mở khóa điện thoại. Với người dùng Gemini trả phí, tính năng Scheduled Actions cho phép thiết lập bản tin bóng đá tự động mỗi ngày, bao gồm tỉ số, tin tức và lịch thi đấu, được giao đúng giờ đã chọn mà không cần nhắc lại mỗi ngày. Hạ tầng phục vụ ngày thi đấu Google cập nhật Street View tại 16 sân vận động chủ nhà và tối ưu hóa lộ trình trên Waze cho ngày thi đấu. Waze còn hiển thị tỉ số trực tiếp khi xe dừng đèn đỏ, để người lái không cần cầm điện thoại trong lúc di chuyển. World Cup 2026 là phép thử thật sự cho AI trong thể thao Google không chỉ tài trợ cho Argentina. Gemini còn có mặt trên áo của Pháp, Morocco, Iraq, Thổ Nhĩ Kỳ và Mỹ, trong khi Pixel là điện thoại chính thức của đội Pháp với Gemini được dùng cho liên lạc nội bộ. Đây rõ ràng là chiến lược tổng thể của Google và không phải một hợp đồng đơn lẻ. Điều khiến World Cup 2026 trở nên đặc biệt là nó sẽ trả lời một câu hỏi mà không phòng lab nào làm được: người dùng thực sự dùng AI để làm gì khi có một giải đấu World Cup 2026 kéo dài 6 tuần với 104 trận? Các tính năng chạy trên sức hút ban đầu sẽ tắt dần sau vòng bảng. Những gì người dùng còn tiếp tục dùng đến tận trận chung kết mới là câu trả lời thật cho câu hỏi AI phù hợp ở đâu trong cuộc sống hàng ngày, và Google biết rõ điều đó. Giám đốc truyền thông Google khu vực Mỹ Latinh, Flor Sabatini, phát biểu rằng World Cup 2026 sẽ đánh dấu một trước và sau trong lịch sử bóng đá nhờ AI. Câu nói nghe có vẻ marketing, nhưng thực tế là lần đầu tiên một mô hình AI lớn được tích hợp vào chuẩn bị của đội đương kim vô địch, ngay giữa một giải đấu được xem nhiều nhất hành tinh. World Cup 2026 là bài kiểm tra thật của Gemini Điểm đáng chú ý nhất của toàn bộ câu chuyện này không phải logo Gemini trên áo Messi. Đó là việc Argentina tất nhiên vẫn là đội được kỳ vọng nhất và bị soi kỹ nhất, với áp lực bảo vệ chức vô địch vẫn đặt một phần quy trình chuẩn bị của mình vào AI. Nếu Argentina thành công, Gemini có một case study không thể mua bằng tiền quảng cáo. Nếu Argentina thất bại mà ban huấn luyện quy trách nhiệm một phần cho AI, câu chuyện sẽ đi theo chiều ngược lại hoàn toàn. Dù kết quả thế nào, đây là lần đầu tiên AI phải chịu trách nhiệm ở một sân khấu thực sự có giá trị, không phải benchmark, không phải demo, mà là World Cup. Với người dùng AI, điều đáng theo dõi không chỉ là Argentina có vô địch hay không, mà là xem liệu Gemini có thực sự thay đổi cách một đội bóng vận hành, hay chỉ là logo trên áo tập đẹp hơn mọi năm.

Nam•

17 thg 6, 2026

Đọc thêm