Agent Harness là gì? Bộ khung giúp AI làm việc hiệu quả

Xuất bản vào 1 tháng 06, 2026

Tóm tắt nhanh

Agent harness là lớp phần mềm bao quanh mô hình AI, đảm nhận mọi việc hành chính để AI chỉ cần tập trung suy nghĩ và đưa ra giải pháp. Không có harness, AI agent thiếu trí nhớ dài hạn, dễ mất tiến trình khi gặp sự cố và hay tự tuyên bố hoàn thành công việc mà không kiểm tra kết quả thực tế. Bài viết phân tích bốn thành phần cốt lõi của một harness hoàn chỉnh, hai giai đoạn hoạt động và ba mô hình tổ chức phổ biến từ đơn giản đến phức tạp. Harness engineering, khái niệm do Mitchell Hashimoto đặt tên năm 2026, coi mỗi lỗi của AI là vấn đề hệ thống cần khắc phục tận gốc thay vì thử lại. Chính nhờ tư duy này, OpenAI đạt được 3,5 pull request mỗi kỹ sư mỗi ngày mà không gõ một dòng code nào.

Hãy tưởng tượng bạn có một trợ lý AI vô cùng thông minh nhưng lại rất nhanh quên và không tự kiểm tra được chất lượng công việc của mình. Để giải quyết vấn đề này, các nhà phát triển đã tạo ra một lớp bảo vệ và quản lý bao quanh mô hình AI mang tên agent harness. Đây chính là thứ giúp các trợ lý AI tự động hoàn thành những nhiệm vụ phức tạp mà không cần sự can thiệp liên tục từ con người.

Agent harness là gì?

Để dễ hình dung, hãy tưởng tượng mô hình AI giống như một nhân viên mới cực kỳ thông minh nhưng lại có trí nhớ rất ngắn hạn và hoàn toàn xa lạ với môi trường làm việc. Nhân viên này có thể giải quyết các bài toán phức tạp trong tích tắc nhưng lại dễ quên mình đang làm gì hoặc vô tình gửi nhầm tài liệu quan trọng cho khách hàng. Trong tình huống đó, agent harness đóng vai trò như một người quản lý giàu kinh nghiệm ngồi ngay bên cạnh để hướng dẫn và giám sát.

Nói đơn giản hơn, agent harness là lớp phần mềm bao bọc bên ngoài mô hình AI, đảm nhận mọi công việc hành chính và hậu cần để AI chỉ cần tập trung vào việc suy nghĩ và đưa ra giải pháp. Lớp này kết nối AI với các công cụ bên ngoài, ghi chép lại toàn bộ lịch sử công việc qua nhiều ngày và kiểm tra chất lượng kết quả trước khi coi là xong.

Về mặt thực tế, một agent harness thực hiện các nhiệm vụ sau:

Kết nối mô hình AI với các công cụ bên ngoài như tìm kiếm web, hòm thư điện tử hay lịch làm việc
Lưu trữ toàn bộ tiến trình công việc để AI không phải bắt đầu lại từ đầu ở phiên làm việc tiếp theo
Lọc bớt thông tin dư thừa và chỉ cung cấp những dữ liệu cần thiết nhất cho AI tại mỗi bước
Giám sát các hành động của AI nhằm ngăn chặn những sai sót nguy hiểm
Ghi lại nhật ký hoạt động chi tiết để con người dễ dàng kiểm tra khi cần

Vì sao AI hay thất bại khi làm việc dài hơi?

Điểm yếu lớn nhất của các mô hình AI hiện nay là chúng hoàn toàn không có ký ức dài hạn. Khi bạn mở một cuộc trò chuyện mới, AI bắt đầu từ con số không và không nhớ bất kỳ thông tin nào từ các cuộc trò chuyện trước. Hãy tưởng tượng bạn thuê một nhân viên mà mỗi buổi sáng thức dậy đều quên sạch mọi thỏa thuận và tiến độ công việc từ hôm qua.

Khi Anthropic thử nghiệm cho Claude xây dựng một ứng dụng web phức tạp mà không có harness hỗ trợ, kết quả rất đáng thất vọng. Hai lỗi liên tục xuất hiện:

AI cố gắng làm tất cả cùng một lúc, bộ nhớ bị quá tải giữa chừng và bỏ dở dự án. Phiên tiếp theo lại tốn thời gian đoán xem đã làm được đến đâu.
AI tự tuyên bố hoàn thành công việc mà không chạy thử xem kết quả có thực sự hoạt động hay không.

Ngoài hai lỗi trên, việc thực hiện các dự án dài hạn còn khiến AI gặp thêm các vấn đề sau:

Bộ nhớ làm việc bị tắc nghẽn: Hàng loạt thông tin phụ tích tụ theo thời gian khiến AI dần mất tập trung vào mục tiêu ban đầu
Sử dụng công cụ sai cách: AI đôi khi tìm kiếm thông tin không tồn tại hoặc điền sai thông tin vào biểu mẫu, và nếu không có gì chặn lại sẽ lặp đi lặp lại cùng một lỗi
Mất toàn bộ tiến trình khi gặp sự cố: Bất kỳ lỗi mạng hay sự cố hệ thống nào cũng xóa sạch những gì đang lưu trong bộ nhớ tạm

Agent harness hoạt động ra sao trong thực tế?

Một agent harness hoạt động qua hai giai đoạn riêng biệt để đảm bảo công việc diễn ra liên tục và không bị gián đoạn.

Giai đoạn chuẩn bị (chỉ diễn ra một lần)

Harness thiết lập toàn bộ môi trường làm việc trước khi AI bắt đầu: lập danh sách các việc cần làm, chuẩn bị nơi lưu trữ dữ liệu và ghi lại điểm xuất phát. Giống như người quản lý lập kế hoạch chi tiết trước khi giao việc cho nhân viên, giai đoạn này chỉ cần thực hiện một lần duy nhất.

Giai đoạn thực thi (lặp lại nhiều lần)

Mỗi khi AI bắt đầu một phiên làm việc mới, harness tự động tải lại toàn bộ tiến độ đã lưu và chỉ giao đúng phần việc tiếp theo. Khi AI muốn thực hiện một hành động như tìm kiếm thông tin hay gửi thông báo, harness kiểm tra độ an toàn của yêu cầu đó trước khi thực hiện, làm sạch kết quả trả về rồi mới đưa lại cho AI xử lý tiếp. AI không bao giờ tương tác trực tiếp với hệ thống bên ngoài mà không qua lớp kiểm soát này.

Bốn bộ phận quan trọng tạo nên một agent harness

Để giúp AI hoạt động ổn định trong thời gian dài, một agent harness tiêu chuẩn cần có bốn thành phần cốt lõi:

Cổng kết nối công cụ bên ngoài: Cho phép AI tương tác với thế giới thực như đọc tài liệu, tìm kiếm web hay gửi thông báo. Harness đóng vai trò trung gian, kiểm tra mỗi yêu cầu trước khi thực hiện và đảm bảo kết quả trả về sạch sẽ, dễ xử lý.
Bộ quản lý ký ức nhiều tầng: Duy trì ba loại bộ nhớ phục vụ nhu cầu khác nhau gồm ký ức tạm thời trong phiên hiện tại, nhật ký công việc đang thực hiện và kho kiến thức tích lũy lâu dài qua nhiều dự án.
Bộ lọc thông tin thông minh: Tóm tắt lịch sử hội thoại dài thành các ý chính và chỉ cung cấp đúng phần dữ liệu liên quan đến bước hiện tại thay vì nạp tất cả cùng lúc, giúp AI luôn tập trung vào đúng nhiệm vụ.
Bộ kiểm tra an toàn và phê duyệt: Tự động xác nhận kết quả trước khi coi tác vụ là hoàn thành. Với các hành động nhạy cảm như xóa dữ liệu quan trọng hay gửi email hàng loạt, harness dừng lại và yêu cầu con người xác nhận trước khi tiếp tục.

Harness engineering và bí quyết tạo ra hàng triệu dòng code

Harness engineering là cách tiếp cận xem mỗi thất bại của AI là một lỗi hệ thống cần khắc phục triệt để, không phải thứ cần thử lại hay bỏ qua. Theo Mitchell Hashimoto, nếu AI mắc lỗi, hãy thiết kế lại môi trường để về mặt vật lý nó không thể mắc lỗi đó nữa.

Trong thực tế, khi OpenAI xây dựng các dự án phần mềm lớn với ba kỹ sư tạo ra 3,5 pull request mỗi người mỗi ngày mà không gõ một dòng code nào, họ đã thiết lập cơ chế kiểm tra tự động sau mỗi hành động của AI. Khi AI chạy sai, hệ thống trả về thông báo lỗi được viết theo cấu trúc đặc biệt để AI hiểu ngay mình cần sửa đổi gì ở bước tiếp theo. Mỗi thông báo lỗi trở thành ngữ cảnh học tập, không chỉ là cảnh báo.

Một nghiên cứu tại hội thảo ICML năm 2025 cũng chứng minh rằng cùng một mô hình AI khi được trang bị harness luôn vượt trội so với chính nó khi chạy không có harness, kể cả khi không thay đổi gì về cách huấn luyện hay câu lệnh đầu vào. Điều này khẳng định môi trường xung quanh AI quan trọng không kém bản thân model.

Khi nào bạn thực sự cần đến agent harness?

Với những việc đơn giản như tóm tắt một tài liệu hay trả lời câu hỏi cụ thể, dùng AI trực tiếp là đủ. Nhưng ngay khi công việc bắt đầu kéo dài hơn một cuộc trò chuyện, cần nhớ thông tin từ lần trước hoặc phải thực hiện nhiều bước theo thứ tự nhất định, đó là lúc harness trở nên cần thiết.

Một điểm đáng để suy nghĩ: ngay cả tính năng tìm kiếm web tích hợp sẵn trong ChatGPT hay Gemini cũng chính là một dạng harness. Khi AI tự động tra cứu thông tin, có một lớp hạ tầng phía sau đang thực hiện lệnh gọi công cụ, xử lý kết quả và đưa thông tin sạch vào ngữ cảnh. Harness vô hình với người dùng nhưng không thể thiếu với hệ thống.

Agent harness không phải xu hướng kỹ thuật ngắn hạn mà là giải pháp cho những giới hạn cốt lõi của AI: không có ký ức dài hạn, bộ nhớ làm việc có giới hạn và dễ mắc lỗi khi dùng công cụ bên ngoài. 4aivn cũng bất đầu áp dụng Harness vào trong công việc bên mình điều này không chỉ giúp AI hoàn thành tác vụ mà còn biến AI thành hệ thống có thể học từ thất bại và cải thiện theo thời gian.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Hermes Agent và MCP: Tự động hóa workflow thực tế

Một AI agent có thể lập kế hoạch rất tốt nhưng vẫn không thể cập nhật Notion, đọc issue GitHub hay lấy báo cáo từ Google Drive nếu không có đường kết nối phù hợp. Khi kết hợp Hermes Agent với MCP, người dùng có thể biến một cuộc trò chuyện thành workflow thực tế, đồng thời kiểm soát rõ công cụ và quyền mà agent được phép sử dụng. Nếu bạn chưa quen với khả năng ghi nhớ và tự tạo skill của Hermes, bài Hermes Agent là gì? sẽ cung cấp phần nền tảng cần thiết. Trong bài này, trọng tâm là cách MCP mở rộng Hermes ra ngoài terminal để làm việc với dữ liệu và dịch vụ đang được sử dụng hằng ngày. MCP bổ sung điều gì cho Hermes Agent? MCP là một chuẩn kết nối giữa ứng dụng AI và server cung cấp công cụ hoặc dữ liệu. Có thể hình dung MCP như một lớp chuyển đổi: Hermes vẫn là agent chịu trách nhiệm hiểu mục tiêu và quyết định bước tiếp theo, còn từng MCP server cung cấp các thao tác cụ thể như tìm trang Notion, đọc pull request, tạo issue hoặc truy vấn tệp. Theo tài liệu MCP của Hermes Agent, Hermes hỗ trợ cả server chạy cục bộ qua stdio và server từ xa qua HTTP. Khi khởi động hoặc tải lại cấu hình, Hermes tự khám phá công cụ mà server cung cấp rồi đăng ký chúng vào hệ thống tool thông thường. Vì vậy, người dùng không cần viết một công cụ Hermes riêng cho mọi dịch vụ đã có MCP server phù hợp. Điểm quan trọng là MCP không tự động làm workflow an toàn. Mỗi server có thể cung cấp nhiều công cụ đọc, ghi, tạo và xóa dữ liệu. Hermes cho phép lọc theo từng server, nên người dùng có thể chỉ bật nhóm thao tác cần thiết thay vì đưa toàn bộ quyền cho model. Cách kết nối MCP mà không mở quá nhiều quyền Bản cài Hermes tiêu chuẩn đã bao gồm hỗ trợ MCP. Người dùng có thể mở trình chọn bằng lệnh hermes mcp, xem danh mục bằng hermes mcp catalog và kiểm tra một kết nối bằng hermes mcp test. Danh mục tích hợp của Hermes được Nous Research xem xét trước khi đưa vào repository, nhưng chính tài liệu cũng khuyến nghị đọc manifest, nguồn mã và lệnh cài đặt trước khi sử dụng. Với server ngoài danh mục, người dùng có thể thêm kết nối HTTP hoặc một lệnh stdio vào config.yaml. Sau khi hoàn tất OAuth hoặc cấu hình biến môi trường cần thiết, hãy tải lại MCP và yêu cầu Hermes liệt kê các công cụ đang có. Đây là bước kiểm tra đơn giản để phát hiện server chưa kết nối hoặc công cụ bị lọc nhầm. Bắt đầu bằng quyền đọc Cách thiết lập an toàn nhất là kết nối một server, chỉ bật công cụ đọc và thử trên dữ liệu không nhạy cảm. Khi kết quả ổn định, bạn mới thêm quyền tạo hoặc cập nhật. Quyền xóa, thay đổi chia sẻ và gửi nội dung ra ngoài nên cần bước phê duyệt của con người. Notion chỉ cần quyền tìm kiếm và đọc trang trong giai đoạn đầu. GitHub có thể giới hạn ở đọc repository, issue và pull request. Google Drive nên giới hạn thư mục, tài khoản và phạm vi OAuth cần thiết. Ba workflow thực tế với Notion, GitHub và Google Drive Biến tài liệu Notion thành trung tâm tri thức Notion MCP chính thức cho phép agent tìm kiếm, đọc và cập nhật nội dung trong workspace theo quyền của tài khoản đã xác thực. Một workflow hữu ích là để Hermes thu thập ghi chú họp, tìm các quyết định liên quan rồi tạo bản tổng hợp vào trang dự án. Người dùng có thể yêu cầu Hermes chỉ tạo bản nháp, sau đó kiểm tra trước khi cập nhật trạng thái hoặc giao việc. Notion MCP dùng OAuth theo người dùng, vì vậy không phù hợp với mọi tác vụ chạy hoàn toàn không có người giám sát. Nếu muốn chạy tự động theo lịch, hãy kiểm tra cách server duy trì phiên xác thực và tránh thiết kế workflow phụ thuộc vào thao tác mà OAuth không hỗ trợ ở chế độ headless. Đồng bộ công việc phát triển qua GitHub GitHub MCP Server do GitHub cung cấp và duy trì, cho phép công cụ AI làm việc với dữ liệu phát triển phần mềm theo quyền tài khoản. Hermes có thể đọc issue mới, đối chiếu với thay đổi trong repository và soạn báo cáo tiến độ. Ở bước tiếp theo, agent có thể chuẩn bị nội dung issue hoặc release note nhưng chờ người phụ trách xác nhận trước khi ghi. Workflow này hiệu quả hơn khi tiêu chí được mô tả rõ. Chẳng hạn, Hermes chỉ tổng hợp pull request đã merge trong bảy ngày, nhóm theo nhãn và liên kết từng thay đổi với issue liên quan. Kết quả có thể được chuyển tiếp sang Notion thông qua MCP thứ hai để tạo báo cáo tuần. Tổng hợp tệp và báo cáo từ Google Drive Với một MCP server tương thích Google Workspace, Hermes có thể tìm tệp trong Drive, đọc nội dung được cấp quyền và đưa dữ liệu vào quy trình tổng hợp. Ví dụ, agent tìm báo cáo bán hàng trong một thư mục cố định, trích các chỉ số cần thiết rồi tạo bản tóm tắt để lưu vào Notion hoặc đính kèm vào issue GitHub. Google đã tập hợp các dự án MCP chính thức tại repository Google MCP, trong đó có hướng tích hợp Google Workspace. Tuy nhiên, Drive từng có nhiều server cộng đồng với mức bảo trì khác nhau. Vì vậy, hãy kiểm tra nguồn, lịch sử cập nhật và phạm vi OAuth của server cụ thể thay vì cài theo tên gọi. Ghép nhiều MCP server thành một workflow có kiểm soát Một workflow hoàn chỉnh có thể bắt đầu từ GitHub, dùng Drive làm nguồn dữ liệu và kết thúc ở Notion. Hermes đọc issue được gắn nhãn báo cáo, tìm bảng tính tương ứng trong Drive, tạo phần tóm tắt rồi cập nhật trang dự án. Mỗi bước sử dụng một nhóm công cụ MCP khác nhau, còn Hermes giữ vai trò lập kế hoạch và chuyển kết quả giữa các bước. Không nên bật thực thi song song chỉ vì server hỗ trợ. Tài liệu Hermes cho phép khai báo khả năng gọi tool song song, nhưng cảnh báo rằng các thao tác cùng đọc và ghi trạng thái có thể tạo xung đột. Các bước chỉ đọc độc lập có thể chạy đồng thời, trong khi cập nhật Notion, tạo issue hoặc thay đổi tệp nên diễn ra tuần tự. Lưu ý: MCP server là phần mềm có thể chạy lệnh và nhận thông tin xác thực. Chỉ cài server từ nguồn đáng tin, không đặt token trong prompt, lọc bỏ công cụ nguy hiểm và luôn giữ bước phê duyệt cho hành động xóa, chia sẻ hoặc xuất bản dữ liệu. Nên bắt đầu workflow đầu tiên như thế nào? Đừng kết nối Notion, GitHub và Google Drive trong cùng ngày rồi giao ngay một quy trình quan trọng. Hãy chọn một đầu vào, một đầu ra và một tiêu chí hoàn thành dễ kiểm tra. Ví dụ đầu tiên có thể là đọc các issue GitHub đã đóng rồi tạo bản nháp báo cáo trong Notion, không có quyền xóa hoặc xuất bản. Sau vài lần chạy ổn định, bạn có thể biến quy trình thành skill để Hermes tái sử dụng và thêm lịch chạy tự động. Giá trị thực của MCP không nằm ở số lượng server đã kết nối, mà ở việc Hermes có thể hoàn thành một workflow lặp lại với phạm vi quyền nhỏ, kết quả dễ kiểm tra và đường đi dữ liệu rõ ràng.

Nam•

16 thg 7, 2026

Đọc thêm

So sánh Hermes Agent, OpenClaw và Claude Cowork

Hermes Agent, OpenClaw và Claude Cowork đều được gọi là AI agent vì chúng không chỉ trả lời câu hỏi. Chúng có thể chia mục tiêu thành nhiều bước, gọi công cụ, đọc dữ liệu và tạo ra kết quả hoàn chỉnh. Tuy nhiên, đặt ba sản phẩm cạnh nhau chỉ bằng một bảng tính năng rất dễ dẫn tới lựa chọn sai. Hermes Agent hướng tới một agent có thể học thêm cách làm việc. OpenClaw hướng tới một trợ lý cá nhân luôn sẵn sàng qua các kênh nhắn tin còn Claude Cowork hướng tới người dùng muốn giao việc văn phòng bằng ngôn ngữ tự nhiên trong một môi trường được Anthropic quản lý. Vì vậy, câu hỏi quan trọng không phải công cụ nào mạnh nhất, mà là bạn muốn tự quản bao nhiêu và muốn agent xuất hiện ở đâu trong quy trình hằng ngày. Ba sản phẩm với thiết kế khác nhau Sự khác biệt của 3 công cụ AI Agent không chỉ nằm ở model thực thi mà còn ở bộ khung bao quanh model để quản lý công cụ, bộ nhớ, quyền truy cập và vòng lặp thực thi. Khái niệm này được giải thích chi tiết trong bài Agent Harness là gì?, qua đó người đọc có thể hiểu vì sao cùng được gọi là AI agent nhưng ba sản phẩm lại hành xử rất khác nhau. Hermes Agent ưu tiên vòng lặp học và môi trường thực thi Điểm đáng chú ý của Hermes là skills không chỉ là danh sách các skills đã được cài sẵn. Khi hoàn thành một công việc, agent có thể rút ra quy trình hữu ích, lưu lại và cải thiện ở lần sau. Bài Hermes Agent là gì? giải thích riêng cơ chế tự học này. Giá trị của cơ chế tích lũy tăng dần theo thời gian nếu người dùng có nhiều nhiệm vụ lặp lại như phân tích dự án, theo dõi nguồn tin, chuẩn hóa báo cáo hoặc vận hành một chuỗi công cụ nội bộ. Hermes cũng hỗ trợ nhiều kiểu sandbox như chạy cục bộ, Docker, SSH, Singularity hoặc Modal. Sandbox là môi trường cô lập nơi agent thực thi lệnh và thao tác tệp. Sự linh hoạt này giúp người dùng chọn giữa tốc độ, khả năng kiểm soát và mức độ cách ly, nhưng đồng thời đòi hỏi hiểu biết về hạ tầng, quyền truy cập và cách xử lý khóa bí mật. OpenClaw lấy Gateway làm trung tâm điều phối Trong OpenClaw, Gateway là lớp điều khiển đứng giữa agent, thiết bị và các kênh giao tiếp. Một tin nhắn có thể trở thành yêu cầu để agent đọc lịch, xử lý tệp, gọi dịch vụ hoặc phản hồi về đúng cuộc trò chuyện. Cách tiếp cận này rất tự nhiên với người muốn nhắn cho trợ lý từ điện thoại mà không cần nhớ máy chủ đang chạy ở đâu. OpenClaw phù hợp nhất khi agent cần phản ứng ngay khi có việc cần đến, không cần người dùng mở máy tính hay vào một ứng dụng riêng. Thay vì chờ bạn khởi động một phiên làm việc, nó ngồi sẵn trong các kênh nhắn tin bạn đang dùng và bắt đầu xử lý ngay khi có tin nhắn hoặc sự kiện kích hoạt sẵn. Claude Cowork cung cấp không gian làm việc được quản lý Cowork giảm phần việc hạ tầng mà người dùng phải tự lo. Trong ứng dụng desktop, người dùng có thể cấp quyền cho thư mục cục bộ rồi yêu cầu Claude đọc, sắp xếp hoặc tạo tệp. Với phiên làm việc từ xa, công việc diễn ra trong môi trường cô lập trên máy chủ của Anthropic, phù hợp với những tác vụ dài không cần giữ máy cá nhân hoạt động liên tục. Đổi lại, phạm vi tùy biến và quyền kiểm soát tầng thực thi không rộng như một dự án tự host. Cowork phù hợp hơn với người muốn kết quả nhanh trong hệ sinh thái Claude, không muốn duy trì máy chủ hoặc tự thiết kế một Gateway. Bộ nhớ của ba công cụ hoạt động khác nhau như thế nào Bộ nhớ trong agent không nên được hiểu đơn giản là lưu toàn bộ hội thoại. Một hệ thống hữu ích phải biết thông tin nào đáng giữ, thông tin nào chỉ có giá trị trong phiên hiện tại và khi nào cần lấy lại dữ liệu cũ. Nếu lưu quá ít, agent sẽ phải hỏi những câu hỏi lặp lại còn nếu lưu quá nhiều, chi phí chắc chắn sẽ tăng và dữ liệu nhạy cảm rất dễ bị dùng sai chỗ. Hermes lại nổi bật nhờ kết hợp bộ nhớ bền vững với skill có thể cải thiện. Bộ nhớ giúp ghi nhận sở thích và bối cảnh, còn skill ghi lại cách hoàn thành một loại nhiệm vụ. Hai lớp này tạo ra cảm giác agent ngày càng hiểu người dùng, nhưng chất lượng vẫn phụ thuộc vào việc người dùng xem lại những gì được lưu và loại bỏ quy trình không phù hợp. OpenClaw chạy trên nhiều kênh cùng lúc và đó lại chính là điểm phức tạp nhất của nó. Nhớ nội dung hội thoại chỉ là một phần, vấn đề khó hơn là phân biệt được ai đang nói chuyện ở kênh nào và việc đó thuộc phạm vi nào. Một lệnh gửi trong nhóm Slack của công ty không nên tự động kéo theo ngữ cảnh riêng tư bạn từng trao đổi qua Telegram. Nếu cấu hình phiên và chính sách định danh nên được thiết lập rõ ràng ngay từ đầu, chất lượng model tốt đến đâu cũng không cứu được nếu mọi thứ mù mờ. Cowork giới hạn ngữ cảnh trong từng phiên làm việc, chỉ đọc những tệp bạn cấp quyền và kết nối nào bạn cho phép. Với người không quen dựng hệ thống, cách này dễ kiểm soát hơn vì ranh giới của mỗi tác vụ khá rõ ràng nhưng rõ ràng không có nghĩa là tự động hiểu, bạn vẫn cần nói rõ mình muốn gì, hoàn thành trông như thế nào và dữ liệu lấy từ đâu. Cowork không tự suy ra bối cảnh công ty của bạn nếu bạn không chủ động đưa vào. Mỗi công cụ tự động hóa tốt nhất loại việc nào Hermes có công cụ web, terminal, MCP, lịch chạy tự động và subagent. MCP là chuẩn kết nối giúp agent giao tiếp với nguồn dữ liệu hoặc ứng dụng bên ngoài qua một giao diện thống nhất. Khi kết hợp MCP với skill, người dùng có thể biến một thử nghiệm thành quy trình lặp lại, chẳng hạn mỗi sáng thu thập dữ liệu, phân tích thay đổi và gửi bản tóm tắt. OpenClaw mạnh ở các workflow bắt đầu từ tin nhắn hoặc sự kiện. Ví dụ, người dùng gửi hóa đơn vào kênh riêng, agent trích xuất thông tin rồi cập nhật hệ thống lưu trữ. Một ví dụ khác là nhận cảnh báo dịch vụ, hỏi thêm dữ liệu chẩn đoán và trả về bản tóm tắt ngay trong nhóm vận hành. Giá trị nằm ở việc giảm khoảng cách giữa lúc phát sinh nhu cầu và lúc agent bắt đầu hành động. Cowork phù hợp với đầu ra văn phòng có cấu trúc. Nó có thể nghiên cứu một chủ đề, tổng hợp dữ liệu, tạo tài liệu và tiếp tục chỉnh sửa theo phản hồi. Các tác vụ dài hoặc được lên lịch giúp Cowork vượt khỏi kiểu hỏi đáp ngắn. Tuy vậy, doanh nghiệp cần kiểm tra kỹ từng connector và quyền truy cập trước khi để agent thao tác trên kho dữ liệu thật. Nếu cần tích hợp sâu với hạ tầng riêng, Hermes và OpenClaw thường cho nhiều không gian hơn. Nếu ưu tiên thời gian đi từ yêu cầu tới tài liệu hoàn chỉnh, Cowork thường có lợi thế. Đây là khác biệt giữa nền tảng để lắp ghép và sản phẩm đã đóng gói. Bảo mật của ba AI agent này như thế nào Câu hỏi dùng cái nào an toàn hơn không có câu trả lời đơn giản, vì rủi ro bảo mật của từng công cụ đến từ những điểm hoàn toàn khác nhau. Hermes Agent: Tự host không đồng nghĩa là tự động an toàn. Rủi ro lớn nhất đến từ các skill tự sinh ra vì về bản chất đây là đoạn mã được agent tự viết rồi tự chạy. Nếu không xem lại trước khi cho chạy định kỳ, một skill có quyền terminal hoặc quyền gửi dữ liệu ra ngoài có thể làm những việc bạn không hề hay biết. Ngoài ra, khóa API và thư mục nhạy cảm không nên xuất hiện trong prompt hay được gắn trực tiếp vào sandbox nếu skill đó không thực sự cần đến. OpenClaw: Kết nối càng nhiều kênh thì bề mặt tấn công càng rộng. Điểm dễ bị bỏ qua nhất là xác thực người gửi, vì nếu Gateway chỉ tin vào tên hiển thị hoặc một kênh chưa được bảo vệ đúng cách, một tài khoản nhắn tin bị chiếm quyền là đủ để ai đó ra lệnh cho agent của bạn. Danh sách người được phép gửi lệnh và quyền của từng bot cần được xem xét lại mỗi khi bạn thêm một kênh mới. Claude Cowork: Rủi ro đáng lo nhất là prompt injection, tức khi agent đọc một tài liệu hoặc trang web có chứa chỉ dẫn ẩn nhằm khiến nó làm lệch yêu cầu ban đầu của bạn. Anthropic có cơ chế bảo vệ và yêu cầu xác nhận cho các hành động nhạy cảm, nhưng điều đó không thay thế được việc bạn tự kiểm tra kết quả và không cấp quyền rộng hơn mức công việc thực sự cần. Lưu ý: Với bất kỳ agent nào, đừng cấp quyền xóa tệp hay gửi tin nhắn ra ngoài hay thực hiện giao dịch nhạy cảm. Vậy hãy bắt đầu với chế độ chỉ đọc, bật ghi nhật ký đầy đủ và giữ quyền phê duyệt cho những hành động cần đến con người. Nên chọn Hermes Agent, OpenClaw hay Claude Cowork? Mội công cụ có một điểm mạnh điểm yếu riêng vì vậy muốn chọn được công cụ phù hợp nhất còn tùy thuộc vào người sử dụng và công việc cần sử dụng. Chọn Hermes Agent khi muốn agent ngày càng hiểu cách bạn làm việc Hermes phù hợp với nhà phát triển, người nghiên cứu hoặc nhóm kỹ thuật muốn agent học quy trình riêng và chạy trên hạ tầng linh hoạt. Nó đặc biệt đáng cân nhắc khi nhiệm vụ lặp lại đủ nhiều để skill tạo ra lợi ích tích lũy. Bạn cần sẵn sàng đọc log, kiểm tra skill và quản lý môi trường thực thi. Phù hợp nhất khi: Bạn muốn agent nhớ và cải thiện quy trình làm việc qua từng lần dùng. Bạn có thể tự quản lý sandbox, chọn model và kiểm soát quyền truy cập. Chọn OpenClaw khi công việc cần giao tiếp liên tục từ tin nhắn OpenClaw phù hợp khi trợ lý cần có mặt trên Telegram, WhatsApp, Slack, Zalo hoặc các kênh tương tự. Nó hữu ích cho cảnh báo, thu thập yêu cầu nhanh và tự động hóa có điểm bắt đầu từ hội thoại. Đổi lại, bạn phải quản lý danh tính, quyền kênh và độ ổn định của Gateway. Phù hợp nhất khi: Yêu cầu thường đến dưới dạng tin nhắn hoặc cảnh báo tự động. Bạn cần một điểm điều phối duy nhất cho nhiều kênh giao tiếp khác nhau. Chọn Claude Cowork khi cần kết quả nhanh mà không muốn dựng hệ thống Cowork phù hợp với người làm nội dung, phân tích hoặc quản lý cần tài liệu, bảng tính và slide hoàn chỉnh mà không muốn nghĩ đến server hay Gateway. Bù lại, bạn nên hiểu rõ giới hạn của gói đang dùng, dữ liệu đi qua đâu, kết nối nào đang được bật trước khi đưa công việc thật vào. Phù hợp nhất khi: Bạn muốn mô tả kết quả cần đạt bằng ngôn ngữ tự nhiên và nhận lại đầu ra hoàn chỉnh. Bạn ưu tiên sự tiện lợi của một dịch vụ được quản lý hơn là toàn quyền kiểm soát hạ tầng.

Nam•

14 thg 7, 2026

Đọc thêm

Tư duy CEO Y Combinator về 6 câu hỏi để bắt đầu dự án

Mình đã nghe rất nhiều về repo gstack của CEO Y Combinator thế là tò mò cài vào thử, thứ khiến mình bất ngờ nhất không phải các workflow xịn mà là tư duy thật sự khác biệt của vị CEO này. Đó là lệnh đầu tiên trong cả hệ thống: /office-hours với sáu câu hỏi bắt đầu nhưng lại không hỏi về code chỉ hỏi những thứ mà hầu hết mọi người chưa trả lời được trước khi bắt tay vào build. gstack là gì và tại sao Garry Tan tạo ra nó gstack là bộ công cụ mã nguồn mở của Garry Tan, CEO Y Combinator, chủ yếu được thiết kế ra dành cho Claude Code. Ý tưởng cốt lõi của repo là thay vì dùng AI như một người viết code đơn thuần, Garry Tan muốn biến Claude thành cả một nhóm AI agent làm việc thu nhỏ, mỗi thành viên phụ trách một vai trò khác nhau từ người định hướng sản phẩm, kiểm tra bảo mật, đến người kiểm thử và phát hành. Toàn bộ quy trình chạy theo vòng lặp có thứ tự: suy nghĩ → lên kế hoạch → xây dựng → kiểm tra → thử nghiệm → phát hành → đánh giá lại . Cụ thể hơn, gstack chia Claude Code thành 23 vai trò chuyên biệt tất nhiên trong workflow kết quả của bước trước tự động được chuyển sang bước tiếp theo mà không cần bạn làm thủ công. Một số lệnh nổi bật như sau: /office-hours 6 câu hỏi buộc bạn suy nghĩ lại tính năng trước khi viết dòng code đầu tiên /plan-ceo-review tìm xem bạn đang làm quá nhiều hay quá ít so với thực tế cần /review bắt lỗi nghiêm trọng mà các công cụ kiểm tra tự động thông thường không thấy /qa mở trình duyệt thật, thao tác thật, tìm lỗi thật /cso chạy kiểm tra bảo mật theo chuẩn quốc tế tự động /ship đồng bộ, kiểm tra, đẩy code và tạo pull request trong một lệnh duy nhất Kết quả gstack hoạt động thế nào? Garry Tan cho biết tốc độ làm việc của ông năm 2026 nhanh hơn khoảng 810 lần so với năm 2013 khi đo bằng dòng code hoàn chỉnh mỗi ngày (11.417 so với 14 dòng). Trong 60 ngày, ông ship 3 dịch vụ production và hơn 40 tính năng, tất cả trong khi vẫn điều hành Y Combinator toàn thời gian. Andrej Karpathy, đồng sáng lập OpenAI, cũng chia sẻ rằng ông không gõ một dòng code nào kể từ tháng 12/2025 nhờ các tác nhân AI. Nhưng trong tất cả các lệnh đó, /office-hours là thứ đáng chú ý nhất vì một lý do ngược lại với phần còn lại, nó không giúp bạn làm việc nhanh hơn mà nó giúp bạn không làm nhầm thứ ngay từ đầu. Tại sao /office-hours lại được xếp đầu tiên Garry Tan đặt /office-hours ở đầu workflow vì một quan sát đơn giản: hầu hết các sản phẩm thất bại không phải vì code kém mà vì làm sai thứ mọi người cần. Họ bỏ hàng tuần viết một tính năng không ai cần, hoặc xây dựng đúng tính năng nhưng lại sai đối tượng, hoặc giải quyết một vấn đề mà người dùng đã có cách giải quyết tốt hơn từ lâu. Lệnh này có hai chế độ: Startup mode dành cho founder và người build sản phẩm thật, và Builder mode dành cho side project, hackathon, open source. Bài này tập trung vào Startup mode, nơi 6 câu hỏi được áp dụng đúng nghĩa nhất. 6 câu hỏi của /office-hours và tại sao mỗi câu đều đáng giá Đây không phải 6 câu hỏi để trả lời qua loa rồi tiếp tục đến các phần sau. Chúng được thiết kế để bạn suy nghĩ thật, vì câu trả lời càng trung thực thì kết quả Claude tạo ra càng bám sát đúng thứ bạn thực sự cần và bạn sẽ tiết kiệm được rất nhiều thời gian về sau. Bạn có thể xem nội dung gốc đầy đủ 6 cau hỏi tại office-hours/SKILL.md.tmpl. Demand reality: Nhu cầu có thật không? Câu hỏi gốc: "Ai cụ thể đang gặp vấn đề này? Họ đang giải quyết tạm bằng cách nào?" Không phải người dùng nói chung hay team marketing mà tác giả muốn hướng đến một người thật, có tên(càng tốt) đang vật lộn với vấn đề cụ thể là gì. Nếu bạn không biết được một người như vậy, bạn sẽ chưa thực sự hiểu họ cần gì. Ví dụ cụ thể: Thay vì "người dùng muốn quản lý task tốt hơn", phải là "Minh, project manager tại công ty 20 người, đang copy-paste giữa Notion và Google Sheet mỗi sáng thứ Hai vì hai tool không sync được." Tất nhiên đây là ví dụ mọi người tự áp dụng vào trường hợp của mình. Status quo: Họ đang dùng gì thay thế? Câu hỏi gốc: "Giải pháp thay thế tạm thời hiện tại của họ là gì? Bạn cần tốt hơn bao nhiêu để họ chịu đổi sang dùng giải pháp của bạn?" Mọi người đều đang giải quyết vấn đề theo một cách nào đó, dù là Excel, sticky note, hay nhóm chat WhatsApp. Nếu giải pháp hiện tại của họ đủ tốt, họ chẳng có lý do gì để chuyển dữ liệu và phải học sử dụng lại một nền tảng hoàn toàn mới, vì vậy giải pháp của bạn phải làm thực sự tốt hơn để họ còn cân nhắc. Desperate specificity: Ai đang cần giải pháp này đủ nhiều? Câu hỏi gốc: "Ai đang cần giải pháp đến mức có thể dùng bản beta xấu xí của bạn ngay hôm nay?" Đây là câu phân biệt "nice-to-have" và "must-have". Nếu bạn không tìm được ai sẵn sàng dùng một bản chưa hoàn chỉnh, chưa có UI đẹp, còn nhiều lỗi, thì vấn đề bạn đang giải quyết chưa đủ cấp bách. Người dùng thật của giai đoạn đầu là người cần đến mức họ chịu đựng được cả sản phẩm chưa đẹp nhưng có sửa đổi và hướng đi phù hợp. Narrowest wedge: Phần nhỏ nhất là gì? Câu hỏi gốc: "Phần nhỏ nhất có thể ra mắt ngày mai là gì? Không phải toàn bộ sản phẩm mà là phần nhỏ nhất." Không phải phiên bản đầu tiên đầy đủ tính năng mà là phần nhỏ hơn nữa. Câu hỏi này thường cắt bỏ 80% những thứ bạn tự thêm vào vì nghĩ "làm luôn cho tiện". Đây là lỗi mà mình rất hay bị khiến cho mọi thứ vượt tầm kiểm soát, phần này giúp mọi người ra mắt phần nhỏ nhất trước, lắng nghe phản hồi từ người dùng thật rồi mới quyết định mở rộng tiếp. Lưu ý: Nhiều người hay nhầm "phần nhỏ nhất" với "phiên bản đầu tiên đầy đủ tính năng". Thực ra phần nhỏ nhất đúng nghĩa có thể chỉ là tính năng nhỏ giải quyết một vấn đề duy nhất, cho một nhóm người dùng duy nhất, không hơn không kém. Observation and surprise: Bạn đã xem người thật dùng chưa? Câu hỏi gốc: "Bạn đã ngồi xem người thật dùng sản phẩm chưa? Họ dùng theo cách bạn không ngờ không?" Câu hỏi này có lẽ nên để cho vòng lặp thứ hai trở đi, khi bạn đã có bản thử nghiệm trong tay. Thay vì hỏi cảm nhận qua tin nhắn hay khảo sát, hãy ngồi xem trực tiếp hoặc xem lại video ghi màn hình khi họ dùng. Những phát hiện đáng giá nhất thường không phải từ lời họ nói mà từ những thao tác họ làm mà bạn không thiết kế, hoặc những bước họ bỏ qua dù bạn nghĩ là quan trọng. Lưu ý: Nếu bạn đang ở vòng đầu tiên và chưa có sản phẩm nào, mình nghĩ có thể bỏ qua câu này và quay lại sau khi đã ra mắt phần nhỏ nhất ở bước 4. Future-fit: Tầm nhìn 2 đến 3 năm Câu hỏi gốc: "2-3 năm nữa, thứ bạn đang build có còn phù hợp không, hay trend đang đi ngược lại?" Không phải để dự đoán tương lai chính xác, mà để tránh build thứ đang chết dần. Nếu xu hướng đang làm cho vấn đề bạn giải quyết trở nên ít cấp bách hơn trong 2 năm tới, đó chắc chắn là tín hiệu cần xem xét lại từ đầu còn nếu bạn muốn đánh nhanh thắng nhanh để tránh big tech ra sản phẩm giống hệt bạn thì hãy bỏ qua câu hỏi này. Ví dụ thực tế: một ý tưởng tưởng đơn giản bị lật ngược hoàn toàn Trong tài liệu của gstack, Garry Tan lấy một ví dụ rất thực tế. Bạn mở /office-hours và nói: "Tôi muốn làm một app tóm tắt lịch làm việc hàng ngày." Claude không đồng ý ngay và bắt đầu làm theo. Thay vào đó, nó phản hồi: thứ bạn vừa mô tả không chỉ là app tóm tắt lịch mà thực chất là một trợ lý cá nhân AI toàn diện. Hai thứ này khác nhau hoàn toàn về quy mô, độ phức tạp kỹ thuật và kỳ vọng của người dùng. Chỉ từ một câu mô tả ban đầu, /office-hours giúp bạn nhìn ra: 5 tính năng bạn đang mô tả mà chưa nhận ra 4 giả định cần kiểm chứng trước khi bắt tay làm 3 hướng triển khai khác nhau với mức độ phức tạp khác nhau 1 gợi ý: ra mắt phần nhỏ nhất trước, phần còn lại để làm dần về sau Toàn bộ quá trình đó xảy ra rồi cho ra kết quả sẽ được lưu lại thành tài liệu để các bước tiếp theo trong quy trình tự động đọc và tiếp tục. Khả năng mở rộng của 6 câu hỏi này ra ngoài repo gstack 6 câu hỏi của /office-hours không phụ thuộc vào Claude Code, không cần cài gstack. Chúng là tư duy, cách YC partners ngồi đánh giá startup, và bạn có thể áp dụng ngay hôm nay bằng bất kỳ công cụ AI nào đang dùng. Sự khác biệt khi dùng qua gstack là khi Claude sẽ không để bạn trả lời qua loa. Nó giúp Claude hiểu yêu cầu cụ thể hơn và nó không tiếp tục cho đến khi câu trả lời đủ thực tế. Đó là lý do vì sao/office-hours là skill đáng sợ nhất trong cả repo, không phải vì nó khó dùng, mà vì nó hỏi đúng thứ bạn đang bỏ qua. Thử ngay hôm nay: Trước khi làm sản phẩm tiếp theo, paste 6 câu hỏi trên vào Claude, Gemini, hay ChatGPT cùng với mô tả ý tưởng của bạn. Yêu cầu nó hỏi từng câu một và không cho phép bạn bỏ qua. Kết quả thường bất ngờ hơn bạn nghĩ, kể cả với những ý tưởng bạn đã nghĩ rất kỹ. gstack hiện có hơn 117k lượt star trên GitHub và vẫn đang tăng. Với mình, phần đáng giá nhất không phải các lệnh kỹ thuật như /review hay /ship, mà chính là /office-hours vì đây là lệnh duy nhất trong cả bộ công cụ buộc bạn dừng lại và suy nghĩ trước khi làm bất cứ điều gì.

Nam•

27 thg 6, 2026

Đọc thêm

Cách kết hợp Codex và Claude Code chỉ với plugin

Có ai đang dùng song song cả Codex lẫn Claude Code không? Mình mới phát hiện plugin Codex cho Claude Code do chính OpenAI phát hành. Nói thật là đến giờ mới biết nên cũng có cảm giác như người tối cổ. Điểm hay nhất là từ nay có thể gọi Codex ngay trong phiên Claude Code hiện tại để review code, phản biện hướng triển khai hoặc nhận riêng một tác vụ, không phải chuyển qua lại giữa nhiều tab và session như trước. Plugin Codex cho Claude Code có gì đáng chú ý? Plugin openai/codex-plugin-cc được thiết kế cho người đã quen làm việc trong Claude Code nhưng muốn tận dụng thêm Codex. Thay vì để hai agent cùng nhảy vào chỉnh một file, bạn có thể phân vai rõ ràng: Claude Code triển khai, Codex kiểm tra; hoặc Claude Code giữ luồng chính còn Codex xử lý một vấn đề độc lập ở chế độ nền. Theo tài liệu chính thức, plugin cung cấp ba nhóm khả năng. Nhóm review gồm /codex:review và /codex:adversarial-review. Nhóm giao việc có /codex:rescue. Nhóm quản lý phiên và tác vụ nền gồm /codex:transfer, /codex:status, /codex:result và /codex:cancel. Nhờ vậy, Codex trở thành một cộng sự nằm ngay trong workflow Claude Code thay vì là một cửa sổ tách rời. Không phải một Codex runtime tách biệt Plugin không tạo thêm một hệ thống Codex mới. Nó sử dụng Codex CLI và Codex app server đang cài trên máy, đồng thời dùng lại trạng thái đăng nhập, repository hiện tại và cấu hình trong config.toml. Điều này giúp việc tích hợp gọn hơn, nhưng cũng có nghĩa mọi lượt gọi vẫn được tính vào giới hạn sử dụng Codex của tài khoản. Điều kiện trước khi cài Bạn cần Node.js 18.18 trở lên và một tài khoản ChatGPT, kể cả gói Free, hoặc OpenAI API key. Nếu Codex CLI chưa có trên máy, lệnh /codex:setup có thể hướng dẫn cài; cách thủ công là chạy npm install -g @openai/codex. Nếu chưa đăng nhập, dùng !codex login ngay trong Claude Code. Cách cài Codex plugin trong Claude Code Quy trình cài đặt khá ngắn. Trong Claude Code, lần lượt chạy các lệnh sau: /plugin marketplace add openai/codex-plugin-cc /plugin install codex@openai-codex /reload-plugins /codex:setup Lệnh cuối kiểm tra Codex đã được cài và xác thực hay chưa. Sau khi hoàn tất, danh sách slash command của Codex sẽ xuất hiện trong Claude Code, đồng thời agent codex:codex-rescue cũng có mặt trong mục /agents. Chạy thử ở chế độ nền Một bài thử ít rủi ro là yêu cầu Codex review thay đổi hiện tại bằng /codex:review --background, sau đó dùng /codex:status để xem tiến độ và /codex:result để lấy kết quả. Review nhiều file có thể mất thời gian, vì vậy chạy nền sẽ không chặn luồng làm việc chính của Claude Code. Ba cách phối hợp Codex và Claude Code hiệu quả Giá trị của plugin không nằm ở việc có thêm một AI, mà ở cách phân vai. Nếu cả hai cùng sửa một khu vực mà không có ranh giới, bạn dễ gặp xung đột code, lặp phân tích và tốn context. Ba luồng dưới đây rõ trách nhiệm hơn. Claude viết, Codex review Đây là cách dễ áp dụng nhất. Sau khi Claude Code hoàn thành một tính năng, chạy /codex:review để Codex thực hiện review chỉ đọc. Lệnh này có thể kiểm tra thay đổi chưa commit hoặc so sánh branch với nhánh gốc bằng /codex:review --base main. Codex không sửa file trong chế độ này, nên bạn vẫn giữ quyền quyết định cuối cùng. Ví dụ, Claude vừa thêm luồng thanh toán qua ba module. Thay vì yêu cầu Claude tự đánh giá lại phần việc của chính mình, hãy để Codex rà lỗi logic, trường hợp biên và tác dụng phụ giữa các file. Sau đó Claude Code có thể đọc nhận xét, chọn điểm hợp lý và sửa trong cùng phiên. Giao hẳn một task cho Codex Với một bài toán có thể tách độc lập, dùng /codex:rescue. Chẳng hạn: /codex:rescue --background điều tra nguyên nhân kiểm thử tích hợp không ổn định. Claude Code tiếp tục xử lý UI hoặc tài liệu, trong khi Codex điều tra test ở nền. Lệnh này hỗ trợ --background, --wait, --resume và --fresh, nên có thể tiếp tục một task trước đó hoặc buộc mở một lượt mới. Điểm quan trọng là mô tả đầu ra và phạm vi file rõ ràng. Giao “sửa mọi thứ đang lỗi” cho Codex trong khi Claude cũng đang chỉnh toàn repository vẫn có nguy cơ đụng nhau. Một task tốt nên có mục tiêu cụ thể, tiêu chí hoàn thành và vùng code sở hữu riêng. Dùng adversarial review để chất vấn hướng phát triển dự án /codex:adversarial-review phù hợp khi bạn không chỉ muốn bắt bug mà còn muốn chất vấn quyết định thiết kế. Có thể thêm trọng tâm, ví dụ: /codex:adversarial-review --base main challenge the caching and retry design. Codex sẽ soi giả định ẩn, trade-off, phương án thay thế và các rủi ro như mất dữ liệu, race condition, rollback hoặc độ tin cậy. Nói vui thì đây là lúc hai ông có thể “cãi nhau ỏm tỏi”, nhưng tranh luận chỉ hữu ích khi có người cầm trịch. Hãy đặt câu hỏi hẹp, yêu cầu bằng chứng và chốt tiêu chí ra quyết định; nếu không, phiên phản biện rất dễ biến thành chuỗi ý kiến nối tiếp mà không tạo ra thay đổi thực tế. Chuyển phiên và quản lý tác vụ nền Plugin còn giải quyết một vấn đề quen thuộc: đã thảo luận dài trong Claude Code nhưng muốn chuyển nguyên mạch công việc sang Codex. /codex:transfer tạo một Codex thread bền vững từ phiên Claude Code hiện tại và trả về lệnh codex resume <session-id>. Nhờ đó, bạn không phải viết lại toàn bộ bối cảnh bằng tay. Khi nào nên dùng transfer Hãy dùng transfer khi task đã vượt khỏi một lần review ngắn và bạn muốn tiếp tục trực tiếp trong Codex App hoặc TUI. Ví dụ, Claude Code đã cùng bạn điều tra kiến trúc trong một phiên dài, nhưng giai đoạn tiếp theo cần Codex thực hiện nhiều vòng chỉnh sửa. Việc chuyển phiên giữ lại lịch sử có cấu trúc và giảm rủi ro mất các quyết định đã thống nhất. Theo dõi, lấy kết quả và hủy tác vụ Với task chạy nền, /codex:status cho biết tiến độ, /codex:result trả kết quả cuối cùng và session ID, còn /codex:cancel dừng job đang chạy. Ba lệnh này nghe đơn giản nhưng rất cần thiết để workflow nhiều agent không trở thành một hộp đen. Nếu task đi sai hướng, hủy sớm thường tiết kiệm limit hơn chờ kết quả rồi làm lại. Cẩn thận vòng lặp review và giới hạn sử dụng Lưu ý quan trọng: OpenAI cảnh báo rõ rằng review gate có thể tạo vòng lặp Claude/Codex kéo dài và tiêu hao giới hạn sử dụng nhanh. Khi bật bằng /codex:setup --enable-review-gate, plugin dùng Stop hook, tức cơ chế tự động kích hoạt khi Claude chuẩn bị kết thúc câu trả lời, để gọi một lượt review có mục tiêu. Nếu Codex tìm thấy vấn đề, phản hồi của Claude bị chặn để Claude xử lý trước. Cơ chế này hữu ích trước khi ship, nhưng không nên bật rồi bỏ mặc. Review gate mạnh nhưng cần giám sát Kịch bản dễ gặp là Codex nêu vấn đề, Claude sửa, Codex review lại và phát hiện một điểm mới; chu kỳ tiếp tục vì tiêu chí “đủ tốt” chưa được định nghĩa. Đây chính là phiên bản tự động của việc để hai agent review qua lại liên tục. Chi phí không chỉ là limit mà còn là thời gian và nguy cơ thay đổi quá mức một bản vá vốn đã ổn. Một bộ nguyên tắc vận hành an toàn Phân vai trước khi chạy: một agent triển khai, một agent review hoặc một agent sở hữu một task độc lập. Giới hạn phạm vi: nêu rõ branch, file, loại rủi ro và tiêu chí hoàn thành. Ưu tiên chạy nền cho review nhiều file, nhưng kiểm tra trạng thái định kỳ. Chỉ bật review gate khi đang chủ động theo dõi và tắt bằng /codex:setup --disable-review-gate sau khi hoàn tất. Không yêu cầu Claude review lại toàn bộ kết quả Codex rồi tiếp tục yêu cầu Codex review toàn bộ phần sửa của Claude nếu chưa có điểm dừng rõ ràng. Dùng /codex:cancel khi task lệch hướng thay vì cố cứu một vòng chạy tốn kém. Làm sao kết hợp Codex và Claude Code hiệu quả? Trước đây mình thường mở Codex và Claude Code song song, đôi lúc còn để cả hai cùng nhảy vào một file để tiết kiệm thời gian. Plugin chính chủ của OpenAI tạo ra cách làm gọn hơn: Claude Code giữ vai trò điều phối, Codex vào review, phản biện hoặc nhận task riêng mà không cần chuyển tab liên tục. Bắt đầu tốt nhất là cài plugin, chạy một lượt /codex:review --background trên dự án nhỏ và quan sát cách ba lệnh status, result, cancel hoạt động. Khi đã quen mới thử rescue, transfer và review gate. Hai AI có thể bổ trợ nhau rất tốt, miễn là con người vẫn đặt ranh giới, ngân sách và điểm dừng.

Nam•

14 thg 7, 2026

Đọc thêm