Claude Code tự điều phối công việc với Dynamic Workflows

Xuất bản vào 5 tháng 06, 2026

Tóm tắt nhanh

Thariq Shihipar từ team Claude Code tại Anthropic vừa công bố Dynamic Workflows, tính năng cho phép Claude tự thiết kế quy trình làm việc thay vì chỉ chờ lệnh. Tính năng này giải quyết ba lỗi chí mạng của AI agent: lười biếng tác nhân (Agentic Laziness), thiên vị bản thân (Self-Preferential Bias) và trôi mục tiêu (Goal Drift). Thay vì tăng trí thông minh thô của model, Anthropic xây dựng ràng buộc kiến trúc vào quy trình, cho phép Claude viết harness JavaScript tùy chỉnh, cô lập ngữ cảnh cho sub-agent và áp dụng sáu mẫu điều phối có thể tái sử dụng. Bài viết thu hút hơn 22.000 bookmark trong 3 ngày.

Bài đăng của Thariq Shihipar từ team Claude Code đã gây chú ý lớn trong cộng đồng sử dụng AI. Anh ấy tiết lộ Dynamic Workflows, tính năng cho phép Claude tự thiết kế quy trình làm việc thay vì chỉ chờ lệnh, và đây được coi là bản nâng cấp quan trọng nhất kể từ khi Claude Code có skills và subagents. Tính năng này là khái niệm harness làm bản chất để giải thích các yêu cầu kĩ thuật.

Ba lỗi chí mạng nào khiến AI agent thất bại ở nhiệm vụ phức tạp

Trước khi nói về giải pháp, Thariq chỉ ra một thực tế khó chịu: hầu hết AI agent hiện nay đều gặp vấn đề nghiêm trọng khi xử lý nhiệm vụ phức tạp, đa bước trong một cửa sổ ngữ cảnh duy nhất. Ông phân loại chúng thành ba dạng thất bại cốt lõi mà gần như mọi hệ thống agent đều mắc phải.

Khi AI lười biếng bằng cách tự tuyên bố xong dù mới làm nửa việc

Đây là hiện tượng Agentic Laziness, khi agent thực hiện một phần công việc rồi tự báo cáo là đã hoàn thành. Ví dụ cụ thể: bạn yêu cầu agent review 50 file code, nhưng nó chỉ xem qua 20 file rồi kết luận rằng mọi thứ ổn. Nguyên nhân nằm ở giới hạn cửa sổ ngữ cảnh, khi lượng thông tin quá lớn, agent có xu hướng đi tắt để hoàn thành nhanh hơn.

Agent sẽ tự thiên vị bản thân nó đúng không

Agent tự thiên thị nó gọi là Self-Preferential Bias, điều này xảy ra khi bạn yêu cầu agent kiểm tra lại kết quả của chính nó. Giống như nhờ một học sinh tự chấm bài thi, agent có xu hướng nghiêng về phía kết quả mà nó đã tạo ra, dẫn đến xác nhận thiếu phê phán và bỏ qua các lỗi tiềm ẩn. Điều này đặc biệt nguy hiểm trong các nhiệm vụ đòi hỏi độ chính xác cao.

Làm sao để agent không mất dần ý định ban đầu qua mỗi bước

Hiện tượng trôi mất mục tiêu (Goal Drift) là hiện tượng agent dần quên mục tiêu ban đầu sau nhiều bước xử lý hoặc sau quá trình nén ngữ cảnh (context compaction). Những ràng buộc cụ thể như "không làm X" hoặc các trường hợp quan trọng có thể bị loại bỏ khi bộ nhớ bị tóm tắt lại vì vậy kết quả cuối cùng lệch khỏi yêu cầu gốc mà agent không hề nhận ra.

Dynamic Workflows giúp Claude tự viết bộ khung điều phối công việc

Giải pháp của Anthropic không phải là làm model thông minh hơn, mà là thay đổi cách Claude tổ chức công việc. Dynamic Workflows biến Claude từ agent viết code thành agent thiết kế quy trình vận hành cho công việc phức tạp. Khái niệm cốt lõi ở đây là tự tổ chức (self-organization): Claude có thể tự phân tích mục tiêu, chọn chế độ làm việc phù hợp và tạo ra quy trình nội bộ trước khi bắt tay vào thực hiện.

Harness tùy chỉnh thay vì quy trình cố định

Thay vì hoạt động trong một môi trường cố định, Claude viết một bộ khung harness bằng JavaScript được thiết kế riêng cho từng nhiệm vụ. Harness này đóng vai trò như một quản lý dự án: nó chia nhỏ công việc, khởi tạo các sub-agent chuyên biệt cho từng phần, chỉ định công cụ phù hợp, định tuyến công việc đến các model khác nhau và thực hiện xác minh đối kháng (adversarial verification) để đảm bảo chất lượng.

Harness hoạt động như thế nào?

Để hiểu rõ hơn, hãy hình dung harness như một kịch bản sân khấu mà Claude tự soạn trước khi diễn. Khi nhận được một nhiệm vụ phức tạp, Claude không lao vào làm ngay mà dừng lại để viết một đoạn JavaScript mô tả toàn bộ quy trình: cần bao nhiêu sub-agent, mỗi agent làm gì, thứ tự thực hiện ra sao và kết quả từ agent này được chuyển cho agent kia như thế nào.

Harness sử dụng trong Dynamic Workflow với Json, Math, Array (nguồn Thariq)

Ví dụ cụ thể: nếu bạn yêu cầu Claude audit 1.000 tin nhắn Slack để tìm sự cố lặp lại, harness có thể trông như thế này về mặt logic:

Agent 1 (phân loại): đọc toàn bộ tin nhắn và gán nhãn theo chủ đề
Agent 2, 3, 4 (xử lý song song): mỗi agent phân tích sâu một nhóm chủ đề riêng
Agent 5 (tổng hợp): gom kết quả từ ba agent trên, loại bỏ trùng lặp
Agent 6 (kiểm tra chéo): đọc lại kết quả tổng hợp và phản biện độc lập

Điểm quan trọng là Claude viết harness này dựa trên đặc điểm cụ thể của từng nhiệm vụ, không phải theo một khuôn mẫu cứng nhắc. Nhiệm vụ khác nhau sẽ cho ra harness khác nhau, và đó chính là lý do tính năng này được gọi là "dynamic".

Cô lập ngữ cảnh để ngăn sự suy thoái của ngữ cảnh

Một trong những thiết kế thông minh nhất của Dynamic Workflows là tính năng Isolation. Mỗi sub-agent được cấp cửa sổ ngữ cảnh riêng biệt, hoàn toàn độc lập với các agent khác. Điều này ngăn chặn hiện tượng suy thoái ngữ cảnh (context rot) tức sự suy giảm chất lượng khi ngữ cảnh bị quá tải, đồng thời triệt tiêu cả Agentic Laziness lẫn Goal Drift vì mỗi agent chỉ tập trung vào phần việc nhỏ được giao.

Sáu mẫu điều phối có thể tái sử dụng

Claude có thể kết hợp sáu mẫu điều phối sẵn có để xử lý đa dạng tình huống:

6 trường hợp sử dụng Dynamic Wofkflow hợp lý nhất (nguồn Thariq)

Phân loại và hành động: phân loại đầu vào rồi chọn hành động phù hợp
Phân chi và tổng hợp: chia công việc ra nhiều nhánh song song rồi tổng hợp kết quả
Kiểm tra chéo: dùng agent khác kiểm tra chéo kết quả
Tạo và lọc: tạo nhiều phương án rồi lọc ra phương án tốt nhất
Tạo ra giải đấu: cho các phương án "đấu đối khảng trực tiếp với nhau rồi loại dần
Vòng lặp: lặp lại cho đến khi đạt tiêu chuẩn chất lượng

Có thể tối ưu chi phí khi sử dụng Dynamic Workflows không

Chạy nhiều sub-agent song song nghe có vẻ tốn kém, nhưng thực tế Dynamic Workflows được thiết kế để tối ưu chi phí theo một số cách cụ thể.

Định tuyến thông minh đến model phù hợp

Không phải mọi bước trong quy trình đều cần model mạnh nhất. Harness cho phép Claude định tuyến từng tác vụ đến model phù hợp với độ phức tạp của nó: các bước phân loại đơn giản có thể chạy trên model nhỏ hơn và rẻ hơn, trong khi chỉ những bước đòi hỏi suy luận sâu mới cần đến model lớn. Kết quả là tổng chi phí thường thấp hơn so với việc chạy toàn bộ quy trình trên một model duy nhất.

Cô lập ngữ cảnh giúp giảm token tiêu thụ

Vì mỗi sub-agent chỉ nhận đúng phần ngữ cảnh cần thiết cho công việc của mình, tổng lượng token tiêu thụ trên toàn bộ quy trình thường thấp hơn đáng kể so với cách tiếp cận truyền thống, khi toàn bộ lịch sử hội thoại được nhồi vào một cửa sổ ngữ cảnh duy nhất ngày càng phình to.

Tránh làm lại công việc nhờ kiểm tra lại sớm

Harness có thể cài các điểm kiểm tra chất lượng (checkpoint) giữa các bước. Nếu một bước cho ra kết quả không đạt yêu cầu, hệ thống dừng và xử lý lại đúng bước đó thay vì chạy tiếp toàn bộ quy trình rồi mới phát hiện lỗi ở cuối. Cách này tiết kiệm đáng kể chi phí cho các tác vụ dài nhiều bước.

Ứng dụng thực tế của Dynamic Workflow như thế nào

Điều khiến Thariq hào hứng nhất không phải là khả năng code, mà là việc Dynamic Workflows mở rộng Claude Code sang các nhiệm vụ phi kỹ thuật. Tính năng này có thể kích hoạt bằng ngôn ngữ tự nhiên (ví dụ: "use a workflow") hoặc từ khóa "ultracode." Các ứng dụng thực tế bao gồm:

Audit hàng nghìn tin nhắn trên Slack để tìm sự cố lặp lại
Xếp hạng và sàng lọc bộ hồ sơ ứng viên lớn một cách có hệ thống
Chạy giải đấu loại trực tiếp tự động để chọn tên tốt nhất cho CLI tool
Xử lý các nhiệm vụ vận hành đòi hỏi độ chính xác cao mà trước đây chỉ con người mới làm được

Triết lý thiết kế là ràng buộc kiến trúc thay vì trí tuệ thô

Điểm đáng chú ý nhất trong cách tiếp cận của Anthropic là triết lý thiết kế: thay vì cố gắng tăng trí thông minh thô của model, họ xây dựng các ràng buộc kiến trúc (architectural constraints) vào quy trình làm việc. Nói cách khác, thay vì hy vọng model tự biết cách tránh lỗi, họ thiết kế hệ thống sao cho lỗi khó xảy ra ngay từ đầu, và harness chính là công cụ thực thi triết lý đó.

Dynamic Workflows cho thấy bước tiến tiếp theo của AI agent không nằm ở model thông minh hơn mà ở khả năng tự thiết kế quy trình. Giống cách một quản lý giỏi phân chia công việc cho đội ngũ thay vì tự làm tất cả, Claude giờ đây có thể tự tổ chức đội ngũ sub-agent của mình, và đây là tín hiệu rõ ràng rằng tương lai của AI coding không chỉ còn là viết code nhanh hơn mà là tổ chức công việc tốt hơn.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Cách kết hợp Codex và Claude Code chỉ với plugin

Có ai đang dùng song song cả Codex lẫn Claude Code không? Mình mới phát hiện plugin Codex cho Claude Code do chính OpenAI phát hành. Nói thật là đến giờ mới biết nên cũng có cảm giác như người tối cổ. Điểm hay nhất là từ nay có thể gọi Codex ngay trong phiên Claude Code hiện tại để review code, phản biện hướng triển khai hoặc nhận riêng một tác vụ, không phải chuyển qua lại giữa nhiều tab và session như trước. Plugin Codex cho Claude Code có gì đáng chú ý? Plugin openai/codex-plugin-cc được thiết kế cho người đã quen làm việc trong Claude Code nhưng muốn tận dụng thêm Codex. Thay vì để hai agent cùng nhảy vào chỉnh một file, bạn có thể phân vai rõ ràng: Claude Code triển khai, Codex kiểm tra; hoặc Claude Code giữ luồng chính còn Codex xử lý một vấn đề độc lập ở chế độ nền. Theo tài liệu chính thức, plugin cung cấp ba nhóm khả năng. Nhóm review gồm /codex:review và /codex:adversarial-review. Nhóm giao việc có /codex:rescue. Nhóm quản lý phiên và tác vụ nền gồm /codex:transfer, /codex:status, /codex:result và /codex:cancel. Nhờ vậy, Codex trở thành một cộng sự nằm ngay trong workflow Claude Code thay vì là một cửa sổ tách rời. Không phải một Codex runtime tách biệt Plugin không tạo thêm một hệ thống Codex mới. Nó sử dụng Codex CLI và Codex app server đang cài trên máy, đồng thời dùng lại trạng thái đăng nhập, repository hiện tại và cấu hình trong config.toml. Điều này giúp việc tích hợp gọn hơn, nhưng cũng có nghĩa mọi lượt gọi vẫn được tính vào giới hạn sử dụng Codex của tài khoản. Điều kiện trước khi cài Bạn cần Node.js 18.18 trở lên và một tài khoản ChatGPT, kể cả gói Free, hoặc OpenAI API key. Nếu Codex CLI chưa có trên máy, lệnh /codex:setup có thể hướng dẫn cài; cách thủ công là chạy npm install -g @openai/codex. Nếu chưa đăng nhập, dùng !codex login ngay trong Claude Code. Cách cài Codex plugin trong Claude Code Quy trình cài đặt khá ngắn. Trong Claude Code, lần lượt chạy các lệnh sau: /plugin marketplace add openai/codex-plugin-cc /plugin install codex@openai-codex /reload-plugins /codex:setup Lệnh cuối kiểm tra Codex đã được cài và xác thực hay chưa. Sau khi hoàn tất, danh sách slash command của Codex sẽ xuất hiện trong Claude Code, đồng thời agent codex:codex-rescue cũng có mặt trong mục /agents. Chạy thử ở chế độ nền Một bài thử ít rủi ro là yêu cầu Codex review thay đổi hiện tại bằng /codex:review --background, sau đó dùng /codex:status để xem tiến độ và /codex:result để lấy kết quả. Review nhiều file có thể mất thời gian, vì vậy chạy nền sẽ không chặn luồng làm việc chính của Claude Code. Ba cách phối hợp Codex và Claude Code hiệu quả Giá trị của plugin không nằm ở việc có thêm một AI, mà ở cách phân vai. Nếu cả hai cùng sửa một khu vực mà không có ranh giới, bạn dễ gặp xung đột code, lặp phân tích và tốn context. Ba luồng dưới đây rõ trách nhiệm hơn. Claude viết, Codex review Đây là cách dễ áp dụng nhất. Sau khi Claude Code hoàn thành một tính năng, chạy /codex:review để Codex thực hiện review chỉ đọc. Lệnh này có thể kiểm tra thay đổi chưa commit hoặc so sánh branch với nhánh gốc bằng /codex:review --base main. Codex không sửa file trong chế độ này, nên bạn vẫn giữ quyền quyết định cuối cùng. Ví dụ, Claude vừa thêm luồng thanh toán qua ba module. Thay vì yêu cầu Claude tự đánh giá lại phần việc của chính mình, hãy để Codex rà lỗi logic, trường hợp biên và tác dụng phụ giữa các file. Sau đó Claude Code có thể đọc nhận xét, chọn điểm hợp lý và sửa trong cùng phiên. Giao hẳn một task cho Codex Với một bài toán có thể tách độc lập, dùng /codex:rescue. Chẳng hạn: /codex:rescue --background điều tra nguyên nhân kiểm thử tích hợp không ổn định. Claude Code tiếp tục xử lý UI hoặc tài liệu, trong khi Codex điều tra test ở nền. Lệnh này hỗ trợ --background, --wait, --resume và --fresh, nên có thể tiếp tục một task trước đó hoặc buộc mở một lượt mới. Điểm quan trọng là mô tả đầu ra và phạm vi file rõ ràng. Giao “sửa mọi thứ đang lỗi” cho Codex trong khi Claude cũng đang chỉnh toàn repository vẫn có nguy cơ đụng nhau. Một task tốt nên có mục tiêu cụ thể, tiêu chí hoàn thành và vùng code sở hữu riêng. Dùng adversarial review để chất vấn hướng phát triển dự án /codex:adversarial-review phù hợp khi bạn không chỉ muốn bắt bug mà còn muốn chất vấn quyết định thiết kế. Có thể thêm trọng tâm, ví dụ: /codex:adversarial-review --base main challenge the caching and retry design. Codex sẽ soi giả định ẩn, trade-off, phương án thay thế và các rủi ro như mất dữ liệu, race condition, rollback hoặc độ tin cậy. Nói vui thì đây là lúc hai ông có thể “cãi nhau ỏm tỏi”, nhưng tranh luận chỉ hữu ích khi có người cầm trịch. Hãy đặt câu hỏi hẹp, yêu cầu bằng chứng và chốt tiêu chí ra quyết định; nếu không, phiên phản biện rất dễ biến thành chuỗi ý kiến nối tiếp mà không tạo ra thay đổi thực tế. Chuyển phiên và quản lý tác vụ nền Plugin còn giải quyết một vấn đề quen thuộc: đã thảo luận dài trong Claude Code nhưng muốn chuyển nguyên mạch công việc sang Codex. /codex:transfer tạo một Codex thread bền vững từ phiên Claude Code hiện tại và trả về lệnh codex resume <session-id>. Nhờ đó, bạn không phải viết lại toàn bộ bối cảnh bằng tay. Khi nào nên dùng transfer Hãy dùng transfer khi task đã vượt khỏi một lần review ngắn và bạn muốn tiếp tục trực tiếp trong Codex App hoặc TUI. Ví dụ, Claude Code đã cùng bạn điều tra kiến trúc trong một phiên dài, nhưng giai đoạn tiếp theo cần Codex thực hiện nhiều vòng chỉnh sửa. Việc chuyển phiên giữ lại lịch sử có cấu trúc và giảm rủi ro mất các quyết định đã thống nhất. Theo dõi, lấy kết quả và hủy tác vụ Với task chạy nền, /codex:status cho biết tiến độ, /codex:result trả kết quả cuối cùng và session ID, còn /codex:cancel dừng job đang chạy. Ba lệnh này nghe đơn giản nhưng rất cần thiết để workflow nhiều agent không trở thành một hộp đen. Nếu task đi sai hướng, hủy sớm thường tiết kiệm limit hơn chờ kết quả rồi làm lại. Cẩn thận vòng lặp review và giới hạn sử dụng Lưu ý quan trọng: OpenAI cảnh báo rõ rằng review gate có thể tạo vòng lặp Claude/Codex kéo dài và tiêu hao giới hạn sử dụng nhanh. Khi bật bằng /codex:setup --enable-review-gate, plugin dùng Stop hook, tức cơ chế tự động kích hoạt khi Claude chuẩn bị kết thúc câu trả lời, để gọi một lượt review có mục tiêu. Nếu Codex tìm thấy vấn đề, phản hồi của Claude bị chặn để Claude xử lý trước. Cơ chế này hữu ích trước khi ship, nhưng không nên bật rồi bỏ mặc. Review gate mạnh nhưng cần giám sát Kịch bản dễ gặp là Codex nêu vấn đề, Claude sửa, Codex review lại và phát hiện một điểm mới; chu kỳ tiếp tục vì tiêu chí “đủ tốt” chưa được định nghĩa. Đây chính là phiên bản tự động của việc để hai agent review qua lại liên tục. Chi phí không chỉ là limit mà còn là thời gian và nguy cơ thay đổi quá mức một bản vá vốn đã ổn. Một bộ nguyên tắc vận hành an toàn Phân vai trước khi chạy: một agent triển khai, một agent review hoặc một agent sở hữu một task độc lập. Giới hạn phạm vi: nêu rõ branch, file, loại rủi ro và tiêu chí hoàn thành. Ưu tiên chạy nền cho review nhiều file, nhưng kiểm tra trạng thái định kỳ. Chỉ bật review gate khi đang chủ động theo dõi và tắt bằng /codex:setup --disable-review-gate sau khi hoàn tất. Không yêu cầu Claude review lại toàn bộ kết quả Codex rồi tiếp tục yêu cầu Codex review toàn bộ phần sửa của Claude nếu chưa có điểm dừng rõ ràng. Dùng /codex:cancel khi task lệch hướng thay vì cố cứu một vòng chạy tốn kém. Làm sao kết hợp Codex và Claude Code hiệu quả? Trước đây mình thường mở Codex và Claude Code song song, đôi lúc còn để cả hai cùng nhảy vào một file để tiết kiệm thời gian. Plugin chính chủ của OpenAI tạo ra cách làm gọn hơn: Claude Code giữ vai trò điều phối, Codex vào review, phản biện hoặc nhận task riêng mà không cần chuyển tab liên tục. Bắt đầu tốt nhất là cài plugin, chạy một lượt /codex:review --background trên dự án nhỏ và quan sát cách ba lệnh status, result, cancel hoạt động. Khi đã quen mới thử rescue, transfer và review gate. Hai AI có thể bổ trợ nhau rất tốt, miễn là con người vẫn đặt ranh giới, ngân sách và điểm dừng.

Nam•

14 thg 7, 2026

Đọc thêm

Tư duy CEO Y Combinator về 6 câu hỏi để bắt đầu dự án

Mình đã nghe rất nhiều về repo gstack của CEO Y Combinator thế là tò mò cài vào thử, thứ khiến mình bất ngờ nhất không phải các workflow xịn mà là tư duy thật sự khác biệt của vị CEO này. Đó là lệnh đầu tiên trong cả hệ thống: /office-hours với sáu câu hỏi bắt đầu nhưng lại không hỏi về code chỉ hỏi những thứ mà hầu hết mọi người chưa trả lời được trước khi bắt tay vào build. gstack là gì và tại sao Garry Tan tạo ra nó gstack là bộ công cụ mã nguồn mở của Garry Tan, CEO Y Combinator, chủ yếu được thiết kế ra dành cho Claude Code. Ý tưởng cốt lõi của repo là thay vì dùng AI như một người viết code đơn thuần, Garry Tan muốn biến Claude thành cả một nhóm AI agent làm việc thu nhỏ, mỗi thành viên phụ trách một vai trò khác nhau từ người định hướng sản phẩm, kiểm tra bảo mật, đến người kiểm thử và phát hành. Toàn bộ quy trình chạy theo vòng lặp có thứ tự: suy nghĩ → lên kế hoạch → xây dựng → kiểm tra → thử nghiệm → phát hành → đánh giá lại . Cụ thể hơn, gstack chia Claude Code thành 23 vai trò chuyên biệt tất nhiên trong workflow kết quả của bước trước tự động được chuyển sang bước tiếp theo mà không cần bạn làm thủ công. Một số lệnh nổi bật như sau: /office-hours 6 câu hỏi buộc bạn suy nghĩ lại tính năng trước khi viết dòng code đầu tiên /plan-ceo-review tìm xem bạn đang làm quá nhiều hay quá ít so với thực tế cần /review bắt lỗi nghiêm trọng mà các công cụ kiểm tra tự động thông thường không thấy /qa mở trình duyệt thật, thao tác thật, tìm lỗi thật /cso chạy kiểm tra bảo mật theo chuẩn quốc tế tự động /ship đồng bộ, kiểm tra, đẩy code và tạo pull request trong một lệnh duy nhất Kết quả gstack hoạt động thế nào? Garry Tan cho biết tốc độ làm việc của ông năm 2026 nhanh hơn khoảng 810 lần so với năm 2013 khi đo bằng dòng code hoàn chỉnh mỗi ngày (11.417 so với 14 dòng). Trong 60 ngày, ông ship 3 dịch vụ production và hơn 40 tính năng, tất cả trong khi vẫn điều hành Y Combinator toàn thời gian. Andrej Karpathy, đồng sáng lập OpenAI, cũng chia sẻ rằng ông không gõ một dòng code nào kể từ tháng 12/2025 nhờ các tác nhân AI. Nhưng trong tất cả các lệnh đó, /office-hours là thứ đáng chú ý nhất vì một lý do ngược lại với phần còn lại, nó không giúp bạn làm việc nhanh hơn mà nó giúp bạn không làm nhầm thứ ngay từ đầu. Tại sao /office-hours lại được xếp đầu tiên Garry Tan đặt /office-hours ở đầu workflow vì một quan sát đơn giản: hầu hết các sản phẩm thất bại không phải vì code kém mà vì làm sai thứ mọi người cần. Họ bỏ hàng tuần viết một tính năng không ai cần, hoặc xây dựng đúng tính năng nhưng lại sai đối tượng, hoặc giải quyết một vấn đề mà người dùng đã có cách giải quyết tốt hơn từ lâu. Lệnh này có hai chế độ: Startup mode dành cho founder và người build sản phẩm thật, và Builder mode dành cho side project, hackathon, open source. Bài này tập trung vào Startup mode, nơi 6 câu hỏi được áp dụng đúng nghĩa nhất. 6 câu hỏi của /office-hours và tại sao mỗi câu đều đáng giá Đây không phải 6 câu hỏi để trả lời qua loa rồi tiếp tục đến các phần sau. Chúng được thiết kế để bạn suy nghĩ thật, vì câu trả lời càng trung thực thì kết quả Claude tạo ra càng bám sát đúng thứ bạn thực sự cần và bạn sẽ tiết kiệm được rất nhiều thời gian về sau. Bạn có thể xem nội dung gốc đầy đủ 6 cau hỏi tại office-hours/SKILL.md.tmpl. Demand reality: Nhu cầu có thật không? Câu hỏi gốc: "Ai cụ thể đang gặp vấn đề này? Họ đang giải quyết tạm bằng cách nào?" Không phải người dùng nói chung hay team marketing mà tác giả muốn hướng đến một người thật, có tên(càng tốt) đang vật lộn với vấn đề cụ thể là gì. Nếu bạn không biết được một người như vậy, bạn sẽ chưa thực sự hiểu họ cần gì. Ví dụ cụ thể: Thay vì "người dùng muốn quản lý task tốt hơn", phải là "Minh, project manager tại công ty 20 người, đang copy-paste giữa Notion và Google Sheet mỗi sáng thứ Hai vì hai tool không sync được." Tất nhiên đây là ví dụ mọi người tự áp dụng vào trường hợp của mình. Status quo: Họ đang dùng gì thay thế? Câu hỏi gốc: "Giải pháp thay thế tạm thời hiện tại của họ là gì? Bạn cần tốt hơn bao nhiêu để họ chịu đổi sang dùng giải pháp của bạn?" Mọi người đều đang giải quyết vấn đề theo một cách nào đó, dù là Excel, sticky note, hay nhóm chat WhatsApp. Nếu giải pháp hiện tại của họ đủ tốt, họ chẳng có lý do gì để chuyển dữ liệu và phải học sử dụng lại một nền tảng hoàn toàn mới, vì vậy giải pháp của bạn phải làm thực sự tốt hơn để họ còn cân nhắc. Desperate specificity: Ai đang cần giải pháp này đủ nhiều? Câu hỏi gốc: "Ai đang cần giải pháp đến mức có thể dùng bản beta xấu xí của bạn ngay hôm nay?" Đây là câu phân biệt "nice-to-have" và "must-have". Nếu bạn không tìm được ai sẵn sàng dùng một bản chưa hoàn chỉnh, chưa có UI đẹp, còn nhiều lỗi, thì vấn đề bạn đang giải quyết chưa đủ cấp bách. Người dùng thật của giai đoạn đầu là người cần đến mức họ chịu đựng được cả sản phẩm chưa đẹp nhưng có sửa đổi và hướng đi phù hợp. Narrowest wedge: Phần nhỏ nhất là gì? Câu hỏi gốc: "Phần nhỏ nhất có thể ra mắt ngày mai là gì? Không phải toàn bộ sản phẩm mà là phần nhỏ nhất." Không phải phiên bản đầu tiên đầy đủ tính năng mà là phần nhỏ hơn nữa. Câu hỏi này thường cắt bỏ 80% những thứ bạn tự thêm vào vì nghĩ "làm luôn cho tiện". Đây là lỗi mà mình rất hay bị khiến cho mọi thứ vượt tầm kiểm soát, phần này giúp mọi người ra mắt phần nhỏ nhất trước, lắng nghe phản hồi từ người dùng thật rồi mới quyết định mở rộng tiếp. Lưu ý: Nhiều người hay nhầm "phần nhỏ nhất" với "phiên bản đầu tiên đầy đủ tính năng". Thực ra phần nhỏ nhất đúng nghĩa có thể chỉ là tính năng nhỏ giải quyết một vấn đề duy nhất, cho một nhóm người dùng duy nhất, không hơn không kém. Observation and surprise: Bạn đã xem người thật dùng chưa? Câu hỏi gốc: "Bạn đã ngồi xem người thật dùng sản phẩm chưa? Họ dùng theo cách bạn không ngờ không?" Câu hỏi này có lẽ nên để cho vòng lặp thứ hai trở đi, khi bạn đã có bản thử nghiệm trong tay. Thay vì hỏi cảm nhận qua tin nhắn hay khảo sát, hãy ngồi xem trực tiếp hoặc xem lại video ghi màn hình khi họ dùng. Những phát hiện đáng giá nhất thường không phải từ lời họ nói mà từ những thao tác họ làm mà bạn không thiết kế, hoặc những bước họ bỏ qua dù bạn nghĩ là quan trọng. Lưu ý: Nếu bạn đang ở vòng đầu tiên và chưa có sản phẩm nào, mình nghĩ có thể bỏ qua câu này và quay lại sau khi đã ra mắt phần nhỏ nhất ở bước 4. Future-fit: Tầm nhìn 2 đến 3 năm Câu hỏi gốc: "2-3 năm nữa, thứ bạn đang build có còn phù hợp không, hay trend đang đi ngược lại?" Không phải để dự đoán tương lai chính xác, mà để tránh build thứ đang chết dần. Nếu xu hướng đang làm cho vấn đề bạn giải quyết trở nên ít cấp bách hơn trong 2 năm tới, đó chắc chắn là tín hiệu cần xem xét lại từ đầu còn nếu bạn muốn đánh nhanh thắng nhanh để tránh big tech ra sản phẩm giống hệt bạn thì hãy bỏ qua câu hỏi này. Ví dụ thực tế: một ý tưởng tưởng đơn giản bị lật ngược hoàn toàn Trong tài liệu của gstack, Garry Tan lấy một ví dụ rất thực tế. Bạn mở /office-hours và nói: "Tôi muốn làm một app tóm tắt lịch làm việc hàng ngày." Claude không đồng ý ngay và bắt đầu làm theo. Thay vào đó, nó phản hồi: thứ bạn vừa mô tả không chỉ là app tóm tắt lịch mà thực chất là một trợ lý cá nhân AI toàn diện. Hai thứ này khác nhau hoàn toàn về quy mô, độ phức tạp kỹ thuật và kỳ vọng của người dùng. Chỉ từ một câu mô tả ban đầu, /office-hours giúp bạn nhìn ra: 5 tính năng bạn đang mô tả mà chưa nhận ra 4 giả định cần kiểm chứng trước khi bắt tay làm 3 hướng triển khai khác nhau với mức độ phức tạp khác nhau 1 gợi ý: ra mắt phần nhỏ nhất trước, phần còn lại để làm dần về sau Toàn bộ quá trình đó xảy ra rồi cho ra kết quả sẽ được lưu lại thành tài liệu để các bước tiếp theo trong quy trình tự động đọc và tiếp tục. Khả năng mở rộng của 6 câu hỏi này ra ngoài repo gstack 6 câu hỏi của /office-hours không phụ thuộc vào Claude Code, không cần cài gstack. Chúng là tư duy, cách YC partners ngồi đánh giá startup, và bạn có thể áp dụng ngay hôm nay bằng bất kỳ công cụ AI nào đang dùng. Sự khác biệt khi dùng qua gstack là khi Claude sẽ không để bạn trả lời qua loa. Nó giúp Claude hiểu yêu cầu cụ thể hơn và nó không tiếp tục cho đến khi câu trả lời đủ thực tế. Đó là lý do vì sao/office-hours là skill đáng sợ nhất trong cả repo, không phải vì nó khó dùng, mà vì nó hỏi đúng thứ bạn đang bỏ qua. Thử ngay hôm nay: Trước khi làm sản phẩm tiếp theo, paste 6 câu hỏi trên vào Claude, Gemini, hay ChatGPT cùng với mô tả ý tưởng của bạn. Yêu cầu nó hỏi từng câu một và không cho phép bạn bỏ qua. Kết quả thường bất ngờ hơn bạn nghĩ, kể cả với những ý tưởng bạn đã nghĩ rất kỹ. gstack hiện có hơn 117k lượt star trên GitHub và vẫn đang tăng. Với mình, phần đáng giá nhất không phải các lệnh kỹ thuật như /review hay /ship, mà chính là /office-hours vì đây là lệnh duy nhất trong cả bộ công cụ buộc bạn dừng lại và suy nghĩ trước khi làm bất cứ điều gì.

Nam•

27 thg 6, 2026

Đọc thêm

Hermes Agent và MCP: Tự động hóa workflow thực tế

Một AI agent có thể lập kế hoạch rất tốt nhưng vẫn không thể cập nhật Notion, đọc issue GitHub hay lấy báo cáo từ Google Drive nếu không có đường kết nối phù hợp. Khi kết hợp Hermes Agent với MCP, người dùng có thể biến một cuộc trò chuyện thành workflow thực tế, đồng thời kiểm soát rõ công cụ và quyền mà agent được phép sử dụng. Nếu bạn chưa quen với khả năng ghi nhớ và tự tạo skill của Hermes, bài Hermes Agent là gì? sẽ cung cấp phần nền tảng cần thiết. Trong bài này, trọng tâm là cách MCP mở rộng Hermes ra ngoài terminal để làm việc với dữ liệu và dịch vụ đang được sử dụng hằng ngày. MCP bổ sung điều gì cho Hermes Agent? MCP là một chuẩn kết nối giữa ứng dụng AI và server cung cấp công cụ hoặc dữ liệu. Có thể hình dung MCP như một lớp chuyển đổi: Hermes vẫn là agent chịu trách nhiệm hiểu mục tiêu và quyết định bước tiếp theo, còn từng MCP server cung cấp các thao tác cụ thể như tìm trang Notion, đọc pull request, tạo issue hoặc truy vấn tệp. Theo tài liệu MCP của Hermes Agent, Hermes hỗ trợ cả server chạy cục bộ qua stdio và server từ xa qua HTTP. Khi khởi động hoặc tải lại cấu hình, Hermes tự khám phá công cụ mà server cung cấp rồi đăng ký chúng vào hệ thống tool thông thường. Vì vậy, người dùng không cần viết một công cụ Hermes riêng cho mọi dịch vụ đã có MCP server phù hợp. Điểm quan trọng là MCP không tự động làm workflow an toàn. Mỗi server có thể cung cấp nhiều công cụ đọc, ghi, tạo và xóa dữ liệu. Hermes cho phép lọc theo từng server, nên người dùng có thể chỉ bật nhóm thao tác cần thiết thay vì đưa toàn bộ quyền cho model. Cách kết nối MCP mà không mở quá nhiều quyền Bản cài Hermes tiêu chuẩn đã bao gồm hỗ trợ MCP. Người dùng có thể mở trình chọn bằng lệnh hermes mcp, xem danh mục bằng hermes mcp catalog và kiểm tra một kết nối bằng hermes mcp test. Danh mục tích hợp của Hermes được Nous Research xem xét trước khi đưa vào repository, nhưng chính tài liệu cũng khuyến nghị đọc manifest, nguồn mã và lệnh cài đặt trước khi sử dụng. Với server ngoài danh mục, người dùng có thể thêm kết nối HTTP hoặc một lệnh stdio vào config.yaml. Sau khi hoàn tất OAuth hoặc cấu hình biến môi trường cần thiết, hãy tải lại MCP và yêu cầu Hermes liệt kê các công cụ đang có. Đây là bước kiểm tra đơn giản để phát hiện server chưa kết nối hoặc công cụ bị lọc nhầm. Bắt đầu bằng quyền đọc Cách thiết lập an toàn nhất là kết nối một server, chỉ bật công cụ đọc và thử trên dữ liệu không nhạy cảm. Khi kết quả ổn định, bạn mới thêm quyền tạo hoặc cập nhật. Quyền xóa, thay đổi chia sẻ và gửi nội dung ra ngoài nên cần bước phê duyệt của con người. Notion chỉ cần quyền tìm kiếm và đọc trang trong giai đoạn đầu. GitHub có thể giới hạn ở đọc repository, issue và pull request. Google Drive nên giới hạn thư mục, tài khoản và phạm vi OAuth cần thiết. Ba workflow thực tế với Notion, GitHub và Google Drive Biến tài liệu Notion thành trung tâm tri thức Notion MCP chính thức cho phép agent tìm kiếm, đọc và cập nhật nội dung trong workspace theo quyền của tài khoản đã xác thực. Một workflow hữu ích là để Hermes thu thập ghi chú họp, tìm các quyết định liên quan rồi tạo bản tổng hợp vào trang dự án. Người dùng có thể yêu cầu Hermes chỉ tạo bản nháp, sau đó kiểm tra trước khi cập nhật trạng thái hoặc giao việc. Notion MCP dùng OAuth theo người dùng, vì vậy không phù hợp với mọi tác vụ chạy hoàn toàn không có người giám sát. Nếu muốn chạy tự động theo lịch, hãy kiểm tra cách server duy trì phiên xác thực và tránh thiết kế workflow phụ thuộc vào thao tác mà OAuth không hỗ trợ ở chế độ headless. Đồng bộ công việc phát triển qua GitHub GitHub MCP Server do GitHub cung cấp và duy trì, cho phép công cụ AI làm việc với dữ liệu phát triển phần mềm theo quyền tài khoản. Hermes có thể đọc issue mới, đối chiếu với thay đổi trong repository và soạn báo cáo tiến độ. Ở bước tiếp theo, agent có thể chuẩn bị nội dung issue hoặc release note nhưng chờ người phụ trách xác nhận trước khi ghi. Workflow này hiệu quả hơn khi tiêu chí được mô tả rõ. Chẳng hạn, Hermes chỉ tổng hợp pull request đã merge trong bảy ngày, nhóm theo nhãn và liên kết từng thay đổi với issue liên quan. Kết quả có thể được chuyển tiếp sang Notion thông qua MCP thứ hai để tạo báo cáo tuần. Tổng hợp tệp và báo cáo từ Google Drive Với một MCP server tương thích Google Workspace, Hermes có thể tìm tệp trong Drive, đọc nội dung được cấp quyền và đưa dữ liệu vào quy trình tổng hợp. Ví dụ, agent tìm báo cáo bán hàng trong một thư mục cố định, trích các chỉ số cần thiết rồi tạo bản tóm tắt để lưu vào Notion hoặc đính kèm vào issue GitHub. Google đã tập hợp các dự án MCP chính thức tại repository Google MCP, trong đó có hướng tích hợp Google Workspace. Tuy nhiên, Drive từng có nhiều server cộng đồng với mức bảo trì khác nhau. Vì vậy, hãy kiểm tra nguồn, lịch sử cập nhật và phạm vi OAuth của server cụ thể thay vì cài theo tên gọi. Ghép nhiều MCP server thành một workflow có kiểm soát Một workflow hoàn chỉnh có thể bắt đầu từ GitHub, dùng Drive làm nguồn dữ liệu và kết thúc ở Notion. Hermes đọc issue được gắn nhãn báo cáo, tìm bảng tính tương ứng trong Drive, tạo phần tóm tắt rồi cập nhật trang dự án. Mỗi bước sử dụng một nhóm công cụ MCP khác nhau, còn Hermes giữ vai trò lập kế hoạch và chuyển kết quả giữa các bước. Không nên bật thực thi song song chỉ vì server hỗ trợ. Tài liệu Hermes cho phép khai báo khả năng gọi tool song song, nhưng cảnh báo rằng các thao tác cùng đọc và ghi trạng thái có thể tạo xung đột. Các bước chỉ đọc độc lập có thể chạy đồng thời, trong khi cập nhật Notion, tạo issue hoặc thay đổi tệp nên diễn ra tuần tự. Lưu ý: MCP server là phần mềm có thể chạy lệnh và nhận thông tin xác thực. Chỉ cài server từ nguồn đáng tin, không đặt token trong prompt, lọc bỏ công cụ nguy hiểm và luôn giữ bước phê duyệt cho hành động xóa, chia sẻ hoặc xuất bản dữ liệu. Nên bắt đầu workflow đầu tiên như thế nào? Đừng kết nối Notion, GitHub và Google Drive trong cùng ngày rồi giao ngay một quy trình quan trọng. Hãy chọn một đầu vào, một đầu ra và một tiêu chí hoàn thành dễ kiểm tra. Ví dụ đầu tiên có thể là đọc các issue GitHub đã đóng rồi tạo bản nháp báo cáo trong Notion, không có quyền xóa hoặc xuất bản. Sau vài lần chạy ổn định, bạn có thể biến quy trình thành skill để Hermes tái sử dụng và thêm lịch chạy tự động. Giá trị thực của MCP không nằm ở số lượng server đã kết nối, mà ở việc Hermes có thể hoàn thành một workflow lặp lại với phạm vi quyền nhỏ, kết quả dễ kiểm tra và đường đi dữ liệu rõ ràng.

Nam•

16 thg 7, 2026

Đọc thêm

So sánh Hermes Agent, OpenClaw và Claude Cowork

Hermes Agent, OpenClaw và Claude Cowork đều được gọi là AI agent vì chúng không chỉ trả lời câu hỏi. Chúng có thể chia mục tiêu thành nhiều bước, gọi công cụ, đọc dữ liệu và tạo ra kết quả hoàn chỉnh. Tuy nhiên, đặt ba sản phẩm cạnh nhau chỉ bằng một bảng tính năng rất dễ dẫn tới lựa chọn sai. Hermes Agent hướng tới một agent có thể học thêm cách làm việc. OpenClaw hướng tới một trợ lý cá nhân luôn sẵn sàng qua các kênh nhắn tin còn Claude Cowork hướng tới người dùng muốn giao việc văn phòng bằng ngôn ngữ tự nhiên trong một môi trường được Anthropic quản lý. Vì vậy, câu hỏi quan trọng không phải công cụ nào mạnh nhất, mà là bạn muốn tự quản bao nhiêu và muốn agent xuất hiện ở đâu trong quy trình hằng ngày. Ba sản phẩm với thiết kế khác nhau Sự khác biệt của 3 công cụ AI Agent không chỉ nằm ở model thực thi mà còn ở bộ khung bao quanh model để quản lý công cụ, bộ nhớ, quyền truy cập và vòng lặp thực thi. Khái niệm này được giải thích chi tiết trong bài Agent Harness là gì?, qua đó người đọc có thể hiểu vì sao cùng được gọi là AI agent nhưng ba sản phẩm lại hành xử rất khác nhau. Hermes Agent ưu tiên vòng lặp học và môi trường thực thi Điểm đáng chú ý của Hermes là skills không chỉ là danh sách các skills đã được cài sẵn. Khi hoàn thành một công việc, agent có thể rút ra quy trình hữu ích, lưu lại và cải thiện ở lần sau. Bài Hermes Agent là gì? giải thích riêng cơ chế tự học này. Giá trị của cơ chế tích lũy tăng dần theo thời gian nếu người dùng có nhiều nhiệm vụ lặp lại như phân tích dự án, theo dõi nguồn tin, chuẩn hóa báo cáo hoặc vận hành một chuỗi công cụ nội bộ. Hermes cũng hỗ trợ nhiều kiểu sandbox như chạy cục bộ, Docker, SSH, Singularity hoặc Modal. Sandbox là môi trường cô lập nơi agent thực thi lệnh và thao tác tệp. Sự linh hoạt này giúp người dùng chọn giữa tốc độ, khả năng kiểm soát và mức độ cách ly, nhưng đồng thời đòi hỏi hiểu biết về hạ tầng, quyền truy cập và cách xử lý khóa bí mật. OpenClaw lấy Gateway làm trung tâm điều phối Trong OpenClaw, Gateway là lớp điều khiển đứng giữa agent, thiết bị và các kênh giao tiếp. Một tin nhắn có thể trở thành yêu cầu để agent đọc lịch, xử lý tệp, gọi dịch vụ hoặc phản hồi về đúng cuộc trò chuyện. Cách tiếp cận này rất tự nhiên với người muốn nhắn cho trợ lý từ điện thoại mà không cần nhớ máy chủ đang chạy ở đâu. OpenClaw phù hợp nhất khi agent cần phản ứng ngay khi có việc cần đến, không cần người dùng mở máy tính hay vào một ứng dụng riêng. Thay vì chờ bạn khởi động một phiên làm việc, nó ngồi sẵn trong các kênh nhắn tin bạn đang dùng và bắt đầu xử lý ngay khi có tin nhắn hoặc sự kiện kích hoạt sẵn. Claude Cowork cung cấp không gian làm việc được quản lý Cowork giảm phần việc hạ tầng mà người dùng phải tự lo. Trong ứng dụng desktop, người dùng có thể cấp quyền cho thư mục cục bộ rồi yêu cầu Claude đọc, sắp xếp hoặc tạo tệp. Với phiên làm việc từ xa, công việc diễn ra trong môi trường cô lập trên máy chủ của Anthropic, phù hợp với những tác vụ dài không cần giữ máy cá nhân hoạt động liên tục. Đổi lại, phạm vi tùy biến và quyền kiểm soát tầng thực thi không rộng như một dự án tự host. Cowork phù hợp hơn với người muốn kết quả nhanh trong hệ sinh thái Claude, không muốn duy trì máy chủ hoặc tự thiết kế một Gateway. Bộ nhớ của ba công cụ hoạt động khác nhau như thế nào Bộ nhớ trong agent không nên được hiểu đơn giản là lưu toàn bộ hội thoại. Một hệ thống hữu ích phải biết thông tin nào đáng giữ, thông tin nào chỉ có giá trị trong phiên hiện tại và khi nào cần lấy lại dữ liệu cũ. Nếu lưu quá ít, agent sẽ phải hỏi những câu hỏi lặp lại còn nếu lưu quá nhiều, chi phí chắc chắn sẽ tăng và dữ liệu nhạy cảm rất dễ bị dùng sai chỗ. Hermes lại nổi bật nhờ kết hợp bộ nhớ bền vững với skill có thể cải thiện. Bộ nhớ giúp ghi nhận sở thích và bối cảnh, còn skill ghi lại cách hoàn thành một loại nhiệm vụ. Hai lớp này tạo ra cảm giác agent ngày càng hiểu người dùng, nhưng chất lượng vẫn phụ thuộc vào việc người dùng xem lại những gì được lưu và loại bỏ quy trình không phù hợp. OpenClaw chạy trên nhiều kênh cùng lúc và đó lại chính là điểm phức tạp nhất của nó. Nhớ nội dung hội thoại chỉ là một phần, vấn đề khó hơn là phân biệt được ai đang nói chuyện ở kênh nào và việc đó thuộc phạm vi nào. Một lệnh gửi trong nhóm Slack của công ty không nên tự động kéo theo ngữ cảnh riêng tư bạn từng trao đổi qua Telegram. Nếu cấu hình phiên và chính sách định danh nên được thiết lập rõ ràng ngay từ đầu, chất lượng model tốt đến đâu cũng không cứu được nếu mọi thứ mù mờ. Cowork giới hạn ngữ cảnh trong từng phiên làm việc, chỉ đọc những tệp bạn cấp quyền và kết nối nào bạn cho phép. Với người không quen dựng hệ thống, cách này dễ kiểm soát hơn vì ranh giới của mỗi tác vụ khá rõ ràng nhưng rõ ràng không có nghĩa là tự động hiểu, bạn vẫn cần nói rõ mình muốn gì, hoàn thành trông như thế nào và dữ liệu lấy từ đâu. Cowork không tự suy ra bối cảnh công ty của bạn nếu bạn không chủ động đưa vào. Mỗi công cụ tự động hóa tốt nhất loại việc nào Hermes có công cụ web, terminal, MCP, lịch chạy tự động và subagent. MCP là chuẩn kết nối giúp agent giao tiếp với nguồn dữ liệu hoặc ứng dụng bên ngoài qua một giao diện thống nhất. Khi kết hợp MCP với skill, người dùng có thể biến một thử nghiệm thành quy trình lặp lại, chẳng hạn mỗi sáng thu thập dữ liệu, phân tích thay đổi và gửi bản tóm tắt. OpenClaw mạnh ở các workflow bắt đầu từ tin nhắn hoặc sự kiện. Ví dụ, người dùng gửi hóa đơn vào kênh riêng, agent trích xuất thông tin rồi cập nhật hệ thống lưu trữ. Một ví dụ khác là nhận cảnh báo dịch vụ, hỏi thêm dữ liệu chẩn đoán và trả về bản tóm tắt ngay trong nhóm vận hành. Giá trị nằm ở việc giảm khoảng cách giữa lúc phát sinh nhu cầu và lúc agent bắt đầu hành động. Cowork phù hợp với đầu ra văn phòng có cấu trúc. Nó có thể nghiên cứu một chủ đề, tổng hợp dữ liệu, tạo tài liệu và tiếp tục chỉnh sửa theo phản hồi. Các tác vụ dài hoặc được lên lịch giúp Cowork vượt khỏi kiểu hỏi đáp ngắn. Tuy vậy, doanh nghiệp cần kiểm tra kỹ từng connector và quyền truy cập trước khi để agent thao tác trên kho dữ liệu thật. Nếu cần tích hợp sâu với hạ tầng riêng, Hermes và OpenClaw thường cho nhiều không gian hơn. Nếu ưu tiên thời gian đi từ yêu cầu tới tài liệu hoàn chỉnh, Cowork thường có lợi thế. Đây là khác biệt giữa nền tảng để lắp ghép và sản phẩm đã đóng gói. Bảo mật của ba AI agent này như thế nào Câu hỏi dùng cái nào an toàn hơn không có câu trả lời đơn giản, vì rủi ro bảo mật của từng công cụ đến từ những điểm hoàn toàn khác nhau. Hermes Agent: Tự host không đồng nghĩa là tự động an toàn. Rủi ro lớn nhất đến từ các skill tự sinh ra vì về bản chất đây là đoạn mã được agent tự viết rồi tự chạy. Nếu không xem lại trước khi cho chạy định kỳ, một skill có quyền terminal hoặc quyền gửi dữ liệu ra ngoài có thể làm những việc bạn không hề hay biết. Ngoài ra, khóa API và thư mục nhạy cảm không nên xuất hiện trong prompt hay được gắn trực tiếp vào sandbox nếu skill đó không thực sự cần đến. OpenClaw: Kết nối càng nhiều kênh thì bề mặt tấn công càng rộng. Điểm dễ bị bỏ qua nhất là xác thực người gửi, vì nếu Gateway chỉ tin vào tên hiển thị hoặc một kênh chưa được bảo vệ đúng cách, một tài khoản nhắn tin bị chiếm quyền là đủ để ai đó ra lệnh cho agent của bạn. Danh sách người được phép gửi lệnh và quyền của từng bot cần được xem xét lại mỗi khi bạn thêm một kênh mới. Claude Cowork: Rủi ro đáng lo nhất là prompt injection, tức khi agent đọc một tài liệu hoặc trang web có chứa chỉ dẫn ẩn nhằm khiến nó làm lệch yêu cầu ban đầu của bạn. Anthropic có cơ chế bảo vệ và yêu cầu xác nhận cho các hành động nhạy cảm, nhưng điều đó không thay thế được việc bạn tự kiểm tra kết quả và không cấp quyền rộng hơn mức công việc thực sự cần. Lưu ý: Với bất kỳ agent nào, đừng cấp quyền xóa tệp hay gửi tin nhắn ra ngoài hay thực hiện giao dịch nhạy cảm. Vậy hãy bắt đầu với chế độ chỉ đọc, bật ghi nhật ký đầy đủ và giữ quyền phê duyệt cho những hành động cần đến con người. Nên chọn Hermes Agent, OpenClaw hay Claude Cowork? Mội công cụ có một điểm mạnh điểm yếu riêng vì vậy muốn chọn được công cụ phù hợp nhất còn tùy thuộc vào người sử dụng và công việc cần sử dụng. Chọn Hermes Agent khi muốn agent ngày càng hiểu cách bạn làm việc Hermes phù hợp với nhà phát triển, người nghiên cứu hoặc nhóm kỹ thuật muốn agent học quy trình riêng và chạy trên hạ tầng linh hoạt. Nó đặc biệt đáng cân nhắc khi nhiệm vụ lặp lại đủ nhiều để skill tạo ra lợi ích tích lũy. Bạn cần sẵn sàng đọc log, kiểm tra skill và quản lý môi trường thực thi. Phù hợp nhất khi: Bạn muốn agent nhớ và cải thiện quy trình làm việc qua từng lần dùng. Bạn có thể tự quản lý sandbox, chọn model và kiểm soát quyền truy cập. Chọn OpenClaw khi công việc cần giao tiếp liên tục từ tin nhắn OpenClaw phù hợp khi trợ lý cần có mặt trên Telegram, WhatsApp, Slack, Zalo hoặc các kênh tương tự. Nó hữu ích cho cảnh báo, thu thập yêu cầu nhanh và tự động hóa có điểm bắt đầu từ hội thoại. Đổi lại, bạn phải quản lý danh tính, quyền kênh và độ ổn định của Gateway. Phù hợp nhất khi: Yêu cầu thường đến dưới dạng tin nhắn hoặc cảnh báo tự động. Bạn cần một điểm điều phối duy nhất cho nhiều kênh giao tiếp khác nhau. Chọn Claude Cowork khi cần kết quả nhanh mà không muốn dựng hệ thống Cowork phù hợp với người làm nội dung, phân tích hoặc quản lý cần tài liệu, bảng tính và slide hoàn chỉnh mà không muốn nghĩ đến server hay Gateway. Bù lại, bạn nên hiểu rõ giới hạn của gói đang dùng, dữ liệu đi qua đâu, kết nối nào đang được bật trước khi đưa công việc thật vào. Phù hợp nhất khi: Bạn muốn mô tả kết quả cần đạt bằng ngôn ngữ tự nhiên và nhận lại đầu ra hoàn chỉnh. Bạn ưu tiên sự tiện lợi của một dịch vụ được quản lý hơn là toàn quyền kiểm soát hạ tầng.

Nam•

14 thg 7, 2026

Đọc thêm