Quay lại trang tin tức

Claude Code tự điều phối công việc với Dynamic Workflows

Xuất bản vào 5 tháng 06, 2026
Claude Code tự điều phối công việc với Dynamic Workflows

Tóm tắt nhanh

Thariq Shihipar từ team Claude Code tại Anthropic vừa công bố Dynamic Workflows, tính năng cho phép Claude tự thiết kế quy trình làm việc thay vì chỉ chờ lệnh. Tính năng này giải quyết ba lỗi chí mạng của AI agent: lười biếng tác nhân (Agentic Laziness), thiên vị bản thân (Self-Preferential Bias) và trôi mục tiêu (Goal Drift). Thay vì tăng trí thông minh thô của model, Anthropic xây dựng ràng buộc kiến trúc vào quy trình, cho phép Claude viết harness JavaScript tùy chỉnh, cô lập ngữ cảnh cho sub-agent và áp dụng sáu mẫu điều phối có thể tái sử dụng. Bài viết thu hút hơn 22.000 bookmark trong 3 ngày.

Bài đăng của Thariq Shihipar từ team Claude Code đã gây chú ý lớn trong cộng đồng sử dụng AI. Anh ấy tiết lộ Dynamic Workflows, tính năng cho phép Claude tự thiết kế quy trình làm việc thay vì chỉ chờ lệnh, và đây được coi là bản nâng cấp quan trọng nhất kể từ khi Claude Code có skills và subagents. Tính năng này là khái niệm harness làm bản chất để giải thích các yêu cầu kĩ thuật.

Ba lỗi chí mạng nào khiến AI agent thất bại ở nhiệm vụ phức tạp

Trước khi nói về giải pháp, Thariq chỉ ra một thực tế khó chịu: hầu hết AI agent hiện nay đều gặp vấn đề nghiêm trọng khi xử lý nhiệm vụ phức tạp, đa bước trong một cửa sổ ngữ cảnh duy nhất. Ông phân loại chúng thành ba dạng thất bại cốt lõi mà gần như mọi hệ thống agent đều mắc phải.

Lười biếng tác nhân: khi AI tự tuyên bố xong dù mới làm nửa việc

Đây là hiện tượng Agentic Laziness, khi agent thực hiện một phần công việc rồi tự báo cáo là đã hoàn thành. Ví dụ cụ thể: bạn yêu cầu agent review 50 file code, nhưng nó chỉ xem qua 20 file rồi kết luận rằng mọi thứ ổn. Nguyên nhân nằm ở giới hạn cửa sổ ngữ cảnh, khi lượng thông tin quá lớn, agent có xu hướng đi tắt để hoàn thành nhanh hơn.

Agent sẽ tự thiên vị bản thân nó đúng không

Agent tự thiên thị nó gọi là Self-Preferential Bias, điều này xảy ra khi bạn yêu cầu agent kiểm tra lại kết quả của chính nó. Giống như nhờ một học sinh tự chấm bài thi, agent có xu hướng nghiêng về phía kết quả mà nó đã tạo ra, dẫn đến xác nhận thiếu phê phán và bỏ qua các lỗi tiềm ẩn. Điều này đặc biệt nguy hiểm trong các nhiệm vụ đòi hỏi độ chính xác cao.

Làm sao để agent không mất dần ý định ban đầu qua mỗi bước

Hiện tượng trôi mất mục tiêu (Goal Drift) là hiện tượng agent dần quên mục tiêu ban đầu sau nhiều bước xử lý hoặc sau quá trình nén ngữ cảnh (context compaction). Những ràng buộc cụ thể như "không làm X" hoặc các trường hợp quan trọng có thể bị loại bỏ khi bộ nhớ bị tóm tắt lại vì vậy kết quả cuối cùng lệch khỏi yêu cầu gốc mà agent không hề nhận ra.

Dynamic Workflows giúp Claude tự viết bộ khung điều phối công việc

Giải pháp của Anthropic không phải là làm model thông minh hơn, mà là thay đổi cách Claude tổ chức công việc. Dynamic Workflows biến Claude từ agent viết code thành agent thiết kế quy trình vận hành cho công việc phức tạp. Khái niệm cốt lõi ở đây là tự tổ chức (self-organization): Claude có thể tự phân tích mục tiêu, chọn chế độ làm việc phù hợp và tạo ra quy trình nội bộ trước khi bắt tay vào thực hiện.

Harness tùy chỉnh thay vì quy trình cố định

Thay vì hoạt động trong một môi trường cố định, Claude viết một bộ khung harness bằng JavaScript được thiết kế riêng cho từng nhiệm vụ. Harness này đóng vai trò như một quản lý dự án: nó chia nhỏ công việc, khởi tạo các sub-agent chuyên biệt cho từng phần, chỉ định công cụ phù hợp, định tuyến công việc đến các model khác nhau và thực hiện xác minh đối kháng (adversarial verification) để đảm bảo chất lượng.

Harness hoạt động như thế nào?

Để hiểu rõ hơn, hãy hình dung harness như một kịch bản sân khấu mà Claude tự soạn trước khi diễn. Khi nhận được một nhiệm vụ phức tạp, Claude không lao vào làm ngay mà dừng lại để viết một đoạn JavaScript mô tả toàn bộ quy trình: cần bao nhiêu sub-agent, mỗi agent làm gì, thứ tự thực hiện ra sao và kết quả từ agent này được chuyển cho agent kia như thế nào.

Ví dụ cụ thể: nếu bạn yêu cầu Claude audit 1.000 tin nhắn Slack để tìm sự cố lặp lại, harness có thể trông như thế này về mặt logic:

  • Agent 1 (phân loại): đọc toàn bộ tin nhắn và gán nhãn theo chủ đề
  • Agent 2, 3, 4 (xử lý song song): mỗi agent phân tích sâu một nhóm chủ đề riêng
  • Agent 5 (tổng hợp): gom kết quả từ ba agent trên, loại bỏ trùng lặp
  • Agent 6 (kiểm tra chéo): đọc lại kết quả tổng hợp và phản biện độc lập

Điểm quan trọng là Claude viết harness này dựa trên đặc điểm cụ thể của từng nhiệm vụ, không phải theo một khuôn mẫu cứng nhắc. Nhiệm vụ khác nhau sẽ cho ra harness khác nhau, và đó chính là lý do tính năng này được gọi là "dynamic".

Cô lập ngữ cảnh để ngăn sự suy thoái của ngữ cảnh

Một trong những thiết kế thông minh nhất của Dynamic Workflows là tính năng Isolation. Mỗi sub-agent được cấp cửa sổ ngữ cảnh riêng biệt, hoàn toàn độc lập với các agent khác. Điều này ngăn chặn hiện tượng suy thoái ngữ cảnh (context rot) tức sự suy giảm chất lượng khi ngữ cảnh bị quá tải, đồng thời triệt tiêu cả Agentic Laziness lẫn Goal Drift vì mỗi agent chỉ tập trung vào phần việc nhỏ được giao.

Sáu mẫu điều phối có thể tái sử dụng

Claude có thể kết hợp sáu mẫu điều phối sẵn có để xử lý đa dạng tình huống:

  • Phân loại và hành động: phân loại đầu vào rồi chọn hành động phù hợp
  • Phân chi và tổng hợp: chia công việc ra nhiều nhánh song song rồi tổng hợp kết quả
  • Kiểm tra chéo: dùng agent khác kiểm tra chéo kết quả
  • Tạo và lọc: tạo nhiều phương án rồi lọc ra phương án tốt nhất
  • Tạo ra giải đấu: cho các phương án "đấu đối khảng trực tiếp với nhau rồi loại dần
  • Vòng lặp: lặp lại cho đến khi đạt tiêu chuẩn chất lượng

Có thể tối ưu chi phí khi sử dụng Dynamic Workflows không

Chạy nhiều sub-agent song song nghe có vẻ tốn kém, nhưng thực tế Dynamic Workflows được thiết kế để tối ưu chi phí theo một số cách cụ thể.

Định tuyến thông minh đến model phù hợp

Không phải mọi bước trong quy trình đều cần model mạnh nhất. Harness cho phép Claude định tuyến từng tác vụ đến model phù hợp với độ phức tạp của nó: các bước phân loại đơn giản có thể chạy trên model nhỏ hơn và rẻ hơn, trong khi chỉ những bước đòi hỏi suy luận sâu mới cần đến model lớn. Kết quả là tổng chi phí thường thấp hơn so với việc chạy toàn bộ quy trình trên một model duy nhất.

Cô lập ngữ cảnh giúp giảm token tiêu thụ

Vì mỗi sub-agent chỉ nhận đúng phần ngữ cảnh cần thiết cho công việc của mình, tổng lượng token tiêu thụ trên toàn bộ quy trình thường thấp hơn đáng kể so với cách tiếp cận truyền thống, khi toàn bộ lịch sử hội thoại được nhồi vào một cửa sổ ngữ cảnh duy nhất ngày càng phình to.

Tránh làm lại công việc nhờ kiểm tra lại sớm

Harness có thể cài các điểm kiểm tra chất lượng (checkpoint) giữa các bước. Nếu một bước cho ra kết quả không đạt yêu cầu, hệ thống dừng và xử lý lại đúng bước đó thay vì chạy tiếp toàn bộ quy trình rồi mới phát hiện lỗi ở cuối. Cách này tiết kiệm đáng kể chi phí cho các tác vụ dài nhiều bước.

Ứng dụng thực tế của Dynamic Workflow như thế nào

Điều khiến Thariq hào hứng nhất không phải là khả năng code, mà là việc Dynamic Workflows mở rộng Claude Code sang các nhiệm vụ phi kỹ thuật. Tính năng này có thể kích hoạt bằng ngôn ngữ tự nhiên (ví dụ: "use a workflow") hoặc từ khóa "ultracode." Các ứng dụng thực tế bao gồm:

  • Audit hàng nghìn tin nhắn trên Slack để tìm sự cố lặp lại
  • Xếp hạng và sàng lọc bộ hồ sơ ứng viên lớn một cách có hệ thống
  • Chạy giải đấu loại trực tiếp tự động để chọn tên tốt nhất cho CLI tool
  • Xử lý các nhiệm vụ vận hành đòi hỏi độ chính xác cao mà trước đây chỉ con người mới làm được

Triết lý thiết kế là ràng buộc kiến trúc thay vì trí tuệ thô

Điểm đáng chú ý nhất trong cách tiếp cận của Anthropic là triết lý thiết kế: thay vì cố gắng tăng trí thông minh thô của model, họ xây dựng các ràng buộc kiến trúc (architectural constraints) vào quy trình làm việc. Nói cách khác, thay vì hy vọng model tự biết cách tránh lỗi, họ thiết kế hệ thống sao cho lỗi khó xảy ra ngay từ đầu, và harness chính là công cụ thực thi triết lý đó.

Dynamic Workflows cho thấy bước tiến tiếp theo của AI agent không nằm ở model thông minh hơn mà ở khả năng tự thiết kế quy trình. Giống cách một quản lý giỏi phân chia công việc cho đội ngũ thay vì tự làm tất cả, Claude giờ đây có thể tự tổ chức đội ngũ sub-agent của mình, và đây là tín hiệu rõ ràng rằng tương lai của AI coding không chỉ còn là viết code nhanh hơn mà là tổ chức công việc tốt hơn.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Claude Code, NotebookLM và Obsidian cho nghiên cứu thông minh hơn

Rất nhiều người vẫn nghiên cứu theo cách thủ công: mở hàng chục tab, xem video, đọc bài viết, ghi chú rời rạc rồi mất thêm thời gian tự tổng hợp. Bài viết long-form của monokern trên X gợi ý một cách làm khác: dùng Claude Code để điều phối, NotebookLM để phân tích nguồn và Obsidian để lưu trí nhớ dài hạn. Khi kết hợp đúng, đây không còn là một lần tìm kiếm thông tin mà trở thành một workflow AI có khả năng tích lũy qua từng phiên làm việc. Ý tưởng cốt lõi khá thực dụng: Claude Code không cần tự làm mọi thứ trong một context đắt đỏ. Nó có thể gọi công cụ, chạy skill, tạo file và chuyển phần xử lý nặng sang NotebookLM. Sau đó toàn bộ kết quả được lưu về Obsidian dưới dạng markdown để lần nghiên cứu tiếp theo có ngữ cảnh tốt hơn. Theo tác giả, phần thiết lập ban đầu có thể hoàn thành trong khoảng dưới 30 phút nếu máy đã có các công cụ cần thiết. Vì sao bộ ba này hoạt động tốt với nhau? Điểm mạnh của workflow này nằm ở việc mỗi công cụ chỉ đảm nhiệm một lớp rõ ràng. Claude Code đóng vai trò execution engine: nhận yêu cầu bằng ngôn ngữ tự nhiên, gọi skill, chạy lệnh, quản lý file và điều phối toàn bộ pipeline. Thay vì bắt người dùng thao tác từng bước, Claude Code trở thành người vận hành hệ thống. NotebookLM là lớp phân tích. Công cụ của Google có thể đọc nguồn, tóm tắt, tạo phân tích, flashcard, mindmap, infographic hoặc audio overview. Khi Claude Code đẩy phần đọc nguồn sang NotebookLM, người dùng tận dụng hạ tầng xử lý của Google thay vì đốt toàn bộ token Claude cho việc nghiền dữ liệu dài. Obsidian là lớp trí nhớ. Mọi kết quả sau khi phân tích được lưu thành markdown trong vault cá nhân. Qua thời gian, vault này trở thành kho tri thức có cấu trúc gồm chủ đề, nguồn, nhận định, pattern và kết luận. Claude Code có thể đọc lại các file đó để hiểu người dùng quan tâm điều gì, thích format nào và thường đánh giá vấn đề theo hướng nào. Skill Creator biến workflow thành công cụ tái sử dụng Phần quan trọng đầu tiên trong hướng dẫn là cài Skill Creator trong Claude Code. Đây là lớp cho phép người dùng mô tả một kỹ năng bằng ngôn ngữ tự nhiên, sau đó Claude Code tạo cấu trúc skill, cài đặt và biến nó thành lệnh có thể gọi lại. Nói cách khác, thay vì mỗi lần nghiên cứu lại prompt từ đầu, người dùng đóng gói thao tác thành một skill riêng. Ví dụ đầu tiên trong bài là tạo skill tìm kiếm YouTube. Skill này dùng yt-dlp để tìm video theo truy vấn, lấy metadata như tiêu đề, kênh, lượt xem, thời lượng, ngày đăng, URL và tỷ lệ view trên subscriber. Với nghiên cứu thị trường nội dung, dữ liệu này quan trọng hơn danh sách link thông thường vì nó cho biết nguồn nào đang thật sự thu hút sự chú ý. NotebookLM là nơi xử lý phần phân tích nặng Bài viết đề xuất kết nối Claude Code với NotebookLM thông qua dự án notebooklm-py vì NotebookLM chưa có public API chính thức. Sau khi cài và xác thực tài khoản Google, Claude Code có thể dùng skill riêng để tạo notebook mới, thêm nguồn như URL YouTube, văn bản hoặc file, rồi yêu cầu NotebookLM sinh phân tích hoặc deliverable. Điểm đáng chú ý là NotebookLM không chỉ tóm tắt. Trong một pipeline nghiên cứu thực tế, nó có thể nhận 10 video liên quan đến một chủ đề, phân tích xem framework nào đang tăng trưởng, framework nào bị thổi phồng, đâu là điểm tranh luận trong cộng đồng và khoảng trống nội dung nào chưa được ai khai thác tốt. Phần xử lý này tốn thời gian, nhưng chủ yếu diễn ra ở phía NotebookLM. Pipeline hoàn chỉnh: một lệnh để nghiên cứu cả chủ đề Khi đã có skill YouTube search và skill NotebookLM, bước tiếp theo là tạo một pipeline skill kết hợp cả hai. Người dùng chỉ cần đưa chủ đề, ví dụ nghiên cứu các AI agent framework trong năm 2026, rồi pipeline sẽ tự tìm nguồn liên quan, tạo notebook, thêm nguồn, chạy phân tích và trả kết quả thành markdown. Trong ví dụ của monokern, pipeline tìm 10 nguồn video, đẩy sang NotebookLM, tạo phân tích, sinh infographic và lưu lại kết quả vào Obsidian. Tổng thời gian xử lý được mô tả khoảng 6 phút, trong đó phần lớn là thời gian NotebookLM xử lý nguồn. Giá trị thực tế nằm ở việc người dùng không phải tự mở từng tab, copy từng link hay tự tổng hợp metadata. Kết quả cuối cùng không chỉ là một đoạn trả lời trong chat. Nó gồm phân tích đầy đủ, danh sách nguồn, chỉ số tương tác, nhận định về xu hướng, deliverable trực quan và file markdown được lưu vào vault. Đây là điểm khiến workflow này khác với một chatbot hỏi đáp thông thường. Obsidian khiến hệ thống thông minh hơn theo thời gian Phần thú vị nhất là Obsidian. Nếu chỉ chạy một lần, workflow này đã tiết kiệm thời gian. Nhưng nếu chạy đều đặn, mỗi file markdown mới sẽ làm kho tri thức cá nhân dày hơn. Sau một tháng, Claude Code có thể nhìn thấy các chủ đề bạn quay lại nhiều lần, loại insight bạn đánh giá cao và cách bạn muốn dữ liệu được trình bày. Tác giả cũng nhấn mạnh vai trò của file claude.md trong vault. Đây có thể trở thành nơi mô tả quy ước làm việc, phong cách phân tích và format đầu ra mong muốn. Sau mỗi vài phiên nghiên cứu, người dùng có thể yêu cầu Claude Code đọc lại kết quả gần đây và cập nhật file này để phản ánh cách làm việc mới. Điểm mạnh thật sự là cấu trúc, không phải YouTube YouTube chỉ là nguồn dữ liệu trong ví dụ. Cấu trúc pipeline mới là phần có giá trị. Người dùng có thể thay YouTube bằng PDF học thuật, báo cáo ngành, tài liệu public, trang web, file local, transcript hoặc tài liệu Google Drive. Miễn là Claude Code có cách truy cập và đưa nguồn vào lớp phân tích, template vận hành vẫn giữ nguyên. Điều này mở ra nhiều ứng dụng thực tế: nghiên cứu một hệ sinh thái crypto bằng whitepaper và tài liệu public, phân tích một công nghệ mới qua talk hội nghị, tìm khoảng trống nội dung trong một niche, hoặc theo dõi động lực thị trường từ báo cáo công khai. Với mỗi trường hợp, pipeline vẫn gồm ba lớp: lấy nguồn, phân tích, lưu tri thức. Cần lưu ý gì trước khi áp dụng? Workflow này mạnh nhưng không phải dành cho mọi người. Nó yêu cầu người dùng quen với Claude Code, có Obsidian vault, biết cài công cụ CLI như yt-dlp và chấp nhận dùng một thư viện không chính thức để kết nối NotebookLM. Ngoài ra, vì NotebookLM và YouTube có thể thay đổi giao diện hoặc hạn chế truy cập, các skill nên được xem như công cụ cần bảo trì chứ không phải giải pháp cài một lần mãi mãi. Dù vậy, ý tưởng đằng sau rất đáng chú ý: thay vì dùng AI như một hộp chat rời rạc, hãy biến AI thành một hệ thống nghiên cứu có bộ nhớ, có pipeline và có khả năng học từ lịch sử làm việc của chính bạn. Với những người thường xuyên phân tích thị trường, công nghệ hoặc nội dung, đây là một hướng triển khai thực dụng hơn rất nhiều so với việc mở 10 tab rồi tự tổng hợp mọi thứ bằng tay.

Nam
2 thg 6, 2026
HTML sẽ thay thế Markdown khi làm việc với AI ?

Markdown đã là chuẩn mặc định khi làm việc với AI suốt nhiều năm nhưng một kỹ sư đến từ Claude Code tại Anthropic vừa đặt ra câu hỏi đáng suy nghĩ: liệu thói quen đó có thực sự là lựa chọn tốt nhất? Bài viết ngắn của Thariq Shihipar thu hơn 15.000 lượt thích trên X chỉ trong vài ngày, và lý do thuyết phục hơn bạn nghĩ. Markdown ra đời từ thời AI còn nghèo token Nhìn lại thời GPT-4 với cửa sổ ngữ cảnh chỉ 8.192 token, Markdown là lựa chọn hoàn toàn hợp lý trong khi đó HTML cồng kềnh hơn, tốn tài nguyên hơn và trong bối cảnh hạn chế đó, sự tối giản của Markdown là một ưu điểm thực sự chỉ để tiết kiệm. Vì vậy Markdown trở thành chuẩn ngầm định, và thói quen đó theo chúng ta đến tận bây giờ.Ngay cả khi Anthropic tạo ra khái niệm Skill trên Claude họ cũng đã lấy Markdown làm tiêu chuẩn với file SKILL.md, những ai hay làm việc với skill chắc chắn hiểu rõ điều mặc định này. Tuy nhiên, các mô hình AI hiện tại đã vận hành ở quy mô hoàn toàn khác. Nhiều mô hình đang hỗ trợ cửa sổ ngữ cảnh từ 200.000 đến 1 triệu token, và chi phí xử lý không còn là rào cản đáng lo (theo lời của Thariq Shihipar) và anh ấy lập luận rằng đây chính là thời điểm để xem lại mặc định đó. HTML làm được gì mà Markdown không thể? Lý do cốt lõi Thariq đưa ra khá đơn giản: một số loại thông tin vốn có tính không gian nhưng Markdown buộc chúng phải trở thành văn bản tuyến tính. Khi bạn so sánh ba hướng tiếp cận kỹ thuật thì bạn cần nhìn chúng cạnh nhau, không phải đọc lần lượt rồi cố giữ trong đầu. Khi bạn xem lại một đoạn code bạn cần thấy cấu trúc thay đổi tất nhiên không phải một bức tường chữ. HTML giải quyết đúng vấn đề đó vì vậy Thariq đã liệt kê 9 nhóm tình huống cụ thể mà HTML vượt trội hơn Markdown: Khám phá và lên kế hoạch: So sánh nhiều hướng tiếp cận cạnh nhau thay vì đọc tuần tự, rồi chuyển thành kế hoạch triển khai có sơ đồ luồng và mốc thời gian. Xem lại mã nguồn và hiểu cấu trúc dự án: Phần thay đổi được chú thích trực tiếp bằng màu sắc theo mức độ nghiêm trọng, sơ đồ mô-đun dạng hộp và mũi tên — thay vì văn bản thuần túy. Thiết kế giao diện: Bảng màu hiển thị thực tế có thể sao chép ngay, các biến thể thành phần giao diện được dựng trực tiếp thay vì mô tả bằng chữ. Tạo nguyên mẫu nhanh: Bảng điều chỉnh hiệu ứng chuyển động có thanh kéo thông số, màn hình có thể nhấp thực sự, đây là thứ Markdown không thể biểu đạt. Sơ đồ và hình minh họa: Đồ họa véc-tơ nội tuyến cho phép vẽ lưu đồ thực sự, không phải ký tự ASCII ghép lại. Bộ trình chiếu: Vài thẻ <section> và 20 dòng mã JavaScript là một bộ slide điều hướng bằng phím mũi tên mà không cần phần mềm chuyên dụng hay bước xuất file. Nghiên cứu và học tập: Tài liệu có phần thu gọn, tab mã, bảng chú giải thuật ngữ — thay vì đổ toàn bộ nội dung theo một chiều dọc. Báo cáo định kỳ: Bản tóm tắt trạng thái hàng tuần với biểu đồ nhỏ và màu sắc phân biệt tiến độ khiến người đọc thực sự đọc, không chỉ lướt qua. Giao diện chỉnh sửa tùy chỉnh: Bảng phân loại nhiệm vụ kéo thả, trình chỉnh cờ tính năng có cảnh báo phụ thuộc đây là công cụ thực sự, không phải văn bản đọc rồi thôi. Thariq đã tập hợp 20 file minh họa tất cả các nhóm này tại thariqs.github.io/html-effectiveness mỗi file mở thẳng trên trình duyệt, không cần cài đặt gì thêm. Dùng HTML với AI như thế nào trong thực tế? Cách áp dụng không phức tạp mà chỉ cần thay đổi cách bạn viết prompt. Thay vì để mô hình tự chọn định dạng đầu ra, hãy chỉ định rõ HTML khi nội dung cần được xem xét, tương tác, hoặc chia sẻ với người khác. Ví dụ câu lệnh Thariq gợi ý để xem lại một đoạn mã: Giúp tôi xem xét PR này bằng cách tạo một tài liệu HTML mô tả nó. Tôi không quen lắm với logic streaming/backpressure nên hãy tập trung vào phần đó. Hiển thị diff thực tế với các chú thích lề nội tuyến, mã màu các phát hiện theo mức độ nghiêm trọng và bất cứ thứ gì khác cần thiết để diễn đạt khái niệm một cách rõ ràng. Tương tự, bạn có thể yêu cầu AI tạo kế hoạch triển khai dưới dạng HTML với mốc thời gian và sơ đồ luồng dữ liệu, hoặc bản báo cáo trạng thái hàng tuần với biểu đồ nhỏ và màu sắc phân biệt tiến độ. Simon Willison tác giả blog kỹ thuật nổi tiếng cũng đã thừa nhận bài viết này khiến ông nhìn lại thói quen dùng Markdown từ thời GPT-4 cho đến tận thời điểm hiện tại. Khi các mô hình AI hiện đại có thể nhúng đồ họa véc-tơ, tiện ích tương tác và điều hướng nội trang, Markdown không còn là lựa chọn mặc định hiển nhiên nữa. Markdown vẫn còn chỗ đứng tất nhiên không phải ở mọi nơi Thariq không nói luôn luôn sử dụng HTML mà anh ấy phân biệt khá rõ: Markdown phù hợp cho trò chuyện thông thường, đoạn mã ngắn, câu trả lời vài dòng, và bất cứ thứ gì thuần văn bản trong khi đó HTML phát huy sức mạnh khi đầu ra cần bố cục không gian, màu sắc, khả năng tương tác, hoặc cấu trúc phức tạp đó là khi nội dung đủ nhiều chiều để Markdown bắt đầu làm phẳng thông tin thay vì truyền tải nó. Cộng đồng đã phản ứng khá nhanh: một skil mang tên html-artifacts đã xuất hiện trên GitHub, giúp AI tự nhận biết khi nào nên tạo file HTML thay vì Markdown bao gồm 9 nhóm tình huống từ bài viết gốc của Thariq hoàn toàn có thể sử dụng với bất cứ model nào hỗ trợ đọc skill. Đặc biệt skill này phần loại trừ rõ ràng cho câu trả lời ngắn và đầu ra chỉ có mã code. Mọi người có thể tham khảo tại github.com/dogum/html-artifacts. Trong bài Thariq không nhắc đến JSON nhưng đây cũng là định dạng hay sử dụng với AI đặc biệt đối với những ai hay dùng n8n, Make hay Zapier. Mặc dù vậy mỗi định dạng mang đến một màu sắc riêng trong những tình huống riêng. Markdown, HTML và JSON phân chia sử dụng như thế nào Cuộc tranh luận thực ra không chỉ là Markdown hay HTML. JSON cũng là định dạng phổ biến khi làm việc với AI, đặc biệt trong các luồng xử lý dữ liệu và tích hợp hệ thống. Ba định dạng này phục vụ ba mục đích khác nhau, và hiểu rõ ranh giới đó giúp bạn chọn đúng công cụ cho từng tình huống. Markdown tốt nhất cho văn bản đọc trực tiếp trong chat: ghi chú, giải thích ngắn, đoạn mã, tài liệu đơn giản. Nhanh, nhẹ, không cần mở thêm gì. HTML tốt nhất khi đầu ra cần được nhìn, tương tác hoặc chia sẻ: báo cáo có bố cục, sơ đồ, bảng so sánh, bộ trình chiếu, giao diện tùy chỉnh. Mở bằng trình duyệt là xong. JSON tốt nhất khi đầu ra cần được máy đọc tiếp: lưu trữ dữ liệu có cấu trúc, truyền giữa các hệ thống, hoặc làm đầu vào cho bước xử lý tiếp theo. Con người đọc được nhưng không phải để đọc. Nói cách khác, JSON không cạnh tranh với HTML hay Markdown về mặt trình bày mà nó phục vụ một mục đích hoàn toàn khác. Vấn đề thực sự nằm ở chỗ nhiều người dùng AI mặc định nhận đầu ra dưới dạng Markdown ngay cả khi họ cần HTML để xem, hoặc cần JSON để xử lý tiếp. Chỉ cần chỉ định rõ trong câu lệnh, AI sẽ điều chỉnh theo. Quy tắc chọn nhanh: Đầu ra để đọc trong chat → Markdown. Đầu ra để xem trên trình duyệt → HTML. Đầu ra để máy xử lý tiếp → JSON. Điều này có làm thay đổi gì với người dùng AI thông thường? Nếu bạn dùng AI chủ yếu để hỏi đáp hoặc viết lách, thay đổi này ít tác động hơn. Nhưng nếu bạn đang dùng AI để làm nhiều việc hơn như phân tích dữ liệu, lên kế hoạch dự án, xem lại tài liệu, tổng hợp nghiên cứu, hay tạo báo cáo cho đồng nghiệp đây là điều chỉnh nhỏ trong cách prompt nhưng tạo ra khoảng cách rõ rệt về chất lượng đầu ra, dù bạn đang dùng công cụ AI nào. Bạn nên thử một lần: lần tới khi cần AI so sánh các lựa chọn hoặc tóm tắt một tài liệu phức tạp, thêm vào cuối câu lệnh "tạo dưới dạng file HTML ". Mở file đó trên trình duyệt và so sánh với cách bạn vẫn làm với Markdown hay JSON thì kết quả thường nói lên tất cả.

Nam
10 thg 5, 2026
Agent Harness là gì? Bộ khung giúp AI làm việc hiệu quả

Hãy tưởng tượng bạn có một trợ lý AI vô cùng thông minh nhưng lại rất nhanh quên và không tự kiểm tra được chất lượng công việc của mình. Để giải quyết vấn đề này, các nhà phát triển đã tạo ra một lớp bảo vệ và quản lý bao quanh mô hình AI mang tên agent harness. Đây chính là thứ giúp các trợ lý AI tự động hoàn thành những nhiệm vụ phức tạp mà không cần sự can thiệp liên tục từ con người. Agent harness là gì? Để dễ hình dung, hãy tưởng tượng mô hình AI giống như một nhân viên mới cực kỳ thông minh nhưng lại có trí nhớ rất ngắn hạn và hoàn toàn xa lạ với môi trường làm việc. Nhân viên này có thể giải quyết các bài toán phức tạp trong tích tắc nhưng lại dễ quên mình đang làm gì hoặc vô tình gửi nhầm tài liệu quan trọng cho khách hàng. Trong tình huống đó, agent harness đóng vai trò như một người quản lý giàu kinh nghiệm ngồi ngay bên cạnh để hướng dẫn và giám sát. Nói đơn giản hơn, agent harness là lớp phần mềm bao bọc bên ngoài mô hình AI, đảm nhận mọi công việc hành chính và hậu cần để AI chỉ cần tập trung vào việc suy nghĩ và đưa ra giải pháp. Lớp này kết nối AI với các công cụ bên ngoài, ghi chép lại toàn bộ lịch sử công việc qua nhiều ngày và kiểm tra chất lượng kết quả trước khi coi là xong. Về mặt thực tế, một agent harness thực hiện các nhiệm vụ sau: Kết nối mô hình AI với các công cụ bên ngoài như tìm kiếm web, hòm thư điện tử hay lịch làm việc Lưu trữ toàn bộ tiến trình công việc để AI không phải bắt đầu lại từ đầu ở phiên làm việc tiếp theo Lọc bớt thông tin dư thừa và chỉ cung cấp những dữ liệu cần thiết nhất cho AI tại mỗi bước Giám sát các hành động của AI nhằm ngăn chặn những sai sót nguy hiểm Ghi lại nhật ký hoạt động chi tiết để con người dễ dàng kiểm tra khi cần Nguồn gốc thuật ngữ: Khái niệm "agent harness" được chuyên gia công nghệ Mitchell Hashimoto chính thức đặt tên vào đầu năm 2026. Trước đó, nhiều nhóm phát triển đã xây dựng các hệ thống tương tự nhưng chưa có tên gọi chung cho lớp hạ tầng này. Vì sao AI hay thất bại khi làm việc dài hơi? Điểm yếu lớn nhất của các mô hình AI hiện nay là chúng hoàn toàn không có ký ức dài hạn. Khi bạn mở một cuộc trò chuyện mới, AI bắt đầu từ con số không và không nhớ bất kỳ thông tin nào từ các cuộc trò chuyện trước. Hãy tưởng tượng bạn thuê một nhân viên mà mỗi buổi sáng thức dậy đều quên sạch mọi thỏa thuận và tiến độ công việc từ hôm qua. Khi Anthropic thử nghiệm cho Claude xây dựng một ứng dụng web phức tạp mà không có harness hỗ trợ, kết quả rất đáng thất vọng. Hai lỗi liên tục xuất hiện: AI cố gắng làm tất cả cùng một lúc, bộ nhớ bị quá tải giữa chừng và bỏ dở dự án. Phiên tiếp theo lại tốn thời gian đoán xem đã làm được đến đâu. AI tự tuyên bố hoàn thành công việc mà không chạy thử xem kết quả có thực sự hoạt động hay không. Ngoài hai lỗi trên, việc thực hiện các dự án dài hạn còn khiến AI gặp thêm các vấn đề sau: Bộ nhớ làm việc bị tắc nghẽn: Hàng loạt thông tin phụ tích tụ theo thời gian khiến AI dần mất tập trung vào mục tiêu ban đầu Sử dụng công cụ sai cách: AI đôi khi tìm kiếm thông tin không tồn tại hoặc điền sai thông tin vào biểu mẫu, và nếu không có gì chặn lại sẽ lặp đi lặp lại cùng một lỗi Mất toàn bộ tiến trình khi gặp sự cố: Bất kỳ lỗi mạng hay sự cố hệ thống nào cũng xóa sạch những gì đang lưu trong bộ nhớ tạm Nghiên cứu của Stanford (2023): Các mô hình AI thường bỏ qua thông tin nằm ở giữa một văn bản dài, kể cả khi văn bản đó không quá dài. Đây là lý do vì sao việc nạp quá nhiều dữ liệu vào AI cùng lúc thường phản tác dụng nếu không có bộ lọc hỗ trợ. Agent harness hoạt động ra sao trong thực tế? Một agent harness hoạt động qua hai giai đoạn riêng biệt để đảm bảo công việc diễn ra liên tục và không bị gián đoạn. Giai đoạn chuẩn bị (chỉ diễn ra một lần) Harness thiết lập toàn bộ môi trường làm việc trước khi AI bắt đầu: lập danh sách các việc cần làm, chuẩn bị nơi lưu trữ dữ liệu và ghi lại điểm xuất phát. Giống như người quản lý lập kế hoạch chi tiết trước khi giao việc cho nhân viên, giai đoạn này chỉ cần thực hiện một lần duy nhất. Giai đoạn thực thi (lặp lại nhiều lần) Mỗi khi AI bắt đầu một phiên làm việc mới, harness tự động tải lại toàn bộ tiến độ đã lưu và chỉ giao đúng phần việc tiếp theo. Khi AI muốn thực hiện một hành động như tìm kiếm thông tin hay gửi thông báo, harness kiểm tra độ an toàn của yêu cầu đó trước khi thực hiện, làm sạch kết quả trả về rồi mới đưa lại cho AI xử lý tiếp. AI không bao giờ tương tác trực tiếp với hệ thống bên ngoài mà không qua lớp kiểm soát này. Bốn bộ phận quan trọng tạo nên một agent harness Để giúp AI hoạt động ổn định trong thời gian dài, một agent harness tiêu chuẩn cần có bốn thành phần cốt lõi: Cổng kết nối công cụ bên ngoài: Cho phép AI tương tác với thế giới thực như đọc tài liệu, tìm kiếm web hay gửi thông báo. Harness đóng vai trò trung gian, kiểm tra mỗi yêu cầu trước khi thực hiện và đảm bảo kết quả trả về sạch sẽ, dễ xử lý. Bộ quản lý ký ức nhiều tầng: Duy trì ba loại bộ nhớ phục vụ nhu cầu khác nhau gồm ký ức tạm thời trong phiên hiện tại, nhật ký công việc đang thực hiện và kho kiến thức tích lũy lâu dài qua nhiều dự án. Bộ lọc thông tin thông minh: Tóm tắt lịch sử hội thoại dài thành các ý chính và chỉ cung cấp đúng phần dữ liệu liên quan đến bước hiện tại thay vì nạp tất cả cùng lúc, giúp AI luôn tập trung vào đúng nhiệm vụ. Bộ kiểm tra an toàn và phê duyệt: Tự động xác nhận kết quả trước khi coi tác vụ là hoàn thành. Với các hành động nhạy cảm như xóa dữ liệu quan trọng hay gửi email hàng loạt, harness dừng lại và yêu cầu con người xác nhận trước khi tiếp tục. Lưu ý về dữ liệu tích lũy: Nếu kho ký ức của AI được lưu trữ hoàn toàn trên nền tảng đóng của bên thứ ba, bạn có nguy cơ mất toàn bộ kiến thức tích lũy khi muốn chuyển sang hệ thống khác. Đây là điều cần cân nhắc kỹ khi chọn giải pháp AI agent cho công việc lâu dài. Harness engineering và bí quyết tạo ra hàng triệu dòng code Harness engineering là cách tiếp cận xem mỗi thất bại của AI là một lỗi hệ thống cần khắc phục triệt để, không phải thứ cần thử lại hay bỏ qua. Theo Mitchell Hashimoto, nếu AI mắc lỗi, hãy thiết kế lại môi trường để về mặt vật lý nó không thể mắc lỗi đó nữa. Trong thực tế, khi OpenAI xây dựng các dự án phần mềm lớn với ba kỹ sư tạo ra 3,5 pull request mỗi người mỗi ngày mà không gõ một dòng code nào, họ đã thiết lập cơ chế kiểm tra tự động sau mỗi hành động của AI. Khi AI chạy sai, hệ thống trả về thông báo lỗi được viết theo cấu trúc đặc biệt để AI hiểu ngay mình cần sửa đổi gì ở bước tiếp theo. Mỗi thông báo lỗi trở thành ngữ cảnh học tập, không chỉ là cảnh báo. Một nghiên cứu tại hội thảo ICML năm 2025 cũng chứng minh rằng cùng một mô hình AI khi được trang bị harness luôn vượt trội so với chính nó khi chạy không có harness, kể cả khi không thay đổi gì về cách huấn luyện hay câu lệnh đầu vào. Điều này khẳng định môi trường xung quanh AI quan trọng không kém bản thân model. Góc nhìn thực tế: Claude Code của Anthropic hiện đã vượt 512.000 dòng lập trình và con số này tiếp tục tăng. Model ngày càng mạnh hơn không làm cho harness trở nên đơn giản hơn mà ngược lại, lớp hạ tầng này phát triển thêm để tận dụng tối đa những khả năng mới. Khi nào bạn thực sự cần đến agent harness? Với những việc đơn giản như tóm tắt một tài liệu hay trả lời câu hỏi cụ thể, dùng AI trực tiếp là đủ. Nhưng ngay khi công việc bắt đầu kéo dài hơn một cuộc trò chuyện, cần nhớ thông tin từ lần trước hoặc phải thực hiện nhiều bước theo thứ tự nhất định, đó là lúc harness trở nên cần thiết. Một điểm đáng để suy nghĩ: ngay cả tính năng tìm kiếm web tích hợp sẵn trong ChatGPT hay Gemini cũng chính là một dạng harness. Khi AI tự động tra cứu thông tin, có một lớp hạ tầng phía sau đang thực hiện lệnh gọi công cụ, xử lý kết quả và đưa thông tin sạch vào ngữ cảnh. Harness vô hình với người dùng nhưng không thể thiếu với hệ thống. Agent harness không phải xu hướng kỹ thuật ngắn hạn mà là giải pháp cho những giới hạn cốt lõi của AI: không có ký ức dài hạn, bộ nhớ làm việc có giới hạn và dễ mắc lỗi khi dùng công cụ bên ngoài. 4aivn cũng bất đầu áp dụng Harness vào trong công việc bên mình điều này không chỉ giúp AI hoàn thành tác vụ mà còn biến AI thành hệ thống có thể học từ thất bại và cải thiện theo thời gian.

Nam
1 thg 6, 2026
Claude Opus 4.8 ra mắt: model mạnh nhất của Anthropic có gì mới?

Anthropic vừa giới thiệu Claude Opus 4.8, phiên bản được hãng mô tả là model tổng quát mạnh nhất đang phát hành rộng rãi của mình. Bản nâng cấp này không chỉ tăng sức mạnh suy luận cho các tác vụ phức tạp, mà còn bổ sung nhiều thay đổi quan trọng cho nhà phát triển đang xây dựng tác nhân AI , hệ thống coding agent và workflow tự động hóa dài hơi. Điểm đáng chú ý là Claude Opus 4.8 không phải một bản đổi tên đơn thuần từ Opus 4.7 . Anthropic tập trung vào ba hướng chính: xử lý ngữ cảnh dài ổn định hơn, gọi công cụ đáng tin cậy hơn và kiểm soát chi phí tốt hơn trong các vòng lặp agent. Với model ID claude-opus-4-8, phiên bản này đã sẵn sàng cho Claude API và các nền tảng đám mây được hỗ trợ. Claude Opus 4.8 là gì? Claude Opus 4.8 hướng đến các tác vụ đòi hỏi suy luận nhiều bước, lập trình agentic trong thời gian dài và công việc có mức tự chủ cao. Theo tài liệu của Anthropic, model này hỗ trợ cửa sổ ngữ cảnh 1 triệu token mặc định trên Claude API, Amazon Bedrock và Google Vertex AI; riêng Microsoft Foundry hỗ trợ 200.000 token. Model cũng hỗ trợ output tối đa 128.000 token, adaptive thinking và các công cụ nền tảng tương tự Claude Opus 4.7. Điều này giúp nhóm đã dùng Opus 4.7 có thể nâng cấp tương đối nhẹ nhàng, nhưng vẫn cần kiểm tra một số thay đổi hành vi và ràng buộc API để tránh lỗi khi triển khai production. Những tính năng mới nổi bật Claude Opus 4.8 mang đến một số cập nhật trực tiếp tác động đến cách thiết kế prompt, quản lý hội thoại dài và tối ưu chi phí khi dùng API. Đây là những thay đổi rất đáng chú ý nếu bạn đang vận hành chatbot chuyên sâu, coding assistant hoặc agent nhiều bước. System messages giữa hội thoại Một điểm mới quan trọng là Claude Opus 4.8 cho phép thêm message có role: "system" ngay sau lượt người dùng trong mảng messages, miễn là tuân thủ quy tắc đặt message của Anthropic. Thay đổi này giúp developer cập nhật chỉ dẫn ở giữa một cuộc hội thoại dài mà không phải gửi lại toàn bộ system prompt ban đầu. Trong thực tế, đây là lợi thế lớn cho các agent phải chạy nhiều vòng. Thay vì làm mất hiệu quả prompt cache vì lặp lại phần chỉ dẫn dài, ứng dụng có thể bổ sung hướng dẫn mới đúng thời điểm, giữ lại cache cho phần hội thoại trước đó và giảm chi phí input trong các luồng xử lý kéo dài. Fast mode cho Claude API Anthropic cũng đưa fast mode vào Claude Opus 4.8 dưới dạng research preview trên Claude API. Khi đặt speed: "fast", người dùng có thể nhận tốc độ sinh output token cao hơn, với mức tăng được Anthropic mô tả là lên đến 2,5 lần trong điều kiện hỗ trợ. Fast mode sẽ đặc biệt hữu ích với các sản phẩm cần phản hồi nhanh nhưng vẫn muốn dùng cùng một model Opus mạnh. Tuy nhiên, tài liệu cũng lưu ý chế độ này đi kèm mức giá premium, vì vậy các đội kỹ thuật nên dùng có chọn lọc cho những luồng có giá trị cao hoặc yêu cầu độ trễ thấp. Prompt caching dễ dùng hơn Với Claude Opus 4.8, ngưỡng tối thiểu để một prompt có thể cache giảm xuống 1.024 token. Đây là thay đổi nhỏ nhưng có tác động thực tế lớn, vì nhiều prompt trước đây chưa đủ dài để tạo cache entry trên Opus 4.7 nay có thể được cache mà không cần sửa code. Đối với sản phẩm có system prompt ổn định, tài liệu nội bộ dài hoặc nhiều lượt gọi API lặp lại, prompt caching có thể giúp giảm chi phí đáng kể. Khi kết hợp với system messages giữa hội thoại, Claude Opus 4.8 trở nên phù hợp hơn cho các agent phải duy trì trạng thái qua nhiều bước xử lý. Refusal stop details được tài liệu hóa Anthropic cũng công khai tài liệu về đối tượng stop_details trong phản hồi từ chối. Khi model không thể hoàn thành một yêu cầu, ứng dụng không chỉ nhận stop reason dạng refusal, mà còn có thêm thông tin phân loại để hiểu vì sao yêu cầu bị từ chối. Điều này giúp sản phẩm xử lý UX tốt hơn. Ví dụ, thay vì hiển thị một thông báo lỗi chung chung, ứng dụng có thể phân biệt các nhóm từ chối khác nhau và hướng người dùng sang bước tiếp theo phù hợp hơn. Các ràng buộc API cần lưu ý Dù Anthropic nói các ràng buộc này kế thừa từ Claude Opus 4.7 và không phải breaking change với code đã chạy ổn trên bản trước, developer vẫn nên kiểm tra kỹ. Trên Messages API, Claude Opus 4.8 không hỗ trợ đặt temperature, top_p hoặc top_k sang giá trị không mặc định. Nếu truyền các tham số sampling này, API sẽ trả lỗi 400. Một điểm khác là adaptive thinking là chế độ thinking duy nhất được hỗ trợ. Cách cấu hình kiểu cũ với ngân sách thinking token cố định không còn phù hợp cho Opus 4.8. Thay vào đó, Anthropic khuyến nghị dùng thinking: {"type": "adaptive"} và điều chỉnh độ sâu suy luận bằng tham số effort. Trên Claude Opus 4.8, effort mặc định là high trên mọi bề mặt, bao gồm Claude API và Claude Code. Nếu ứng dụng đã đặt effort rõ ràng, cấu hình hiện tại vẫn được giữ nguyên; nếu chưa đặt, hành vi mặc định có thể khác so với kỳ vọng trước đây và cần được kiểm thử lại. Ý nghĩa với coding agent và workflow dài hơi Anthropic cho biết Claude Opus 4.8 nhắm đến các cải tiến trong coding agent dài hơi, bao gồm xử lý long-context tốt hơn, ít phải compaction hơn và phục hồi sau compaction ổn định hơn. Đây là nhóm tác vụ mà các model lớn thường gặp khó: sau nhiều bước đọc file, sửa code, chạy test và tóm tắt trạng thái, agent dễ mất trọng tâm hoặc bỏ qua chi tiết quan trọng. Model mới cũng được tối ưu để kích hoạt công cụ đúng lúc hơn. Với các hệ thống cần gọi search, database, terminal, browser hoặc API nội bộ, việc model ít bỏ sót tool call có thể tạo khác biệt lớn về độ tin cậy. Đây là điểm quan trọng hơn cả benchmark đơn lẻ, vì chất lượng agent trong môi trường thực tế phụ thuộc rất nhiều vào khả năng biết khi nào cần dùng công cụ. Có nên nâng cấp lên Claude Opus 4.8? Nếu bạn đang dùng Claude Opus 4.7 cho tác vụ suy luận phức tạp, lập trình hoặc agent tự động, Opus 4.8 là bản nâng cấp đáng thử sớm. Các thay đổi như context 1 triệu token, prompt cache minimum thấp hơn và system messages giữa hội thoại đều hướng đến bài toán vận hành thực tế, không chỉ cải thiện chất lượng trả lời trong các prompt ngắn. Tuy vậy, đội kỹ thuật không nên nâng cấp mù quáng. Hãy rà lại các tham số sampling, cấu hình thinking, kỳ vọng về effort mặc định và chi phí nếu muốn dùng fast mode. Với các sản phẩm đang xử lý dữ liệu nhạy cảm hoặc workflow quan trọng, nên chạy A/B test trên một nhóm tác vụ đại diện trước khi chuyển toàn bộ traffic sang Claude Opus 4.8. Kết luận Claude Opus 4.8 cho thấy Anthropic đang tập trung mạnh vào thị trường agent và developer. Các cải tiến lần này không chỉ nằm ở khả năng suy luận, mà còn ở những chi tiết vận hành như cache, system message giữa hội thoại, tốc độ output và phân loại refusal. Với những ai xây dựng sản phẩm AI nghiêm túc, đây là một bản phát hành đáng theo dõi vì nó giải quyết nhiều vấn đề rất thực tế trong triển khai ứng dụng AI dài hạn.

Nam
29 thg 5, 2026