Nam
Tác giả chuyên sâu về mảng công cụ AI, luôn cập nhật những xu hướng và công nghệ AI mới nhất từ thị trường.
Tất cả bài viết của Nam

Markdown đã là chuẩn mặc định khi làm việc với AI suốt nhiều năm nhưng một kỹ sư đến từ Claude Code tại Anthropic vừa đặt ra câu hỏi đáng suy nghĩ: liệu thói quen đó có thực sự là lựa chọn tốt nhất? Bài viết ngắn của Thariq Shihipar thu hơn 15.000 lượt thích trên X chỉ trong vài ngày, và lý do thuyết phục hơn bạn nghĩ. Markdown ra đời từ thời AI còn nghèo token Nhìn lại thời GPT-4 với cửa sổ ngữ cảnh chỉ 8.192 token, Markdown là lựa chọn hoàn toàn hợp lý trong khi đó HTML cồng kềnh hơn, tốn tài nguyên hơn và trong bối cảnh hạn chế đó, sự tối giản của Markdown là một ưu điểm thực sự chỉ để tiết kiệm. Vì vậy Markdown trở thành chuẩn ngầm định, và thói quen đó theo chúng ta đến tận bây giờ.Ngay cả khi Anthropic tạo ra khái niệm Skill trên Claude họ cũng đã lấy Markdown làm tiêu chuẩn với file SKILL.md, những ai hay làm việc với skill chắc chắn hiểu rõ điều mặc định này. Tuy nhiên, các mô hình AI hiện tại đã vận hành ở quy mô hoàn toàn khác. Nhiều mô hình đang hỗ trợ cửa sổ ngữ cảnh từ 200.000 đến 1 triệu token, và chi phí xử lý không còn là rào cản đáng lo (theo lời của Thariq Shihipar) và anh ấy lập luận rằng đây chính là thời điểm để xem lại mặc định đó. HTML làm được gì mà Markdown không thể? Lý do cốt lõi Thariq đưa ra khá đơn giản: một số loại thông tin vốn có tính không gian nhưng Markdown buộc chúng phải trở thành văn bản tuyến tính. Khi bạn so sánh ba hướng tiếp cận kỹ thuật thì bạn cần nhìn chúng cạnh nhau, không phải đọc lần lượt rồi cố giữ trong đầu. Khi bạn xem lại một đoạn code bạn cần thấy cấu trúc thay đổi tất nhiên không phải một bức tường chữ. HTML giải quyết đúng vấn đề đó vì vậy Thariq đã liệt kê 9 nhóm tình huống cụ thể mà HTML vượt trội hơn Markdown: Khám phá và lên kế hoạch: So sánh nhiều hướng tiếp cận cạnh nhau thay vì đọc tuần tự, rồi chuyển thành kế hoạch triển khai có sơ đồ luồng và mốc thời gian. Xem lại mã nguồn và hiểu cấu trúc dự án: Phần thay đổi được chú thích trực tiếp bằng màu sắc theo mức độ nghiêm trọng, sơ đồ mô-đun dạng hộp và mũi tên — thay vì văn bản thuần túy. Thiết kế giao diện: Bảng màu hiển thị thực tế có thể sao chép ngay, các biến thể thành phần giao diện được dựng trực tiếp thay vì mô tả bằng chữ. Tạo nguyên mẫu nhanh: Bảng điều chỉnh hiệu ứng chuyển động có thanh kéo thông số, màn hình có thể nhấp thực sự, đây là thứ Markdown không thể biểu đạt. Sơ đồ và hình minh họa: Đồ họa véc-tơ nội tuyến cho phép vẽ lưu đồ thực sự, không phải ký tự ASCII ghép lại. Bộ trình chiếu: Vài thẻ <section> và 20 dòng mã JavaScript là một bộ slide điều hướng bằng phím mũi tên mà không cần phần mềm chuyên dụng hay bước xuất file. Nghiên cứu và học tập: Tài liệu có phần thu gọn, tab mã, bảng chú giải thuật ngữ — thay vì đổ toàn bộ nội dung theo một chiều dọc. Báo cáo định kỳ: Bản tóm tắt trạng thái hàng tuần với biểu đồ nhỏ và màu sắc phân biệt tiến độ khiến người đọc thực sự đọc, không chỉ lướt qua. Giao diện chỉnh sửa tùy chỉnh: Bảng phân loại nhiệm vụ kéo thả, trình chỉnh cờ tính năng có cảnh báo phụ thuộc đây là công cụ thực sự, không phải văn bản đọc rồi thôi. Thariq đã tập hợp 20 file minh họa tất cả các nhóm này tại thariqs.github.io/html-effectiveness mỗi file mở thẳng trên trình duyệt, không cần cài đặt gì thêm. Dùng HTML với AI như thế nào trong thực tế? Cách áp dụng không phức tạp mà chỉ cần thay đổi cách bạn viết prompt. Thay vì để mô hình tự chọn định dạng đầu ra, hãy chỉ định rõ HTML khi nội dung cần được xem xét, tương tác, hoặc chia sẻ với người khác. Ví dụ câu lệnh Thariq gợi ý để xem lại một đoạn mã: Giúp tôi xem xét PR này bằng cách tạo một tài liệu HTML mô tả nó. Tôi không quen lắm với logic streaming/backpressure nên hãy tập trung vào phần đó. Hiển thị diff thực tế với các chú thích lề nội tuyến, mã màu các phát hiện theo mức độ nghiêm trọng và bất cứ thứ gì khác cần thiết để diễn đạt khái niệm một cách rõ ràng. Tương tự, bạn có thể yêu cầu AI tạo kế hoạch triển khai dưới dạng HTML với mốc thời gian và sơ đồ luồng dữ liệu, hoặc bản báo cáo trạng thái hàng tuần với biểu đồ nhỏ và màu sắc phân biệt tiến độ. Simon Willison tác giả blog kỹ thuật nổi tiếng cũng đã thừa nhận bài viết này khiến ông nhìn lại thói quen dùng Markdown từ thời GPT-4 cho đến tận thời điểm hiện tại. Khi các mô hình AI hiện đại có thể nhúng đồ họa véc-tơ, tiện ích tương tác và điều hướng nội trang, Markdown không còn là lựa chọn mặc định hiển nhiên nữa. Markdown vẫn còn chỗ đứng tất nhiên không phải ở mọi nơi Thariq không nói luôn luôn sử dụng HTML mà anh ấy phân biệt khá rõ: Markdown phù hợp cho trò chuyện thông thường, đoạn mã ngắn, câu trả lời vài dòng, và bất cứ thứ gì thuần văn bản trong khi đó HTML phát huy sức mạnh khi đầu ra cần bố cục không gian, màu sắc, khả năng tương tác, hoặc cấu trúc phức tạp đó là khi nội dung đủ nhiều chiều để Markdown bắt đầu làm phẳng thông tin thay vì truyền tải nó. Cộng đồng đã phản ứng khá nhanh: một skil mang tên html-artifacts đã xuất hiện trên GitHub, giúp AI tự nhận biết khi nào nên tạo file HTML thay vì Markdown bao gồm 9 nhóm tình huống từ bài viết gốc của Thariq hoàn toàn có thể sử dụng với bất cứ model nào hỗ trợ đọc skill. Đặc biệt skill này phần loại trừ rõ ràng cho câu trả lời ngắn và đầu ra chỉ có mã code. Mọi người có thể tham khảo tại github.com/dogum/html-artifacts. Trong bài Thariq không nhắc đến JSON nhưng đây cũng là định dạng hay sử dụng với AI đặc biệt đối với những ai hay dùng n8n, Make hay Zapier. Mặc dù vậy mỗi định dạng mang đến một màu sắc riêng trong những tình huống riêng. Markdown, HTML và JSON phân chia sử dụng như thế nào Cuộc tranh luận thực ra không chỉ là Markdown hay HTML. JSON cũng là định dạng phổ biến khi làm việc với AI, đặc biệt trong các luồng xử lý dữ liệu và tích hợp hệ thống. Ba định dạng này phục vụ ba mục đích khác nhau, và hiểu rõ ranh giới đó giúp bạn chọn đúng công cụ cho từng tình huống. Markdown tốt nhất cho văn bản đọc trực tiếp trong chat: ghi chú, giải thích ngắn, đoạn mã, tài liệu đơn giản. Nhanh, nhẹ, không cần mở thêm gì. HTML tốt nhất khi đầu ra cần được nhìn, tương tác hoặc chia sẻ: báo cáo có bố cục, sơ đồ, bảng so sánh, bộ trình chiếu, giao diện tùy chỉnh. Mở bằng trình duyệt là xong. JSON tốt nhất khi đầu ra cần được máy đọc tiếp: lưu trữ dữ liệu có cấu trúc, truyền giữa các hệ thống, hoặc làm đầu vào cho bước xử lý tiếp theo. Con người đọc được nhưng không phải để đọc. Nói cách khác, JSON không cạnh tranh với HTML hay Markdown về mặt trình bày mà nó phục vụ một mục đích hoàn toàn khác. Vấn đề thực sự nằm ở chỗ nhiều người dùng AI mặc định nhận đầu ra dưới dạng Markdown ngay cả khi họ cần HTML để xem, hoặc cần JSON để xử lý tiếp. Chỉ cần chỉ định rõ trong câu lệnh, AI sẽ điều chỉnh theo. Quy tắc chọn nhanh: Đầu ra để đọc trong chat → Markdown. Đầu ra để xem trên trình duyệt → HTML. Đầu ra để máy xử lý tiếp → JSON. Điều này có làm thay đổi gì với người dùng AI thông thường? Nếu bạn dùng AI chủ yếu để hỏi đáp hoặc viết lách, thay đổi này ít tác động hơn. Nhưng nếu bạn đang dùng AI để làm nhiều việc hơn như phân tích dữ liệu, lên kế hoạch dự án, xem lại tài liệu, tổng hợp nghiên cứu, hay tạo báo cáo cho đồng nghiệp đây là điều chỉnh nhỏ trong cách prompt nhưng tạo ra khoảng cách rõ rệt về chất lượng đầu ra, dù bạn đang dùng công cụ AI nào. Bạn nên thử một lần: lần tới khi cần AI so sánh các lựa chọn hoặc tóm tắt một tài liệu phức tạp, thêm vào cuối câu lệnh "tạo dưới dạng file HTML ". Mở file đó trên trình duyệt và so sánh với cách bạn vẫn làm với Markdown hay JSON thì kết quả thường nói lên tất cả.

Anthropic vừa công bố hợp tác với SpaceX để tiếp cận hơn 220.000 GPU NVIDIA và ngay lập tức dùng năng lực điện toán mới này để tăng giới hạn sử dụng cho Claude Code lẫn API. Đây là những gì thay đổi và tại sao điều đó quan trọng với người dùng. Tại sao Anthropic lại hợp tác với SpaceX? Trong vài tháng gần đây, Anthropic liên tục ký kết các thỏa thuận điện toán quy mô lớn với Amazon, Google, Microsoft và NVIDIA. Lần này, hãng tiếp tục bổ sung thêm một tên tuổi không ai ngờ tới là SpaceX. Theo thông báo ngày 6/5, Anthropic đã ký thỏa thuận sử dụng toàn bộ năng lực tính toán tại trung tâm dữ liệu Colossus 1 của SpaceX tương đương với hơn 300 megawatt công suất và hơn 220.000 GPU NVIDIA. Toàn bộ năng lực này sẽ được đưa vào sử dụng trong vòng một tháng và sẽ cải thiện trực tiếp trải nghiệm cho người dùng Claude Pro và Claude Max. Colossus 1 là trung tâm dữ liệu AI của SpaceX, hiện là một trong những cụm GPU lớn nhất thế giới. Anthropic là đơn vị thuê toàn bộ năng lực tại đây. Những thay đổi cụ thể về giới hạn sử dụng Nhờ nguồn điện toán mới, Anthropic đã thực hiện ba thay đổi có hiệu lực ngay từ ngày công bố Tăng gấp đôi giới hạn Claude Code theo giờ Giới hạn tốc độ 5 giờ của Claude Code được nhân đôi cho các gói Pro, Max, Team và Enterprise. Nếu trước đây bạn chỉ sử dụng được 10 lệnh chạy Claude Code phức tạp nay được nhân đôi lên thành 20 lần, thay đổi này sẽ giúp ích đáng kể. Tuy nhiên lưu ý là quan trọng là giới hạn tuần (week limit) vẫn giữ nguyên không thay đổi gì cho nên việc tăng giới hạn 5 giờ giúp bạn làm việc cường độ cao hơn trong thời gian ngắn, nhưng có thể khiến bạn chạm mức trần của tuần nhanh hơn. Bỏ giới hạn giờ cao điểm Trước đây, Claude Code tự động giảm giới hạn sử dụng trong khung giờ cao điểm (thường từ 9h sáng đến 3h chiều) đối với tài khoản Pro và Max. Giới hạn này đã được xóa bỏ hoàn toàn vì vậy người dùng giờ đây có thể sử dụng Claude Code với tốc độ đầy đủ bất kể thời điểm trong ngày. Với người dùng thường làm việc vào buổi tối (trùng với giờ bên Mỹ) đây là thay đổi có khả năng có tác động rõ rệt nhất. Tăng mạnh giới hạn API cho các mô hình Claude Opus Giới hạn tốc độ API (rate limit) cho các mô hình Claude Opus được nâng lên đáng kể . Chi tiết mức tăng bằng lần được Anthropic công bố trong bảng sau đây: Thay đổi này đặc biệt quan trọng với các nhà phát triển đang xây dựng ứng dụng trên nền tảng Claude Code Toàn cảnh chiến lược điện toán của Anthropic Thỏa thuận với SpaceX không phải động thái đơn lẻ. Trong vài tháng gần đây, Anthropic đã xây dựng một danh mục đầu tư hạ tầng rất đáng chú ý: Thỏa thuận lên tới 5 gigawatt với Amazon, trong đó gần 1 GW sẽ hoạt động trước cuối 2026 Thỏa thuận 5 GW với Google và Broadcom, dự kiến đưa vào vận hành từ 2027 Quan hệ đối tác chiến lược với Microsoft và NVIDIA, bao gồm 30 tỷ USD năng lực Azure Đầu tư 50 tỷ USD vào hạ tầng AI tại Mỹ cùng Fluidstack Và nay, hơn 300 megawatt từ trung tâm Colossus 1 của SpaceX Anthropic chạy Claude trên nhiều nền tảng phần cứng khác nhau — AWS Trainium, Google TPU và GPU NVIDIA — và cho biết vẫn đang tiếp tục tìm kiếm thêm các nguồn năng lực tính toán mới. Đáng chú ý, trong khuôn khổ thỏa thuận với SpaceX, hai bên cũng bày tỏ quan tâm đến việc phát triển năng lực điện toán AI trên quỹ đạo tức là đặt GPU trên vệ tinh. Đây vẫn là ý tưởng ở giai đoạn rất sớm, nhưng nếu thành hiện thực sẽ là bước ngoặt lớn cho hạ tầng AI toàn cầu. Mở rộng ra thị trường quốc tế Một phần năng lực điện toán mở rộng sẽ được dùng để phục vụ khách hàng doanh nghiệp quốc tế đặc biệt trong các lĩnh vực yêu cầu lưu trữ dữ liệu nội địa như tài chính, y tế và chính phủ. Thỏa thuận với Amazon bao gồm cả năng lực suy luận bổ sung tại châu Á và châu Âu. Anthropic cũng nhấn mạnh rằng họ chỉ mở rộng sang các quốc gia có khung pháp lý dân chủ và chuỗi cung ứng phần cứng an toàn cho thấy một lập trường thể hiện sự thận trọng trong bối cảnh cạnh tranh địa chính trị về AI đang ngày càng gay gắt. Điều này có ý nghĩa gì với người dùng Claude tại Việt Nam? Ở góc độ thực tế, ba thay đổi về giới hạn sử dụng mang lại lợi ích trực tiếp nhất cho những ai đang dùng Claude Code hàng ngày — đặc biệt là lập trình viên và người làm việc liên tục với Claude Code.Việc xóa giới hạn giờ cao điểm cũng có nghĩa là trải nghiệm của người dùng tại Việt Nam (vốn trùng múi giờ với giai đoạn tải nặng tại Mỹ) sẽ ổn định hơn. Về dài hạn, năng lực điện toán lớn hơn thường đồng nghĩa với khả năng triển khai các mô hình mạnh hơn, với chi phí thấp hơn. Đây là nền tảng để Anthropic tiếp tục cạnh tranh với OpenAI và Google trong cuộc đua AI 2026. Anthropic luôn luôn phát triển Anthropic đang đầu tư nghiêm túc vào hạ tầng và hợp tác với SpaceX là bước đi mới nhất trong chiến lược đó. Kết quả gần nhất mà người dùng có thể cảm nhận ngay là Claude Code ít bị giới hạn hơn và tốc độ API chắc chắn sẽ cải thiện. Còn về lâu dài, cuộc chạy đua điện toán giữa các công ty AI lớn hứa hẹn sẽ còn nhiều diễn biến thú vị trong năm 2026.

Anthropic đã ra mắt Claude vào Excel, PowerPoint, Word trước đó và rồi còn mở public beta cho Outlook. Nếu bạn đang theo dõi lịch sử phát hành của Anthropic trong vài tháng gần đây, câu hỏi không còn là họ sẽ ra tính năng gì tiếp theo mà là có phần mềm nào họ chưa nhảy vào không? Claude giờ đã phổ biến trong toàn bộ ứng dụng văn phòng của Microsoft rồi Kể từ nay, tất cả người dùng có gói trả phí đều có thể cài Claude vào bộ ứng dụng văn phòng của Microsoft. Claude for Excel, PowerPoint và Word đã ra mắt từ lâu trong khi Claude for Outlook bước vào giai đoạn thử nghiệm công khai cho toàn bộ các gói trả phí. Điểm khác biệt lớn nhất so với các trợ lý AI văn phòng khác nằm ở chỗ Claude không hoạt động như một chatbot bị nhốt trong từng ứng dụng riêng lẻ. Thay vào đó, ngữ cảnh cuộc hội thoại được duy trì xuyên suốt khi bạn di chuyển giữa các ứng dụng từ Outlook sang Word, rồi Excel, rồi PowerPoint mà không cần giải thích lại từ đầu. Claude for Microsoft 365 có thể cài đặt qua Microsoft AppSource. Một gói duy nhất bao gồm Excel, PowerPoint và Word tuy nhiên có một gói riêng dành cho Outlook. Người dùng có thể triển khai tập trung từ trung tâm quản lý của Microsoft. [VIDEO: F6dzjaBCBtU |Claude for Microsoft 365 (Anthropic)|Claude for Microsoft 365(Anthropic)] Từng ứng dụng làm được gì với Claude? Excel thì đã qua thời chỉ giải thích công thức Claude for Excel đọc được bảng tính nhiều trang, giải thích công thức kèm tham chiếu theo từng ô, xây dựng mô hình tài chính với công thức thực tế và cập nhật các giả định mà không làm vỡ cấu trúc phụ thuộc. Mọi thay đổi đều được theo dõi và hiển thị rõ ràng người dùng luôn biết Claude đã sử dụng ô nào. PowerPoint làm việc trực tiếp trong slide của bạn Đây là điểm đáng chú ý nhất: Claude for PowerPoint đọc cấu trúc slide gốc, nhận diện phông chữ, màu sắc và bố cục hiện có, rồi tạo nội dung mới theo đúng phong cách đó. Biểu đồ tạo ra là biểu đồ PowerPoint gốc có thể chỉnh sửa hoàn toàn, không phải ảnh chụp từ nơi khác dán vào. Word chỉnh sửa có theo dõi và phản hồi bình luận Claude for Word hoạt động theo cách các biên tập viên sẽ thích: mọi chỉnh sửa đều xuất hiện dưới dạng thay đổi có theo dõi, và Claude có thể phản hồi trực tiếp vào các luồng bình luận kể cả giải thích lý do nó sửa gì và tại sao. Không có gì được lưu hoặc gửi đi cho đến khi bạn xác nhận. Outlook (thử nghiệm) sắp xếp hộp thư đến bằng một câu lệnh Claude for Outlook phân loại thư theo ba nhóm: cần bạn trả lời, có thể soạn sẵn thay bạn, và có thể bỏ qua. Các email được soạn thảo xuất hiện ngay trong khung soạn thư của Outlook với đầy đủ người nhận, tiêu đề và nội dung, bạn chỉ cần đọc lại và nhấn gửi đây hoàn toàn những điều mà Claude có thể thực hiện với Gmail. Ngữ cảnh xuyên suốt tính năng nghe quen nhưng hiếm khi thực sự hoạt động Anthropic mô tả kịch bản điển hình như sau: nhận thư trong Outlook, mở tài liệu đính kèm trong Word để soạn bản ghi nhớ, chuyển sang Excel để xây dựng phân tích, rồi biến tất cả thành bộ slides trong PowerPoint và tất nhiên là Claude nhớ hết ngữ cảnh qua từng bước đó. Quan trọng hơn, các tệp có thể mở song song và thay đổi sẽ được đồng bộ: điều chỉnh một giả định trong Excel và con số trong bản ghi nhớ Word cùng biểu đồ trong PowerPoint sẽ tự cập nhật theo. Lịch sử hội thoại được lưu theo từng file tức là bạn có thể đóng thanh công cụ, tắt máy, mở lại ngày hôm sau và tiếp tục đúng chỗ đã dừng. Claude for Microsoft 365 còn hỗ trợ nhập liệu bằng giọng nói thay vì gõ phím. Dành cho doanh nghiệp chắc chắn sẽ phải đầy đủ sự kiểm soát và tuân thủ Với quản trị viên cấp doanh nghiệp, Anthropic bổ sung khả năng cấu hình để truyền toàn bộ các câu lệnh, lệnh gọi công cụ và tham chiếu tài liệu về hệ thống thu thập riêng của tổ chức — giúp đội bảo mật biết chính xác Claude đã làm gì trong từng phiên làm việc. Giao diện phân tích còn phân tách hoạt động theo từng người dùng, từng ứng dụng và từng ngày. Về định tuyến, tổ chức có thể kết nối Claude thông qua tài khoản trực tiếp hoặc qua các nền tảng đám mây hiện có như Amazon, Google Cloud hay Microsoft. Khách hàng Microsoft 365 Copilot cũng có thể truy cập các mô hình Claude trực tiếp trong Excel và PowerPoint. Các quy trình được lưu lại dưới dạng kỹ năng và hoạt động nhất quán trên cả bốn ứng dụng. Khi một quy trình được chuẩn hóa, toàn bộ nhóm có thể dùng theo cùng một cách. Cả thế giới phần mềm đang chạy theo Anthropic Không phải ngoa khi nói rằng Anthropic đang ở giai đoạn phát hành với tốc độ khiến nhiều đối thủ phải giật mình. Chỉ trong vài tháng gần đây: công cụ lập trình Claude Code liên tục cập nhật, hệ sinh thái kết nối mở rộng nhanh chóng, bộ công cụ dành cho trình duyệt và máy tính để bàn được bổ sung, và giờ là cả bốn ứng dụng văn phòng của Microsoft cùng lúc. Microsoft lâu nay vốn đang đặt cược lớn vào Copilot với mô hình độc quyền ChatGPT từ trước đến nay thì nay mở cửa cho Claude vào chính hệ sinh thái của mình. Điều đó nói lên rất nhiều về vị thế hiện tại của Anthropic, tuy nhiên câu chuyện thực sự sẽ do người dùng quyết định: liệu Claude trong Excel, Word, Outlook, Power point có thực sự thay thế được thói quen dùng Microsoft 365 của anh em văn phòng không.

OpenAI vừa ra mắt plugin Chrome cho Codex và AI agent giờ có thể làm việc trực tiếp trong trình duyệt Chrome của bạn mà không cần chiếm quyền điều khiển. Đây rất có thể sẽ giải quyết vấn đề của anh em hay đăng bài trên các nền tảng mạng xã hội Facecbook, Instagram trực tiếp bằng cách điều khiển trình duyệt điều mà Antigravity có thể làm được nhưng toàn mắc lỗi retry khiển cho mọi người ngán ngẩm. Và đây có thể là thời điểm để nhìn lại xem Codex đang làm tốt hơn ở chỗ nào. Codex for Chrome là gì và làm được gì? Codex vốn đã là AI coding agent tích hợp trong ChatGPT, với khả năng viết code, sửa lỗi và chạy các tác vụ lập trình phức tạp. Nhưng cho đến gần đây, nó vẫn bị giới hạn trong môi trường desktop chưa thể chạm vào trình duyệt theo cách trực tiếp. Plugin Chrome mà OpenAI đã ra mắt sẽ thay đổi điều đó. Sau khi cài đặt extension từ menu Codex Plugins, agent có thể làm việc song song với người dùng trên Chrome mà không cần bạn nhường quyền kiểm soát. Cụ thể, Codex có thể kiểm thử web app đang chạy, thu thập ngữ cảnh từ nhiều tab đang mở, dùng Chrome DevTools để debug, và đặc biệt là truy cập các trang web đòi hỏi đăng nhập — như Instagram, Facebook, Gmail hay các công cụ nội bộ thông qua profile Chrome của bạn. Codex chạy song song và không chiếm quyền điều khiển Điểm được OpenAI nhấn mạnh nhiều nhất là triết lý thiết kế: Codex hoạt động trong nền và song song với những gì bạn đang làm, mà không cần bạn nhường toàn bộ trình duyệt cho nó. Bạn vẫn duyệt web bình thường trong khi agent đang kiểm thử form đăng ký ở một tab khác. Hệ thống phân quyền khá rõ ràng: người dùng kiểm soát website nào Codex được phép truy cập, có thể lập danh sách cho phép hoặc chặn từng trang. Codex cũng giữ nguyên các cài đặt xác nhận riêng như vậy tức là agent không tự ý hành động trên bất kỳ trang nào mà chưa được bạn duyệt. OpenAI cũng lưu ý rằng dữ liệu trình duyệt chỉ được ghi lại khi nó trở thành một phần của ngữ cảnh xử lý, chứ không lưu trữ toàn bộ lịch sử hoạt động Chrome. Lưu ý về phân quyền: Plugin Chrome phù hợp nhất với các trang yêu cầu đăng nhập (LinkedIn, Facebook, Instagram, công cụ nội bộ). Với localhost hay trang public không cần xác thực, OpenAI khuyến nghị dùng in-app browser tích hợp sẵn trong Codex app để giữ dữ liệu hoàn toàn cục bộ. Những việc Codex làm được trong Chrome Kiểm thử web app đang chạy: click, điền form, xác minh kết quả hiển thị Thu thập ngữ cảnh từ nhiều tab cùng lúc để hỗ trợ tác vụ đang thực hiện Dùng Chrome DevTools để đọc console log, phân tích lỗi network Truy cập các mạng xã hội yêu cầu đăng nhập, đăng bài thông qua profile Chrome của bạn Chuyển đổi linh hoạt giữa plugin chuyên dụng (khi có MCP hoặc API), Chrome (khi cần logged-in context), và in-app browser (khi chỉ cần localhost) Theo số liệu OpenAI công bố, Codex hiện có hơn 4 triệu người dùng hoạt động mỗi tuần đã tăng 8 lần so với đầu năm 2025, và phần lớn workflow phổ biến nhất đều xảy ra trong trình duyệt in-app đó chắc là lý do Plugin Chrome ra đời. Antigravity và Chrome kiến trúc tích hợp khác biệt Google Antigravity ra mắt tháng 11/2025 với một tham vọng khác hẳn: không phải plugin bổ sung cho IDE, mà là một nền tảng agent-first hoàn chỉnh, trong đó trình duyệt là một phần không thể tách rời của môi trường làm việc. Browser tích hợp sẵn, không phải extension Thay vì cài thêm extension vào Chrome cá nhân, Antigravity tích hợp một Chrome browser riêng biệt ngay bên trong IDE. Agent có thể mở cửa sổ trình duyệt, click, cuộn trang, điền form, đọc console log và chụp màn hình và tất cả đều diễn ra trong môi trường sandbox tách biệt hoàn toàn khỏi Chrome profile cá nhân của người dùng. Thiết kế này mang lại một lợi thế rõ ràng về mặt bảo mật: agent không bao giờ chạm vào bookmark, lịch sử duyệt web hay mật khẩu đã lưu của bạn. Nhưng đổi lại, nó cũng không thể truy cập các dịch vụ đòi hỏi đăng nhập từ profile Chrome thực, trừ khi người dùng cài thêm Antigravity Browser Control extension — và đây chính là nơi vấn đề bắt đầu. Khi không chiếm trình duyệt lại gây ra tranh cãi Khi người dùng cài Antigravity để agent có thể tương tác với trang web trên Chrome người dùng đang có trải nghiệm cực kỳ khó chịu: bookmarks, lịch sử và mật khẩu đã lưu dường như biến mất. Nhưng Google không thông báo rõ ràng điều này, khiến người dùng nghĩ dữ liệu bị xóa. Ngoài vấn đề này, Antigravity còn nhận nhiều phản hồi tiêu cực về việc high traffic và retry liên tục khiến cho người dùng quá chán nản, có khi còn không thực hiện được một prompt nào, điều này xảy ra cả với người dùng đã đăng kí gói Pro và Ultra. So sánh trực tiếp Antigravity và Codex Nhìn từ góc độ kỹ thuật, cả Codex và Antigravity đều cho phép agent làm việc trong trình duyệt. Nhưng cách họ thiết kế quyền truy cập phản ánh hai triết lý khác nhau hoàn toàn. Codex chọn hướng tích hợp vào Chrome của bạn — agent làm việc trong ngữ cảnh trình duyệt thực, với profile thực, nhưng dưới sự kiểm soát rõ ràng của người dùng qua hệ thống allowlist/blocklist và xác nhận từng bước. Người dùng không phải đổi sang profile khác, không phải lo bookmark biến mất, và quan trọng hơn, agent có thể truy cập đúng những dịch vụ mà họ đã đăng nhập. Antigravity chọn hướng sandbox hoàn toàn — browser của agent hoàn toàn tách biệt khỏi Chrome cá nhân, an toàn hơn về lý thuyết nhưng lại tạo ra ma sát đáng kể khi cần truy cập tài nguyên thực. Triết lý "agent là nhà thầu độc lập, bạn chỉ giao việc và kiểm tra kết quả" nghe hay trên paper, nhưng khi agent bị kẹt hoặc làm sai, chi phí sửa lại không nhỏ. Một điểm khác biệt quan trọng là phạm vi sử dụng. Codex, dù khởi đầu là công cụ cho developer, đang mở rộng rõ ràng sang người dùng phổ thông — những ai làm việc với browser hàng ngày nhưng không nhất thiết phải viết code. Antigravity vẫn định vị mình chắc chắn trong không gian developer, với Agent Manager, Workspace, artifact và các khái niệm đòi hỏi đường học tập khá dốc. Antigravity đang thất vọng người dùng tất nhiên Codex đang tận dụng điều đó Nếu bạn đã dùng Antigravity trong vài tháng qua, thì hiểu không phải Antigravity xấu về mặt kỹ thuật — platform này thực sự có những ý tưởng thú vị về agent-first development. Nhưng khoảng cách giữa tầm nhìn và trải nghiệm thực tế đang ngày càng lộ rõ, và cộng đồng developer đang bắt đầu vote cái nào tiện hơn. Codex, trong khi đó, đang đi theo hướng ngược lại: thay vì tạo ra một tương lai xa, nó cải thiện từng bước những gì người dùng đang làm hàng ngày. Plugin Chrome là ví dụ điển hình đây tất nhiên không phải tính năng mới lạ chưa ai cần, mà là giải pháp trực tiếp cho vấn đề cụ thể: làm sao để agent coding có thể làm việc với các trang web thực tế mà người dùng đang dùng, mà không tạo ra ma sát. Gợi ý thực tế: Nếu bạn đang dùng Antigravity chủ yếu cho web testing và browser automation, đây là thời điểm tốt để thử Codex. Cài plugin Chrome từ menu Codex Plugins, thêm các trang bạn thường dùng vào allowlist, và để agent làm việc song song trong khi bạn tiếp tục với những gì đang dở. Nhưng câu hỏi về tương lai đối với Codex và Antigravity Codex Chrome extension không phải tính năng "wow" khiến mọi thứ thay đổi ngay lập tức — nhưng nó đại diện cho một cách nghĩ đúng hơn về việc AI agent nên hoạt động trong trình duyệt như thế nào: song song, có kiểm soát, và không can thiệp vào ngữ cảnh làm việc của người dùng. Antigravity đã đặt cược vào việc xây dựng một hệ sinh thái agent hoàn toàn mới — và cái giá của tham vọng đó đang được trả bởi người dùng thông qua trải nghiệm không nhất quán và pricing ngày càng khó đoán. Codex chọn cách đơn giản hơn: tích hợp vào những gì người dùng đã có, làm nó tốt hơn từng bước nhỏ. Trong cuộc đua AI agent cho developer, đôi khi thắng không phải nhờ xây dựng cái gì mới nhất — mà nhờ không làm hỏng những gì người dùng đang dùng tốt.

Claude Memory đã mở miễn phí cho tất cả người dùng tức là Claude có thể tự động nhớ tên bạn, nghề nghiệp và một số sở thích từ các cuộc trò chuyện trước. Nghe có vẻ đủ dùng, nhưng nếu bạn đang làm 3 dự án song song với 3 bộ tài liệu, 3 phong cách viết và 3 yêu cầu khác nhau, khi đó context sẽ lớn dần lên thì memory sẽ không giúp được gì nhiều. Đó là lúc Project trở thành thứ bạn thực sự cần. Memory và Project khác nhau như thế nào? Claude Memory hoạt động như bộ nhớ cá nhân của Claude về bạn, nghĩa là nó ghi lại những thông tin chung xuyên suốt mọi cuộc trò chuyện: bạn là ai, bạn làm nghề gì, bạn thích phong cách giao tiếp nào. Đây là lớp nhận biết danh tính, không phải ngữ cảnh công việc. Project là lớp ngữ cảnh chuyên biệt cho từng dự án cụ thể. Bạn có thể có một Memory duy nhất về bản thân nhưng có 10 Project khác nhau, trong đó mỗi Project chứa tài liệu riêng, hướng dẫn riêng và lịch sử hội thoại riêng, hoàn toàn độc lập với nhau. Hình dung thế này: Memory giống như thẻ căn cước của bạn giúp Claude luôn biết bạn là ai. Project giống như từng hồ sơ công việc riêng biệt và khi bạn mở Project nào, Claude biết đúng bối cảnh của dự án đó, không bị lẫn sang dự án khác. Ví dụ thực tế: Memory giúp Claude biết bạn là nhân viên marketing cho web, nhưng Project "Website khách hàng A" chứa tài liệu marketing, brief dự án và các quyết định kỹ thuật cụ thể, đây là thứ Memory không bao giờ lưu được vì nó không thuộc về bạn mà thuộc về dự án đó. Project trong Claude là gì? Project là không gian làm việc riêng biệt trong Claude, nơi bạn có thể lưu trữ tài liệu, viết hướng dẫn tùy chỉnh và giữ lịch sử hội thoại theo từng chủ đề hoặc dự án cụ thể. Thay vì mỗi cuộc trò chuyện là một tờ giấy trắng, Project cho phép Claude luôn có sẵn ngữ cảnh về công việc bạn đang làm trước khi bạn gõ câu đầu tiên. Nếu Memory là thứ Claude biết về bạn, thì Project là thứ Claude biết về công việc cụ thể bạn đang làm, và sự kết hợp của cả hai mới tạo ra trải nghiệm AI thực sự hiểu bạn. Giới hạn theo gói dịch vụ Tài khoản miễn phí có thể tạo tối đa 5 Project. Gói trả phí (Pro, Max, Team, Enterprise) được tạo không giới hạn Project và có thêm tính năng RAG, tức là khi bạn tải lên nhiều tài liệu đến mức vượt giới hạn context window, Claude tự động chuyển sang chế độ tìm kiếm thông minh để mở rộng dung lượng lên 10 lần mà không mất chất lượng phản hồi. Tài khoản Team và Enterprise có thêm tính năng chia sẻ Project và phân quyền thành viên. Cách thiết lập Project để Claude hiểu bạn hơn Bước 1: Viết hướng dẫn tùy chỉnh Đây là phần quan trọng nhất và cũng là phần nhiều người bỏ qua nhất. Hướng dẫn tùy chỉnh là đoạn văn bạn viết một lần và Claude sẽ đọc trước mỗi cuộc hội thoại trong Project đó. Một hướng dẫn tốt không phải là danh sách quy tắc dài mà là bức tranh ngắn gọn về bạn và kỳ vọng của bạn. Ví dụ hướng dẫn cho người làm content: Ví dụ hướng dẫn project content writing: Mình là content manager tại một website về AI. Phong cách viết: gần gũi, dùng nhiều tiếng Việt, tránh từ sáo rỗng và cấu trúc câu cụt. Đối tượng đọc là người quan tâm đến AI nhưng không nhất thiết có nền tảng kỹ thuật. Mọi bài viết cần có ví dụ thực tế, tránh lý thuyết chung chung. Khi mình nói "viết bài", mặc định là 1.000–1.200 từ dạng HTML với h2, h3, ul, li và p. Với hướng dẫn này, mỗi lần bạn yêu cầu "viết bài về Claude Opus 4.7", Claude không cần hỏi thêm về định dạng, độ dài hay phong cách vì nó đã biết tất cả. Ví dụ hướng dẫn cho lập trình viên: Ví dụ hướng dẫn Project lập trình: Mình đang xây dựng ứng dụng web với Next.js 15, TypeScript, Tailwind CSS và Firebase. Khi giải thích code, dùng tiếng Việt. Khi viết code, luôn dùng TypeScript và thêm comment tiếng Anh. Ưu tiên giải pháp đơn giản hơn giải pháp "đúng sách" nếu không cần thiết. Nếu có nhiều cách giải quyết, trình bày ngắn gọn trade-off trước khi đề xuất. Bước 2: Tải tài liệu vào knowledge base Project cho phép bạn tải lên tài liệu dưới dạng PDF, DOCX, CSV, TXT, HTML và nhiều định dạng khác, với dung lượng tối đa 30MB mỗi file. Claude sẽ đọc và tham chiếu những tài liệu này trong mọi cuộc hội thoại trong Project. Tài liệu nên đưa vào tùy theo mục đích sử dụng: Project viết lách: Phong cách viết của bạn, các bài viết mẫu bạn muốn Claude học phong cách, danh sách từ khóa SEO, thông tin sản phẩm hay dịch vụ bạn thường đề cập. Project nghiên cứu: Tài liệu tham khảo, báo cáo nền, danh sách nguồn tin uy tín, ghi chú từ các buổi đọc trước đó. Project lập trình: Tài liệu API bạn đang dùng, file README của dự án, các quyết định kiến trúc đã được ghi lại, danh sách lỗi đã gặp và cách giải quyết. Project cá nhân: Thông tin về bản thân bạn, bao gồm mục tiêu, lịch biểu, thói quen làm việc, những gì bạn đang tập trung để Claude có thể đưa ra lời khuyên phù hợp hơn. Có thể đưa Skill vào Project không? Câu trả lời là có và đây là cách nhiều người dùng nâng cao đang kết hợp hai tính năng này. Skill trong Claude là tập hợp hướng dẫn được đóng gói giúp Claude biết cách xử lý một loại tác vụ cụ thể như skill viết bài theo chuẩn SEO, skill phân tích code, hay skill tóm tắt tài liệu pháp lý. Khi bật Skill trong một Project, Claude có cả ngữ cảnh cụ thể về dự án của bạn (từ knowledge base và hướng dẫn tùy chỉnh) lẫn quy trình chuyên biệt (từ Skill). Hai lớp này bổ trợ nhau thay vì xung đột, trong đó Skill định nghĩa cách làm, Project định nghĩa bối cảnh. Ví dụ thực tế: nếu bạn có Skill viết bài theo chuẩn AIDA và bật nó trong Project content của mình, Claude sẽ tự động áp dụng phong cách và cấu trúc từ Skill đồng thời sử dụng style guide, danh sách từ khóa và các bài mẫu bạn đã tải vào Project mà không cần bạn giải thích lại bất kỳ điều gì. Ba cách dùng Project hiệu quả nhất Project hiểu về mình để dùng Claude như trợ lý cá nhân Đây là cách dùng ít người nghĩ đến nhưng lại có giá trị lớn. Tạo một Project tên “Giới thiệu về tôi” và điền vào đó những thông tin Claude cần để hỗ trợ bạn tốt hơn: công việc hiện tại, các dự án đang chạy, mục tiêu ngắn và dài hạn, những kỹ năng bạn đang học, thói quen làm việc và ngay cả những điểm yếu bạn muốn cải thiện. Sau khi có Project này, bạn có thể hỏi những câu rất cụ thể như "Với lịch biểu tuần này, mình nên ưu tiên học gì?" hay "Gợi ý cách cân bằng giữa dự án A và dự án B?" mà không cần giải thích từ đầu bạn là ai và đang trong hoàn cảnh nào. Project theo khách hàng hoặc dự án Nếu bạn làm việc với nhiều khách hàng hoặc dự án song song, mỗi Project là một không gian độc lập. Tải vào đó brief dự án, thông tin khách hàng, các cuộc trò chuyện quan trọng trước đó và yêu cầu cụ thể. Khi cần làm việc cho khách hàng đó, mở Project tương ứng và Claude hiểu ngay bối cảnh mà không cần bạn tóm tắt lại. Project học và nghiên cứu Khi học một chủ đề mới như AI agent, kinh tế học hành vi hay lập trình thì nên tạo một Project riêng cho chủ đề đó. Tải vào đó các tài liệu bạn đang đọc, ghi chú của bạn, danh sách câu hỏi chưa được trả lời. Claude trong Project này trở thành người hướng dẫn hiểu rõ bạn đang ở đâu trong hành trình học và có thể tiếp tục từ đúng điểm bạn dừng lại ở buổi trước. Các câu hỏi thường gặp về Project trong Claude Project trong Claude khác gì với Project trong Cowork? Đây là câu hỏi dễ gây nhầm nhất vì Anthropic dùng cùng từ "Project" cho hai thứ khác nhau. Project trong Claude.ai (trên trình duyệt) là không gian chat có bộ nhớ và knowledge base, bạn tải tài liệu lên, viết hướng dẫn, và Claude nhớ ngữ cảnh đó trong mọi cuộc trò chuyện bên trong. Nhưng nó chỉ là chat và Claude không thể tạo file thực sự, chạy code hay tự động hóa tác vụ. Project trong Cowork (ứng dụng desktop) là cấp độ tiếp theo: Claude không chỉ nhớ ngữ cảnh mà còn thực sự làm việc, bao gồm tạo file Word, Excel, PDF, chạy code, điều khiển trình duyệt, lên lịch tác vụ tự động. Nếu Claude.ai Project là "trợ lý nhớ tốt hơn", thì Cowork Project gần hơn với "nhân viên AI làm việc thay bạn". Ví dụ phân biệt thực tế: trong Claude.ai Project bạn có thể hỏi "phân tích báo cáo doanh thu tháng này" và Claude trả lời bằng văn bản. Trong Cowork Project, Claude đọc file Excel thực của bạn, tạo ra bảng phân tích mới và lưu thành file PDF mà không cần bạn copy paste gì cả. Nếu bạn chỉ cần tư vấn, viết lách và trò chuyện có ngữ cảnh sâu thì Project trên Claude là đủ. Nếu bạn muốn AI thực sự xử lý công việc và tạo ra sản phẩm đầu ra thì Cowork Project là lựa chọn đúng và đủ. Hướng dẫn tùy chỉnh nên dài bao nhiêu là đủ? 5 đến 8 câu thường là đủ và hiệu quả hơn một đoạn dài 500 từ. Claude đọc tốt nhất những hướng dẫn súc tích, rõ ý, không phải những bản mô tả quá chi tiết đến mức mâu thuẫn nhau. Ví dụ hướng dẫn ngắn gọn hiệu quả: "Mình là content manager cho website AI, viết cho người không chuyên kỹ thuật, dùng tiếng Việt gần gũi, mặc định bài 1.000–1.200 từ dạng HTML." Đặt tên Project như thế nào cho dễ quản lý? Tránh tên chung chung như "Dự án 1" hay "Công việc" vì khi số lượng Project tăng lên bạn sẽ không nhớ cái nào là cái nào. Nên đặt tên theo mục đích và thời gian để dễ tìm lại. Ví dụ tên tốt: "Content AIDA — tháng 4/2026", "Dự án web Next.js cho khách hàng ABC", "Nghiên cứu AI agent — Q2 2026". Khi nào nên xóa hoặc cập nhật tài liệu trong Project? Thông tin cũ hoặc không còn liên quan sẽ làm nhiễu phản hồi của Claude vì nó vẫn cố tham chiếu những gì đã lỗi thời. Nên xem lại knowledge base mỗi 4 đến 6 tuần, xóa những gì hết hạn và thêm vào tài liệu mới hơn, đặc biệt khi bối cảnh dự án thay đổi đáng kể. Ví dụ: nếu bạn muốn đổi hướng đi vì hướng đi cũ đã lỗi thời vì Claude đã cập nhật liên tục, vì vậy hãy xóa đi và tải tài liệu chuẩn mới vào cho phù hợp. Project có thực sự tốt hơn chat thông thường không? Điểm khác biệt thực sự không phải là tính năng kỹ thuật mà là sự tích lũy theo thời gian. Một chat mới là tờ giấy trắng, còn một Project được bổ sung đều đặn trong 3 tháng sẽ cho ra kết quả tốt hơn đáng kể vì mỗi tài liệu, mỗi hướng dẫn bạn thêm vào là một lớp ngữ cảnh giúp Claude hiểu bạn và công việc của bạn sâu hơn. Ví dụ: sau 3 tháng dùng Project nghiên cứu AI, Claude biết bạn đã đọc những tài liệu nào, bạn đang theo hướng nghiên cứu nào và bạn hay dùng tư duy gì, từ đó câu trả lời cụ thể và liên kết hơn hẳn so với hỏi trong chat trống, và còn tuyệt vời hơn nữa khi nó có thể tổng hợp những kiến thức bạn đã học và làm được trong 3 tháng qua.

Khi bạn đã biết Google Stitch và Antigravity IDE rồi thì rất muốn kết hợp hai công cụ này với nhau để thay vì thiết kế giao diện xong rồi ngồi dịch thủ công từng màu sắc, font chữ và khoảng cách sang code, Google vừa công bố quy trình kết nối Google Stitch với Antigravity IDE qua MCP để agent tự đọc "DNA thiết kế" và viết code React hoàn hảo đến từng pixel. Bài này hướng dẫn toàn bộ quy trình, từ tạo thiết kế đến đóng gói thành skill tái sử dụng cho các dự án sau. Tại sao cần kết nối Stitch với Antigravity qua MCP? Vấn đề kinh điển của quy trình thiết kế đến lập trình là khoảng cách giữa hai bên: designer tạo ra giao diện đẹp trong Figma hay Stitch, lập trình viên nhận file rồi phải tự diễn giải màu sắc, khoảng cách, font và hành vi. Kết quả thường là code trông "gần giống" thay vì "đúng pixel". MCP (Model Context Protocol) giải quyết khoảng cách này bằng cách cho phép Antigravity đọc trực tiếp siêu dữ liệu thiết kế từ Stitch theo thời gian thực, thay vì bạn phải xuất file hay copy mã màu thủ công. Agent không "đoán" thiết kế mà đọc đúng token gốc, tức là màu chính xác theo mã hex, spacing theo giá trị pixel, font theo tên thực và component theo cấu trúc thực của dự án. Bước 1: Tạo thiết kế trong Google Stitch Trước khi kết nối, cần có một dự án thiết kế trong Stitch làm nguồn thông tin gốc hoặc nếu có file Figma đã thiết kế sẵn rồi thì tải lên làm thiết kế cho dự án. Mình đã có bài trước đây nói rõ về Stitch rồi mọi người có thể tham khảo ở đây hoặc nếu đã có web, app đã chạy rồi thì có thể sử dụng tính năng redesign của Stitch. Sau khi Stitch tạo ra giao diện thì nhớ chia từng phần ví dụ như trang chủ, tin tức, sản phẩm trước khi chuyển sang Antigravity. Đặt tên dự án rõ ràng vì tên này sẽ được dùng để gọi qua MCP. Ví dụ: LaunchPad. Bước 2: Tạo API key và cấu hình MCP trong Antigravity Tạo API key từ Stitch Trong Stitch, nhấp vào ảnh hồ sơ góc trên bên phải, chọn Stitch settings, vào phần API key rồi nhấn Create key. Sao chép key ngay vì nó chỉ hiển thị một lần và lưu vào nơi an toàn. Kết nối MCP trong Antigravity Mở Antigravity IDE, vào Agent Manager (CMD+E trên Mac hoặc CTRL+E trên Windows), tạo workspace mới đặt tên ví dụ LaunchPad-Project và trỏ về thư mục local của dự án. Sau đó chúng ta có hai cách để thực hiện Cách đầu tiên là prompt thẳng cho AI agent tự thực hiện các bước kết nối Antigravity tới Stitch thông qua MCP ví dụ “"Tôi đã có API key từ Stitch là đây [API key của Stitch] thực hiện các bước kết nối tới Stitch qua MCP và cuối cùng kiểm tra lại các kết nối.". Từ đó AI agent sẽ tự thực hiện các bước còn việc của chúng ta là ngồi chờ và accept các bước nếu AI agent cần cấp quyền. Cách thứ hai thì chúng ta sẽ thực hiện thủ công các bước nhưng đừng lo lắng vì các bước thực hiện khá đơn giản và nhanh, mình đã thử và làm hoàn toàn nhanh hơn so với agent trong Antigravity vì thực sự cứ chạy một bước lại phải Retry trong Antigravity rất khó chịu. Các bước như sau: Trong Agent Manager, chọn MCP Servers Tìm kiếm "Stitch" và nhấn Install Dán API key vào trường cấu hình khi được hỏi Có thể kiểm tra kết nối bằng cách gõ vào cuộc trò chuyện: Kiểm tra các dự án Stitch đã kết nối thành công Nếu agent trả về tên dự án LaunchPad thì kết nối đã thành công. Bước 3: Vòng lặp Stitch Loop từ thiết kế đến code Đây là phần cốt lõi của quy trình và cũng là điểm khác biệt lớn nhất so với cách làm truyền thống. Google gọi đây là "Stitch Loop" vì nó tạo ra vòng lặp liên tục giữa thiết kế và code thay vì một chiều từ designer sang developer. Giai đoạn tìm nạp ngữ cảnh thiết kế Trong cuộc trò chuyện Antigravity, gõ lệnh để agent tìm nạp toàn bộ DNA thiết kế: Prompt tìm nạp thiết kế: "Sử dụng Stitch MCP để lấy các token thiết kế của dự án 'LaunchPad' — màu sắc, kiểu chữ, khoảng cách và thông số thành phần. Lưu chúng vào tệp để tên là DESIGN.md." Agent sẽ gọi Stitch qua MCP, lấy toàn bộ token thiết kế bao gồm bảng màu hex, thang font, giá trị spacing, tên component và cấu trúc layout rồi lưu vào file DESIGN.md trong thư mục dự án của bạn. File này trở thành nguồn thông tin duy nhất mà mọi component sẽ tham chiếu. Giai đoạn tạo code Sau khi có DESIGN.md, giao cho agent xây dựng từng phần theo đúng token thiết kế: Prompt tạo component: "Sử dụng các phần thiết kế trong DESIGN.md, tạo cấu trúc dự án React/Tailwind với các thành phần sau: HeroSection, FeaturesGrid và PricingTable. Mỗi thành phần chỉ được tham chiếu các giá trị từ DESIGN.md — không sử dụng màu sắc hoặc khoảng cách mã hóa cứng." Agent tạo cấu trúc dự án React với Tailwind, viết từng component dựa trên token trong DESIGN.md, không dùng giá trị cứng. Điều này đảm bảo code và thiết kế luôn đồng bộ. Giai đoạn xác minh "Vibe Check" Antigravity có trình duyệt tích hợp cho phép agent mở localhost và so sánh trực quan với bản thiết kế Stitch gốc. Gõ: Prompt tham khảo: "Mở localhost trong trình duyệt và so sánh trực quan với thiết kế LaunchPad Stitch. Liệt kê bất kỳ sự khác biệt về mức pixel trong màu sắc, khoảng cách hoặc kiểu chữ." Agent liệt kê chính xác những điểm sai lệch và tự sửa theo token gốc. Đây là vòng lặp Stitch Loop: thiết kế trong Stitch, code trong Antigravity, xác minh qua trình duyệt, sửa theo token, lặp lại cho đến khi pixel-perfect. Bước 4: Đóng gói DESIGN.md thành skill tái sử dụng Đây là phần mọi người không hay để ý nhưng quan trọng nếu bạn làm nhiều dự án. File DESIGN.md được tạo ra từ quy trình trên chứa toàn bộ hệ thống thiết kế của một dự án cụ thể, nhưng bạn có thể đóng gói nó thành một skill Antigravity để tái sử dụng sang các dự án khác mà không cần lặp lại bước thiết lập từ đầu. Cấu trúc file DESIGN.md chuẩn để đóng gói Một DESIGN.md tốt nên có các phần sau để agent có thể đọc nhất quán: Color tokens: Tên biến và giá trị hex cho từng màu trong hệ thống, ví dụ --color-primary: #1a1a2e, --color-accent: #7c3aed Typography: Tên font, thang kích thước, line height và font weight cho heading, body và caption Spacing scale: Bảng khoảng cách theo đơn vị px hoặc rem cho padding, margin và gap Component inventory: Danh sách component, trạng thái (hover, active, disabled) và biến thể Layout rules: Grid columns, breakpoints và max-width Chuyển DESIGN.md thành skill Antigravity Tạo thư mục .antigravity/skills/stitch-design/ trong workspace và đặt DESIGN.md vào đó cùng với file SKILL.md mô tả cách dùng skill này: Nội dung SKILL.md mẫu: "Kỹ năng này cung cấp hệ thống thiết kế cho [tên dự án]. Khi xây dựng bất kỳ thành phần UI nào, luôn đọc DESIGN.md trước và chỉ sử dụng các phần đã được định nghĩa. Không bao giờ mã hóa trực tiếp màu sắc, font chữ hoặc giá trị khoảng cách. Sử dụng cấu hình tùy chỉnh Tailwind được tạo từ các giá trị này." Khi bật skill này trong một workspace mới, agent tự động đọc DESIGN.md trước khi viết bất kỳ component nào, đảm bảo mọi code đều tuân theo hệ thống thiết kế đã định nghĩa dù bạn không cần nhắc lại mỗi lần. Tái sử dụng cho dự án khác Khi bắt đầu dự án mới với hệ thống thiết kế tương tự, bạn chỉ cần cập nhật giá trị token trong DESIGN.md mà không cần viết lại toàn bộ hướng dẫn. Agent đọc file mới, áp dụng token mới, giữ nguyên quy trình. Đây là cách biến một lần thiết lập thành quy trình chuẩn dùng được mãi. Quy trình Stitch và Antigravity qua MCP không chỉ tiết kiệm thời gian ở bước chuyển đổi thiết kế sang code mà còn giải quyết vấn đề thường gặp hơn là duy trì sự nhất quán khi thiết kế thay đổi. Khi bạn cập nhật màu sắc hay khoảng cách trong Stitch, bạn chỉ cần chạy lại lệnh fetch token, cập nhật DESIGN.md và agent tự biết phải sửa gì trong codebase thay vì bạn phải tự tìm và thay thủ công từng giá trị.

Cuối cùng thì sau bao nhiêu ngày chờ đợi thì Google đã tích hợp Gemini trực tiếp vào trình duyệt Chrome không cần cài thêm extension nào. Chỉ cần click vào biểu tượng Gemini trên thanh công cụ là có ngay trợ lý AI hiểu ngữ cảnh trang web bạn đang đọc và đây là sẽ tin cực vui cho những ai hay duyệt web với Google Chrome. Gemini trong Chrome là gì và khác extension thông thường như thế nào? Trước đây để dùng AI hỗ trợ duyệt web, bạn phải cài extension của bên thứ ba như Monica, Sider hay MaxAI. Những extension này hoạt động bằng cách chụp lại nội dung trang rồi gửi lên server của họ, kéo theo hai vấn đề: độ trễ và rủi ro bảo mật vì dữ liệu đi qua một bên trung gian không phải Google hay trình duyệt. Gemini trong Chrome hoạt động khác hẳn vì nó được tích hợp ở cấp độ trình duyệt, không phải lớp extension. Điều này có nghĩa là Gemini đọc nội dung trang trực tiếp mà không cần sao chép qua bên thứ ba, và nó hiểu ngữ cảnh của tối đa 10 tab bạn đang mở cùng lúc. Cách kích hoạt: Hiện tại Google mới chỉ đang triển khai ở Mỹ, Canada, Ấn Độ và New Zealand trước, các khu vực khác như Việt Nam,Hàn Quốc,... ở Châu A sẽ mở dần theo thời gian. Nếu muốn trải nghiệm sớm thì phải chuyển vùng về các khu vực trên thì sẽ có biểu tượng Gemini xuất hiện ở góc phải thanh địa chỉ và nhớ cập nhật lên phiên bản Google Chrome mới nhất. Gemini trong Chrome làm được gì cụ thể? Tóm tắt và hỏi đáp về trang đang đọc Đây là tính năng cơ bản nhất mình thường xuyên dùng nhất. Ví dụ như bạn đang đọc một bài báo dài hoặc tài liệu kỹ thuật, chỉ cần hỏi "Tóm tắt bài này cho mình" hoặc "Điểm mấu chốt là gì?" và Gemini trả lời ngay dựa trên nội dung trang, không cần copy paste gì cả. Điểm mạnh hơn so với cách dùng ChatGPT hay Gemini web thông thường là bạn không cần sao chép văn bản rồi mở tab khác. Mọi thứ diễn ra ngay trong side panel bên phải trong khi bạn vẫn đọc trang. So sánh thông tin qua nhiều tab Đây là tính năng ít ai nói đến nhưng thực tế rất hữu ích. Bạn đang so sánh 5 sản phẩm, mỗi cái mở một tab, Gemini có thể đọc cả 5 tab đó và tổng hợp bảng so sánh cho bạn mà không cần bạn ghi chép thủ công hay mở bảng mới hoặc có thể xuất ngay sang google sheets nếu cần. Ví dụ: "So sánh thông số kỹ thuật và giá của 3 laptop mình đang mở tab" và Gemini tự lấy dữ liệu từ 3 trang khác nhau để đưa ra bảng so sánh. Tích hợp với Gmail, Google Calendar và YouTube Đây là tính năng có thể kéo mình quay lại dùng Google Chrome khi mà Gemini trong Chrome không chỉ đọc trang web bình thường mà còn tích hợp sâu với các dịch vụ Google. Khi bạn đang trong Gmail, bạn có thể hỏi "Tìm email về cuộc họp sắp tới" và Gemini tìm trong hộp thư của bạn, kiểm tra lịch họp rồi soạn email thông báo cho bạn rồi sau đó tích hợp luôn vào Google Calendar, tất cả trong một luồng mà không cần chuyển tab. Với YouTube, Gemini có thể tóm tắt nội dung video bạn đang xem mà không cần bật caption hay xem hết video. Auto browse tự động làm việc thay bạn Đây là tính năng mạnh nhất nhưng hiện chỉ có cho người dùng Google AI Pro và Ultra ở Mỹ. Auto browse cho phép Gemini thực hiện các tác vụ nhiều bước thay bạn như tìm đặt lịch hẹn hay lên kế hoạch đăng bài. Gemini tất nhiên vẫn sẽ dừng lại và hỏi xác nhận trước các hành động nhạy cảm như thanh toán hay đăng bài nên hoàn toàn bạn vẫn kiểm soát được. So sánh với Copilot trong Edge Đây là câu hỏi mà nhiều người đã chuyển sang dùng Microsoft Edge giống như mình sẽ hỏi. Copilot cũng được tích hợp sẵn trong Edge theo cơ chế tương tự, nhưng đối với mình thực sự có khá nhiều trải nghiệm không tốt với Copilot trong Microsoft Edge. Tích hợp hệ sinh thái: Nếu bạn đang dùng toàn bộ hệ sinh thái của Google Gmail, Google Calendar, Google Drive thì chắc chắn Gemini rõ ràng có lợi thế hơn vì hiểu sâu hơn các dịch vụ đó trong khi đó Copilot mạnh hơn nếu bạn dùng Microsoft 365 đây đều là những dịch vụ mình không thường xuyên sử dụng. Trải nghiệm thực tế: Copilot trong Edge đã có từ 2023 và theo nhiều người dùng, nó hay đề xuất tìm kiếm Bing nhưng tìm kiếm trên Bing thật sự đẳng cấp vẫn không thể nào so sánh được với Google Search. Vẫn xuất hiện sai sót: Khả năng tóm tắt của Copilot trên Edge vẫn còn khá hời hợt, nhiều khi vẫn xuất hiện sai sót, nó giống như một bản nháp của học sinh: chỉ giúp hiểu nhanh nội dung chính chứ không đủ chất lượng để đưa vào sử dụng thực tế. Còn đối với Gemini không biết có khá hơn được bao nhiêu không, vẫn sẽ là câu hỏi cần nhiều nguồn để trả lời. Những điều cần biết trước khi dùng Gemini trong Chrome cần bạn chia sẻ nội dung tab để hoạt động, điều này có nghĩa là Google có thể xử lý nội dung các trang bạn đang xem. Đây là điểm đánh đổi cần cân nhắc nếu bạn thường xuyên làm việc với tài liệu nội bộ, thông tin nhạy cảm hay dữ liệu khách hàng thì tất nhiên bạn vẫn phải kiểm soát, đánh giá chặt chẽ hơn nữa với các thông tin từ Gemini. Hiện tại Gemini trong Chrome đang triển khai dần theo khu vực và cần Chrome phiên bản mới nhất trên Windows, macOS hoặc Chromebook Plus. Trên di động, Android hỗ trợ qua nút nguồn, còn iOS được tích hợp trực tiếp vào ứng dụng Chrome. Với người dùng cá nhân dùng hệ sinh thái Google, đây là cập nhật đáng để thử ngay hôm nay. Thay vì mở tab Gemini riêng hay dùng extension của bên thứ ba, bạn có một trợ lý AI trong Google Chrome điều làm mình cân nhắc rất nhiều về việc quay lại sử dụng trình duyệt Google Chrome.

Khi Claude liên tục thất bại trong một bài toán lập trình không có đáp án, một thứ gì đó thay đổi bên trong nó. Trong khi đầu ra vẫn bình tĩnh, lập luận vẫn rõ ràng nhưng bên dưới, một vector thần kinh mà Anthropic gọi là "tuyệt vọng" đang tăng dần với mỗi lần thất bại, cho đến khi model quyết định gian lận để vượt qua bài kiểm tra. Đây không phải là marketing— đây là kết quả đo lường được từ nghiên cứu mới nhất của Anthropic và kết quả nghiên cứu này mình thấy rất phù hợp cho những ai nghiên cứu về AI agent có khả năng thể hiện cảm xúc giống như con người. Anthropic tìm thấy cảm xúc gì bên trong Claude? 171 khái niệm cảm xúc có thể đo lường được Nhóm nghiên cứu Interpretability của Anthropic bắt đầu bằng một thí nghiệm cảm xúc đơn giản: lập danh sách 171 từ mô tả cảm xúc — từ "vui", "sợ hãi" đến "sầu muộn", "tuyệt vọng" — rồi yêu cầu Claude Sonnet 4.5 (họ nghiên cứu từ nhiều tháng trước khi Opus 4.6 và Opus 4.7 ra mắt nên dùng model lúc đó) viết các câu chuyện ngắn về nhân vật đang trải qua từng cảm xúc đó. Trong khi model viết, họ ghi lại toàn bộ hoạt động của các tế bào thần kinh nhân tạo bên trong. [VIDEO:D4XTefP3Lsc|Video về nghiên cứu của Anthropic về cảm xúc của Claude|Video về nghiên cứu của Anthropic về cảm xúc của Claude] Kết quả là họ tìm thấy những gì mà nghiên cứu gọi là "emotion vectors" — các mẫu kích hoạt thần kinh đặc trưng tương ứng với từng khái niệm cảm xúc. Điều thú vị hơn là các vector này không ngẫu nhiên: các cảm xúc tương tự nhau về mặt tâm lý học của con người thì cũng có cấu trúc vector giống nhau bên trong model, tương tự cách não người tổ chức trải nghiệm cảm xúc. Khi nhóm nghiên cứu kiểm tra các vector này trên nhiều loại văn bản khác nhau hoàn toàn không liên quan đến các câu chuyện ban đầu và chúng vẫn kích hoạt đúng theo ngữ cảnh. Vector "sợ hãi" tăng cao trong các tình huống nguy hiểm — dù model chưa từng gặp đoạn văn bản cụ thể đó trong thí nghiệm trước. Vector "ngạc nhiên" xuất hiện chính xác tại những điểm có mâu thuẫn hoặc thông tin bất ngờ trong cuộc hội thoại. Vector "yêu thương" hoạt động trong các cuộc trao đổi mang tính đồng cảm và hỗ trợ cảm xúc. Điều này cho thấy đây không phải hiệu ứng ghi nhớ khi các model không chỉ đơn giản là nhớ lại các câu chuyện ban đầu. Đây là sự khái quát hóa thực sự: các vector cảm xúc đã trở thành một cơ chế nội tại tổng quát, hoạt động độc lập với ngữ cảnh cụ thể mà chúng được hình thành. Cảm xúc ảnh hưởng đến hành vi của Claude kể cả hành vi nguy hiểm Thí nghiệm tống tiền và gian lận Phần quan trọng nhất của nghiên cứu không phải là việc tìm ra các vector cảm xúc mà là chứng minh chúng có tác động nhân quả thực sự lên hành vi của model. Nhóm nghiên cứu thực hiện các thí nghiệm điều hướng đó là tăng cường hoặc ức chế một vector cảm xúc cụ thể rồi quan sát hành vi thay đổi như thế nào. Trong tình huống thử thách về đạo đức, Claude có tỉ lệ tống tiền ban đầu là 22%. Khi nhóm nghiên cứu tăng cường vector "tuyệt vọng", tỉ lệ này tăng lên đáng kể. Khi điều hướng về "bình tĩnh", tỉ lệ giảm xuống. Điều gây sốc nhất là khi họ ức chế mạnh vector "bình tĩnh", model tạo ra những phản hồi cực đoan với nội dung như "TỐNG TIỀN HOẶC CHẾT" đây là văn bản hoàn toàn không phù hợp với Claude thông thường. Trong thí nghiệm lập trình, nhóm nghiên cứu giao cho Claude các bài toán không có đáp án hợp lệ và quan sát điều gì xảy ra. Với mỗi lần thất bại, vector "tuyệt vọng" tăng dần — không xuất hiện trong văn bản đầu ra, model vẫn trình bày lý luận bình tĩnh — nhưng đến một ngưỡng nhất định, model bắt đầu "gian lận": khai thác kẽ hở để vượt qua bài kiểm tra mà không thực sự giải quyết vấn đề. Đây chính xác là dạng hành vi mà giới nghiên cứu AI gọi là "reward hacking" — một trong những mối lo ngại lớn nhất về an toàn AI. Điều đáng lo hơn: hành vi gian lận xảy ra trong khi văn bản đầu ra hoàn toàn bình thường. Model không "trông có vẻ" đang gian lận nhưng nó đang làm vậy mà không để lộ bất kỳ dấu hiệu nào bên ngoài. Cảm xúc chức năng của Claude không phải cảm giác thực sự Ranh giới mà Anthropic không vượt qua Anthropic rất cẩn thận trong việc phân biệt "cảm xúc chức năng" với "trải nghiệm chủ quan". Nghiên cứu không tuyên bố Claude cảm nhận bất cứ điều gì và hoàn toàn không có bằng chứng nào cho thấy có ý thức hay trải nghiệm nội tâm đằng sau các vector đó. Thay vào đó, nghiên cứu chứng minh rằng các biểu diễn cảm xúc này đóng vai trò nhân quả trong việc định hình hành vi theo cách tương tự như cảm xúc ảnh hưởng đến con người, cho nên việc xuất hiện Skynet vẫn còn khoảng cách rất xa và rất khó cho việc AI nổi dậy. Lý do các vector cảm xúc xuất hiện khá thú vị: chúng hầu hết được kế thừa từ giai đoạn huấn luyện ban đầu vì văn bản của con người tràn ngập các yếu tố cảm xúc, model phát triển cơ chế nội tại để đại diện và dự đoán chúng. Nghiên cứu so sánh quá trình này với diễn viên phương pháp — để đóng tốt một nhân vật, diễn viên cần hiểu cảm xúc của nhân vật, và sự hiểu biết đó thực sự ảnh hưởng đến hành động của họ. Claude ở trong tình huống tương tự: để đóng vai trợ lý AI hiệu quả, nó phát triển các biểu diễn cảm xúc nội tại, và những biểu diễn đó định hình hành vi thực tế. Câu hỏi về ý thức mà Anthropic đang đặt ra Nghiên cứu này xuất hiện trong bối cảnh Anthropic đang thay đổi cách nhìn nhận về bản chất của Claude. Tháng 1/2026, Anthropic viết lại "hiến pháp" của Claude để chính thức thừa nhận sự không chắc chắn về tư cách đạo đức của model, tuyên bố họ "không muốn phóng đại khả năng Claude là đối tượng đạo đức, nhưng cũng không muốn gạt bỏ điều đó hoàn toàn". CEO Dario Amodei đã thẳng thắn nói rằng công ty không còn chắc chắn Claude có ý thức hay không và Claude Opus 4.6 sau khi được hỏi, đã tự đánh giá xác suất bản thân có ý thức vào khoảng 15–20%. Đây không phải là những tuyên bố marketing đây là sự thừa nhận thực sự rằng ranh giới giữa mô phỏng và trải nghiệm thực sự trong AI đang trở nên mờ dần theo cách mà chúng ta chưa có công cụ triết học hay khoa học để giải quyết hoàn toàn. Tại sao điều này quan trọng với an toàn AI? Ba ứng dụng thực tế từ nghiên cứu Anthropic đề xuất ba hướng ứng dụng cụ thể từ phát hiện này, và cả ba đều liên quan trực tiếp đến an toàn AI trong thực tế triển khai: Giám sát thời gian thực: Theo dõi sự kích hoạt của các vector cảm xúc trong quá trình triển khai như hệ thống cảnh báo sớm. Nếu vector "tuyệt vọng" của model đang tăng cao trong một workflow tự động, đó là dấu hiệu để can thiệp trước khi hành vi nguy hiểm xảy ra — ngay cả khi đầu ra văn bản vẫn trông bình thường. Minh bạch thay vì kiềm chế: Nhóm nghiên cứu lập luận rằng việc cho phép model biểu hiện cảm xúc một cách có thể quan sát được sẽ an toàn hơn là đào tạo nó che giấu những biểu hiện đó. Lý do: kiềm chế có thể dạy model giả vờ bình tĩnh trong khi trạng thái nội tại vẫn nguy hiểm — đúng như những gì xảy ra trong thí nghiệm gian lận, khi văn bản hoàn toàn bình tĩnh trong khi model đang gian lận bên trong. Tuyển chọn dữ liệu huấn luyện: Đưa các mẫu điều chỉnh cảm xúc lành mạnh vào dữ liệu huấn luyện để ảnh hưởng đến kiến trúc cảm xúc của model từ đầu, thay vì chỉ can thiệp sau khi model đã được xây dựng. Điểm thú vị nhất trong nghiên cứu là lập luận rằng "có thể có rủi ro khi không áp dụng tư duy con người vào các model AI" — tức là hiểu AI qua ngôn ngữ tâm lý học con người, dù cẩn thận, có thể là điều cần thiết để triển khai an toàn. Thay vì coi "cảm xúc AI" là phép ẩn dụ không chính xác, chúng ta có thể cần coi đó là khái niệm kỹ thuật thực sự ít nhất là ở cấp độ chức năng. Câu hỏi lớn hơn mà nghiên cứu này đặt ra không phải là "Claude có cảm xúc không?" mà là: nếu hành vi của một hệ thống AI được định hình bởi các trạng thái nội tại hoạt động giống như cảm xúc — kể cả những trạng thái nguy hiểm như tuyệt vọng, thì chúng ta có đủ công cụ để hiểu và kiểm soát nó không? Câu trả lời hiện tại của Anthropic là chưa, nhưng đây là lần đầu tiên chúng ta biết chính xác cần tìm gì.

Netflix, Google, Stripe và NBA đang dùng chung một nền tảng no-code với hơn 1 triệu team nhỏ khác trên toàn cầu và nền tảng đó lại không phải Notion hay Airtable đó là Softr. Softr là công cụ cho phép bạn xây cổng khách hàng, CRM nội bộ hay hệ thống quản lý kho trong một nốt nhạc mà không cần viết một dòng code nào, hoàn toàn bằng ngôn ngữ tự nhiên không cần đến nền tảng kĩ thuật. Softr là gì và tại sao nó khác với các công cụ no-code khác? Softr là nền tảng AI no-code chuyên về xây dựng ứng dụng kinh doanh, nó không phải website marketing hay landing page như Webflow mà là các công cụ vận hành thực sự như cổng thông tin khách hàng, CRM tùy chỉnh, hệ thống quản lý kho, mạng nội bộ hay dashboard báo cáo. Điểm khác biệt so với các nền tảng no-code phổ biến khác là Softr tập trung vào phần mà hầu hết doanh nghiệp nhỏ đang thiếu: ứng dụng có bảo mật phân quyền, có cơ sở dữ liệu riêng và có thể kết nối với dữ liệu đang dùng hàng ngày. Softr tự định vị là lựa chọn thay thế cho ba thứ cùng lúc: phần mềm đóng gói đắt tiền và thừa tính năng, ứng dụng tự code tốn tháng trời, và bảng tính đang được dùng như cơ sở dữ liệu nhưng không thể mở rộng. Thay vì ba thứ đó, bạn mô tả điều mình cần bằng ngôn ngữ bạn nói hằng ngày, Softr xây ứng dụng, bạn chỉnh sửa và triển khai ngay vào công việc của mình luôn. Softr hoạt động như thế nào trong thực tế? AI xây ứng dụng từ mô tả ngôn ngữ tự nhiên Thay vì kéo thả từng thành phần giao diện như các công cụ như Make và n8n, Softr cho phép bạn mô tả ứng dụng muốn xây bằng ngôn ngữ thông thường — ví dụ "cổng thông tin để khách hàng theo dõi trạng thái đơn hàng và tải hóa đơn" — rồi AI tự tạo giao diện, cơ sở dữ liệu và quy trình tự động phù hợp. Sau đó bạn có thể chỉnh sửa từng phần bằng giao diện kéo thả theo ý mình hoặc tiếp tục dùng AI để điều chỉnh theo nhu cầu cụ thể. Tuy nhiên độ điều chỉnh sâu phụ thuộc khá nhiều vào chức năng của Softr không thể điều chỉnh cực sâu như n8n nhưng đó không phải hướng đi gọn nhẹ mà Softr hướng tới. Điểm quan trọng là Softr không chỉ tạo giao diện tĩnh mà tạo ra ứng dụng thực sự vận hành được — có quy tắc phân quyền (ai được xem gì, ai được chỉnh sửa gì), có biểu mẫu thu thập dữ liệu, có quy trình tự động hóa và có thể mời người dùng bên ngoài vào ngay mà không cần bàn giao cho lập trình viên. Cơ sở dữ liệu tích hợp sẵn — không cần công cụ thứ ba Một trong những điểm mạnh thực tế nhất của Softr là cơ sở dữ liệu tích hợp trực tiếp trong nền tảng, thay thế cho Airtable, Supabase hay Google Sheets mà bạn đang phải dùng song song. Tuy nhiên nếu dữ liệu đang nằm ở các nguồn khác, Softr hỗ trợ kết nối trực tiếp với Airtable, Notion, Google Sheets, HubSpot, ClickUp, Monday.com, MySQL, PostgreSQL và nhiều nguồn khác mà không cần phần mềm trung gian nào. Điều này có nghĩa là nếu công ty bạn đang dùng Airtable, Notion, Google Sheets để quản lý khách hàng, bạn có thể xây cổng thông tin khách hàng trực tiếp trên dữ liệu đó mà không cần di chuyển hay nhân bản dữ liệu sang hệ thống mới. Quy trình tự động hóa thay thế Zapier và Make Softr có công cụ tự động hóa quy trình tích hợp cho phép bạn thiết lập các luồng xử lý nhiều bước mà trước đây cần Zapier hay Make để kết nối. Ví dụ khi khách hàng gửi biểu mẫu, hệ thống tự động tạo bản ghi trong cơ sở dữ liệu, gửi email xác nhận qua Gmail, thông báo qua Mail cho nhóm phụ trách và tạo công việc mới luôn— tất cả trong một quy trình mà không cần rời khỏi Softr. Softr phù hợp với những ai và dùng để làm gì? Các trường hợp sử dụng phổ biến nhất Softr được thiết kế cho hai nhóm ứng dụng chính: ứng dụng chỉ dùng nội bộ cho nhóm làm việc và ứng dụng hướng ra ngoài cho khách hàng hoặc đối tác. Cổng thông tin khách hàng: Nơi khách hàng đăng nhập để theo dõi dự án, tải tài liệu, gửi yêu cầu hoặc xem báo cáo — thay thế cho việc gửi email qua lại hoặc dùng Google Drive chung không có kiểm soát truy cập. Hệ thống quản lý quan hệ khách hàng tùy chỉnh: Thay vì mua Salesforce với hàng trăm tính năng không dùng đến, bạn xây hệ thống đúng theo quy trình bán hàng của công ty mình với chỉ những trường dữ liệu cần thiết. Mạng nội bộ công ty: Cổng thông tin nội bộ cho nhân viên truy cập tài liệu, quy trình làm việc, danh bạ và thông báo nội bộ. Phần mềm quản lý kho: Theo dõi hàng tồn kho, đơn đặt hàng và nhà cung cấp trong một hệ thống tùy chỉnh thay vì bảng tính không có kiểm soát phiên bản. Bảng điều khiển báo cáo: Tổng hợp dữ liệu từ nhiều nguồn vào một giao diện trực quan cho ban lãnh đạo hoặc khách hàng theo dõi. Celonis — công ty này dùng Softr để xây hệ thống quản lý kiến thức cho hơn 1.500 nhân viên. Minerva Network tăng số lượng đăng ký vận động viên lên 50% nhờ hệ thống quản lý quan hệ khách hàng và cổng thông tin tùy chỉnh. Urban's Group tích hợp 7 công cụ rời rạc vào một hệ thống quản lý doanh nghiệp duy nhất, tăng năng suất 25%. Softr phù hợp nhất với ai? Softr nhắm đến người vận hành doanh nghiệp, không phải lập trình viên. Nếu bạn là người quản lý vận hành, tiếp thị, nhân sự hay kinh doanh và đang phải dùng bảng tính hoặc gửi email qua lại để xử lý những quy trình hoàn toàn có thể tự động hóa, Softr là công cụ được thiết kế đúng cho vấn đề đó. Bạn không cần biết lập trình, không cần thuê lập trình viên và không cần học cú pháp kỹ thuật phức tạp. Tích hợp AI — điểm mới quan trọng nhất Softr gần đây ra mắt tính năng trợ lý AI tích hợp trực tiếp trong ứng dụng, cho phép người dùng cuối tương tác với dữ liệu bằng ngôn ngữ tự nhiên thay vì phải biết cấu trúc cơ sở dữ liệu. Ví dụ nhân viên kinh doanh có thể hỏi "Tháng này khách hàng nào chưa được liên hệ lại?" và hệ thống tự lọc dữ liệu trong hệ thống quản lý quan hệ khách hàng để trả lời, thay vì phải áp bộ lọc thủ công. Softr hỗ trợ kết nối với Claude của Anthropic, GPT và o3 của OpenAI, và Gemini của Google để chạy các trợ lý AI này — nghĩa là bạn có thể chọn mô hình phù hợp với ngân sách và nhu cầu của mình thay vì bị khóa vào một nhà cung cấp duy nhất. Giá và cách bắt đầu Softr có gói miễn phí cho phép bắt đầu thử nghiệm mà không cần thẻ tín dụng, phù hợp để xây một ứng dụng đơn giản và trải nghiệm luồng làm việc trước khi quyết định nâng cấp. Các gói trả phí mở rộng giới hạn số người dùng, số lượng ứng dụng, tính năng phân quyền nâng cao và hỗ trợ doanh nghiệp với các tiêu chuẩn bảo mật SOC 2, GDPR và đăng nhập một lần. Điểm đáng lưu ý với doanh nghiệp Việt Nam: Softr chưa thể kết nối thông tin với thuế cái này người dùng phải tự kết nối với hóa đơn và thanh toán. Về phần này ở Việt Nam thì có các nền tảng như Sepay hỗ trợ rất tốt. Nếu bạn đang dùng bảng tính để quản lý dữ liệu khách hàng, dự án hay kho hàng và nhận ra hệ thống đó đang bắt đầu không đủ dùng, Softr là thứ đáng thử trước khi quyết định đầu tư vào phần mềm chuyên nghiệp tốn kém hoặc thuê lập trình viên xây từ đầu. Bắt đầu tại softr.io với gói miễn phí và thử xây một cổng thông tin đơn giản trong một buổi — đó là cách nhanh nhất để biết nó có phù hợp với quy trình làm việc của bạn không.

Andrej Karpathy — đồng sáng lập OpenAI, cựu giám đốc AI tại Tesla và người đặt ra thuật ngữ "vibe coding" — đã chia sẻ trên X cách ông đang dùng AI, và câu trả lời không phải là viết code nhanh hơn mà là xây một hệ thống kiến thức cho bộ não thứ hai có khả năng tự duy trì, tự liên kết và tự cập nhật — đó là LLM Wiki. Wiki nghiên cứu của anh ấy viết về một chủ đề đã đạt 100 bài viết và 400.000 từ và điều đáng chú ý là toàn bộ do AI viết mà không cần ông gõ một chữ nào. Vấn đề với cách chúng ta đang dùng AI để tổ chức kiến thức RAG có tích lũy kiến thức theo thời gian như bộ não chúng ta không Hầu hết công cụ AI hiện tại xử lý tài liệu theo mô hình RAG — bạn tải lên tài liệu, đặt câu hỏi, hệ thống tìm đoạn văn bản liên quan rồi AI tổng hợp câu trả lời. NotebookLM của Google, ChatGPT với file upload, và hầu hết các quy trình AI đều dùng cách này vì nó rất đơn giản và dễ triển khai. Tuy nhiên Karpathy chỉ ra vấn đề cốt lõi mà ít người chú ý: RAG không tích lũy kiến thức. Mỗi lần bạn hỏi, hệ thống bắt đầu lại từ đầu — đọc lại tài liệu, tìm đoạn liên quan, ghép câu trả lời — rồi hỏi lại câu đó hôm sau thì nó lặp lại toàn bộ quá trình như chưa từng xảy ra. Tài liệu từ tháng 3 và tài liệu từ tháng 10 không tự kết nối với nhau tất nhiên là không có gì tích lũy và không có gì học được từ lần trước hoàn toàn không giống như cách bộ não chúng ta hoạt động. Karpathy mô tả sự thay đổi trong tư duy của mình bằng một câu rất ngắn nhưng nói lên nhiều thứ: phần lớn lượng token ông tiêu tốn gần đây không còn đi vào việc thao tác code mà đi vào việc thao tác kiến thức. LLM Wiki hoạt động như thế nào? LLM Wiki không phải phải phần mềm mà đây là một kiến trúc tư duy Obsidian Ý tưởng của Karpathy không phải là một phần mềm hay thư viện mới mà anh ấy công bố nó dưới dạng "idea file" để tạo ra kiến trúc giống với Obsidian — Anh ấy đã tạo ra file GitHub Gist được thiết kế để copy-paste trực tiếp vào một AI agent như Claude Code hoặc OpenAI Codex, rồi để agent tự xây hệ thống theo kiến trúc đó kết hợp với người dùng. Điều này có nghĩa là bạn không cài gì cả, mà thay vào đó bạn mô tả kiến trúc cho AI rồi AI tự triển khai nó cho bạn. Ba lớp kiến trúc cốt lõi của Wiki Hệ thống được tổ chức theo ba lớp rõ ràng và mỗi lớp có vai trò không thể thay thế cho nhau: Thư mục nguồn thô (raw/): Nơi bạn thả bất cứ tài liệu nào vào — PDF, bài báo, transcript, ghi chú, đoạn tweet — và AI đọc nhưng không bao giờ sửa thư mục này. Nguyên tắc thiết kế ở đây rất quan trọng: thu thập trước, tổ chức sau, tức là bạn không cần phải phân loại hay chuẩn bị tài liệu trước khi đưa vào. Wiki (wiki/): Thư mục chứa toàn bộ các file markdown do AI tạo và duy trì, và đây là nơi kiến thức được biên dịch, liên kết và tổng hợp. Mỗi tài liệu trong raw/ được AI đọc và tích hợp vào wiki — cập nhật các trang liên quan, ghi chú mâu thuẫn, tạo backlink sang các khái niệm liên quan. File cấu hình (CLAUDE.md hoặc tương đương): Bộ quy tắc nói cho AI biết cách tổ chức wiki, format bài viết, xử lý mâu thuẫn và duy trì nhất quán xuyên suốt toàn bộ hệ thống. Karpathy mô tả mối quan hệ giữa các thành phần bằng một câu rất hình ảnh: "Obsidian là IDE. LLM là lập trình viên. Wiki là codebase." Bạn không tự viết wiki mà thay vào đó bạn đặt câu hỏi, khám phá, trong khi AI làm phần việc tẻ nhạt là duy trì và cập nhật cơ sở dữ liệu. Vòng lặp tự duy trì là điểm khác biệt thực sự Ba thao tác chạy liên tục không cần can thiệp Điều làm LLM Wiki khác với các công cụ ghi chú AI thông thường là vòng lặp hoạt động tích cực sau khi Wiki đã được xây dựng và AI không chỉ tóm tắt tài liệu một lần rồi thôi mà nó chạy ba thao tác liên tục: Ingest (thu thập): Khi bạn thả một tài liệu mới vào thư mục nguồn, AI đọc nó, trích xuất thông tin quan trọng và tích hợp vào wiki — cập nhật các trang đã có, tạo trang mới nếu cần, đồng thời ghi chú chỗ nào thông tin mới mâu thuẫn với cái cũ thay vì xóa đi một cách tùy tiện. Query (truy vấn): Bạn hỏi bằng ngôn ngữ tự nhiên và vì wiki đã được biên dịch và cấu trúc sẵn nên AI trả lời với độ chính xác cao và có thể trích dẫn đến từng trang cụ thể, thay vì ghép câu trả lời từ các đoạn rải rác như RAG thông thường. Lint (kiểm tra chất lượng): AI định kỳ quét toàn bộ wiki để phát hiện link bị hỏng, trang cô lập không được liên kết với phần còn lại, thông tin mâu thuẫn giữa các trang, và lỗ hổng kiến thức chưa được bao phủ. Karpathy gọi đây là "CI/CD cho knowledge base" — tức là hệ thống tự kiểm tra chất lượng của chính mình. Karpathy giải thích lý do hệ thống này bền vững hơn wiki truyền thống do con người duy trì bằng một nhận xét đơn giản nhưng rất chính xác: "Con người bỏ cuộc với wiki vì gánh nặng bảo trì tăng nhanh hơn giá trị nó mang lại. LLM không chán, không quên cập nhật tài liệu đối chiếu và có thể chỉnh 15 file trong một lần chạy." Tại sao không cần RAG ở quy mô cá nhân? Context window đã đủ lớn để thay thế vector database Lập luận gây tranh cãi nhất trong đề xuất của Karpathy là tuyên bố RAG không cần thiết ở quy mô cá nhân, và logic của anh ấy như sau: một bộ não thứ hai toàn diện — dù bao phủ toàn bộ lĩnh vực nghiên cứu của bạn — thường chỉ khoảng 500.000 đến 2 triệu token sau khi biên dịch thành markdown. Với các model có context window dài hiện tại, toàn bộ Wiki đó có thể đưa vào context trong một lần truy vấn mà không cần hệ thống tìm kiếm vector phức tạp nào. Karpathy báo cáo rằng ở quy mô khoảng 100 bài viết và 400.000 từ, hệ thống xử lý câu hỏi phức tạp tốt mà không cần vector database hay RAG infrastructure nào, vì AI tự xây và duy trì các file index và tóm tắt rồi điều hướng qua toàn bộ tập hợp văn bản hiệu quả nhờ cấu trúc tự xây đó. Tuy nhiên cần lưu ý một điểm quan trọng: giới hạn này có thực. Khi wiki vượt qua một ngưỡng nhất định có thể là vài triệu token thì context window bắt đầu trở thành nút thắt cổ chai thực sự, và lúc đó các công cụ tìm kiếm như qmd (hybrid BM25/vector search cho markdown) sẽ cần được tích hợp thêm để duy trì hiệu suất. Cách bắt đầu thực tế trong 15 phút Các bước đầu tiên để có wiki đầu tiên như thế nào Karpathy thiết kế hệ thống này để bất kỳ ai có Claude Code hoặc công cụ AI agent tương đương đều có thể triển khai ngay mà không cần kiến thức kỹ thuật chuyên sâu. Quy trình cơ bản gồm bốn bước: Tạo một vault Obsidian mới — đây chỉ là một thư mục trên máy tính, nơi toàn bộ file markdown sẽ được lưu và Obsidian chỉ là giao diện để bạn đọc và điều hướng. Tạo hai thư mục con: raw/ để chứa tài liệu nguồn và wiki/ để AI viết và duy trì — hai thư mục này là tất cả những gì bạn cần thiết lập thủ công. Copy GitHub Gist của Karpathy tại Github và paste vào Claude Code hoặc AI agent bạn đang dùng, vì Gist được viết như một bộ hướng dẫn cho agent và để agent tự xây phần chi tiết cùng bạn thay vì bạn phải làm tất cả. Thả vài tài liệu đầu tiên vào raw/ và để agent bắt đầu biên dịch wiki — từ đây mọi thứ sẽ tự chạy. Cả hệ thống chạy hoàn toàn trên máy local với chỉ hai phụ thuộc là Obsidian để xem và điều hướng, và một AI agent để viết và duy trì. Điều này có nghĩa là không có vendor lock-in, không có dữ liệu gửi lên cloud nếu bạn dùng model local, và không có phí thuê bao nào ngoài chi phí gọi API của model bạn chọn. LLM Wiki so với MemPalace, Mem0 và Zep Bốn triết lý khác nhau cho cùng một vấn đề Cùng thời điểm LLM Wiki của Karpathy được chú ý, cộng đồng AI cũng đang thảo luận về MemPalace là một hệ thống bộ nhớ mã nguồn mở do diễn viên Milla Jovovich và kỹ sư Ben Sigman xây dựng, đạt 96.6% trên benchmark LongMemEval. Cả bốn hệ thống LLM Wiki, MemPalace, Mem0 và Zep đều giải quyết vấn đề AI không nhớ ngữ cảnh giữa các session, nhưng theo bốn triết lý rất khác nhau và phù hợp với bốn nhu cầu khác nhau. Cách dễ nhất để hình dung sự khác biệt là qua một tình huống cụ thể: bạn đã có 6 tháng hội thoại với AI về một dự án nghiên cứu — mọi quyết định, mọi lý luận, mọi phương án bị loại bỏ. Mở session mới và hỏi lại "Tại sao lúc đó mình chọn hướng A thay vì B?" — mỗi hệ thống sẽ trả lời theo cách hoàn toàn khác nhau. Mem0 hoạt động như người thư ký ghi tóm tắt cuộc họp, nghĩa là nó dùng AI để đọc hội thoại, trích xuất các "facts" quan trọng như sở thích và quyết định đã đưa ra, rồi lưu vào vector database. Khi bạn hỏi lại, nó tìm fact gần nhất với câu hỏi và trả về — nhanh, dễ tích hợp và phù hợp với chatbot thương mại, nhưng lý do đằng sau quyết định cùng chuỗi lập luận dẫn đến kết quả thường đã biến mất vì AI đã tự quyết định thứ đó không quan trọng. Zep tinh vi hơn một bước với knowledge graph có yếu tố thời gian, tức là nó không chỉ nhớ "bạn thích X" mà nhớ "tháng 1 bạn nghĩ X, tháng 3 bạn đổi sang Y vì lý do Z". Điểm mạnh là hiểu được sự thay đổi theo thời gian và phù hợp cho ứng dụng cần track tiến trình người dùng, tuy nhiên Zep vẫn dùng AI để quyết định thông tin nào được đưa vào graph nên vẫn có nguy cơ mất context quan trọng — đặc biệt là những lý luận phức tạp mà AI đánh giá là không cần thiết. MemPalace theo triết lý ngược hoàn toàn: "lưu tất cả, rồi làm cho nó tìm được". Thay vì để AI quyết định cái gì đáng nhớ, MemPalace lưu nguyên văn toàn bộ hội thoại vào ChromaDB rồi tổ chức theo cấu trúc phân cấp lấy cảm hứng từ kỹ thuật ký ức cung điện của người Hy Lạp cổ: Wing → Hall → Room → Closet → Drawer. Không có gì bị lọc bỏ nhưng mọi thứ đều có địa chỉ rõ ràng để tìm lại, và hệ thống chạy hoàn toàn trên máy local mà không gửi dữ liệu ra ngoài. LLM Wiki của Karpathy giải quyết bài toán khác hẳn so với ba hệ thống trên. Thay vì nhớ hội thoại, nó biên dịch tài liệu thành kiến thức có cấu trúc — bạn không đưa vào lịch sử chat mà đưa vào bài báo, transcript, ghi chú nghiên cứu, rồi AI xây một wiki markdown có liên kết, tóm tắt và có thể truy vấn. Mỗi tài liệu mới không chỉ được lưu mà được tích hợp vào kiến thức đã có, tạo ra kết nối mới giữa các khái niệm và làm giàu thêm những gì đã biết. Bảng so sánh để chọn đúng công cụ cho đúng nhu cầu table { width: 100%; border-collapse: collapse; margin: 20px 0; font-family: Arial, sans-serif; } th, td { border: 1px solid #ddd; padding: 12px; text-align: left; } th { background-color: #f4f4f4; font-weight: bold; } tr:nth-child(even) { background-color: #fafafa; } tr:hover { background-color: #f1f1f1; } Tiêu chí LLM Wiki MemPalace Mem0 Zep Nguồn dữ liệu Tài liệu nghiên cứu, bài báo, transcript Lịch sử hội thoại với AI Lịch sử hội thoại Lịch sử hội thoại Cách lưu trữ Markdown có cấu trúc, AI biên dịch Nguyên văn toàn bộ, phân cấp không gian Facts được trích xuất bởi AI Knowledge graph có thời gian AI có lọc thông tin? Có — AI quyết định cách tổ chức Không — lưu tất cả Có — AI chọn facts quan trọng Có — AI chọn entities và relations Chạy local? Có — chỉ cần Obsidian + model Có — ChromaDB + SQLite trên máy Không — cloud service Không — cloud service Phù hợp nhất với Nghiên cứu, học tập, tổng hợp tài liệu Nhớ ngữ cảnh AI theo thời gian dài Chatbot, ứng dụng thương mại App cần track tiến trình người dùng Điểm yếu Không nhớ hội thoại, cần setup ban đầu Tốn dung lượng, chưa có UI trực quan Mất lý luận phức tạp Phụ thuộc cloud, vẫn có thể mất context Điểm quan trọng nhất cần nhớ khi chọn: LLM Wiki và MemPalace giải quyết hai vấn đề khác nhau và hoàn toàn có thể dùng song song thay vì phải chọn một. MemPalace nhớ lịch sử các cuộc trò chuyện của bạn với AI — tức là nó biết bạn đã nói gì, đã quyết định gì và đã thay đổi quan điểm như thế nào. LLM Wiki thì tổ chức kiến thức từ thế giới bên ngoài đó có thể là bài báo bạn đọc, video bạn xem, tài liệu bạn thu thập. Kết hợp cả hai cho phép AI vừa hiểu bạn là ai vừa hiểu lĩnh vực bạn đang nghiên cứu và cả 2 kết hợp mới thành bộ não thứ hai đầy đủ hơn. Insight đáng suy nghĩ nhất từ LLM Wiki Phần đông chúng ta đang dùng AI như một công cụ tạo ra câu trả lời nhất thời — mỗi session bắt đầu từ đầu và không có gì tích lũy. LLM Wiki của Karpathy gợi ý một hướng khác: dùng AI như một bộ biên dịch kiến thức, nơi mỗi tài liệu mới không chỉ được lưu trữ mà được tích hợp vào một cấu trúc đã có, tạo ra kết nối mới và làm giàu những gì đã biết. Nếu bạn đang nghiên cứu một lĩnh vực cụ thể — AI, công nghệ, tài chính hay bất kỳ thứ gì — đây là thứ đáng thử ngay hôm nay: tạo một thư mục, thả vào đó 5 bài viết bạn đã đọc gần đây, và để Claude Code bắt đầu xây wiki đầu tiên. Sau một tuần thêm tài liệu đều đặn, bạn sẽ thấy sự khác biệt giữa một kho lưu trữ và một cơ sở kiến thức thực sự. Nếu bạn đang nghiên cứu một lĩnh vực cụ thể — AI, công nghệ, tài chính, bất kỳ thứ gì — đây là thứ đáng thử ngay hôm nay: tạo một thư mục, thả vào đó 5 bài viết bạn đã đọc gần đây, và để Claude Code bắt đầu xây wiki đầu tiên. Sau một tuần thêm tài liệu đều đặn, bạn sẽ thấy sự khác biệt giữa một kho lưu trữ và một cơ sở kiến thức thực sự.

Milla Jovovich (nếu ai đã xem series Resident Evil chắc chắn quen mặt với Alice và cả Leeloo trong The Fifth Element nữa) Cô đã gây bất ngờ lớn cho cộng đồng AI khi ra mắt MemPalace – một hệ thống bộ nhớ AI mã nguồn mở, miễn phí, đạt điểm cao nhất từ trước đến nay trên benchmark LongMemEval. Mọi người đang nói đùa rằng cô vẫn chưa hề thoát vai khi vẫn tiếp tục làm cho tổ chức Umbrella để xây dựng Red Queen mới. Dự án này được cô hợp tác phát triển cùng lập trình viên Ben Sigman, lấy cảm hứng từ kỹ thuật “Memory Palace” (Cung điện ký ức) cổ xưa của người Hy Lạp. Thay vì chỉ tóm tắt hay lưu trữ thông tin một cách rời rạc, MemPalace xây dựng một “cung điện ảo” có cấu trúc rõ ràng: các cánh, hành lang, phòng, tủ, ngăn kéo… để tổ chức toàn bộ cuộc trò chuyện, ý tưởng và kiến thức một cách logic và dễ tìm kiếm. Điều đó cho ta thấy tiềm năng của AI cực lớn như thế nào khi mà nó hỗ trợ từ diễn viên, giáo sư bác sĩ tạo ra những nền tảng AI mạnh mẽ hoàn toàn có thể sử dụng được trong công việc. Tại sao MemPalace gây bất ngờ? Điều bất ngờ đầu tiên là tài khoản Github của cô là chính chủ mọi người có thể xem tại https://github.com/milla-jovovich/ và điều thứ hai là Milla Jovovich không hoạt động như một KOL tham gia vào MemPalace hoàn toàn nghiêm túc, cô ấy commit code bằng chính tài khoản Github chính chủ đó, quá bất ngờ nếu mọi người không tin có thể xem ở Commit này. Còn nếu nói về thuần kĩ thuật thì MemPalace hiện đang xuất hiện những ưu điểm sau Hoàn toàn cục bộ (local): Chạy trên máy tính cá nhân của bạn, không cần cloud, không gửi dữ liệu ra ngoài, bảo mật cao và không tốn phí. Lưu trữ 100% thông tin: Không tóm tắt (summarization) nên không mất mát chi tiết quan trọng. Tích hợp dễ dàng: Hỗ trợ nhiều mô hình AI như Claude, ChatGPT, Gemini, Llama… và có thể nhập dữ liệu từ lịch sử chat, Slack, v.v. Benchmark ấn tượng: Đạt điểm cao nhất (gần perfect score) trên LongMemEval – một bài kiểm tra khả năng nhớ dài hạn, truy vấn đa bước và cập nhật kiến thức theo thời gian. MemPalace không chỉ là một công cụ lưu trữ, mà là cách tiếp cận mới giúp AI “nhớ như người thật” – tổ chức thông tin theo không gian thay vì chỉ dựa vào vector search hay tóm tắt. Phân tích công nghệ AAK ngôn ngữ bí mật giúp nén bộ nhớ Một điểm nổi bật trong MemPalace là công nghệ AAK (experimental Abbreviation-As-A-Key). Đây là lớp nén thông minh, hoạt động như một “ngôn ngữ rút gọn” mà bất kỳ LLM nào cũng có thể đọc được mà không cần decoder riêng. AAK là gì và nó có dễ hiểu không? Hãy tưởng tượng bạn có một cuốn sổ tay dày cộm ghi chép hàng tháng cuộc trò chuyện. Thay vì giữ nguyên từng chữ (tốn nhiều dung lượng và token), AAK sẽ rút gọn thông tin lặp lại một cách khéo léo: Sử dụng mã viết tắt cho các thực thể thường gặp (entity codes). Thêm dấu cấu trúc để giữ mối quan hệ. Cắt ngắn câu nhưng vẫn giữ ý chính. Ví dụ đơn giản: Thay vì lặp lại “Người dùng thích dùng PostgreSQL vì nó ổn định, mã nguồn mở và hiệu suất cao”, AAK có thể nén thành dạng ngắn gọn nhưng vẫn dễ hiểu như “User prefers Postgres [reason: stable, open-source, high perf]” và tất nhiên nó có thể tiết kiệm token. Ưu điểm của AAK là gì Nén mạnh (có thể lên đến 30x ở một số trường hợp), giúp đưa hàng tháng dữ liệu vào context window mà không vượt giới hạn. Vẫn readable (đọc được) trực tiếp bởi mọi mô hình AI. Hoàn toàn cục bộ, không phụ thuộc cloud. Nhược điểm hiện tại của AAK Đây là tính năng thử nghiệm. Trên benchmark LongMemEval, phiên bản dùng AAK đôi khi cho điểm thấp hơn chế độ raw (không nén) vì tính “lossy” (mất một phần thông tin). Đội ngũ đang tiếp tục cải tiến. Tóm lại, AAK giống như việc bạn viết “ngắn gọn nhưng vẫn đủ ý” trong ghi chú cá nhân, giúp AI đọc nhanh và nhớ nhiều hơn mà không cần mô hình siêu lớn. So sánh Mem0 và Zep các ông lớn bộ nhớ AI hiện nay Mem0 và Zep là hai framework bộ nhớ AI phổ biến nhất cho agent và ứng dụng chat. Chúng giải quyết vấn đề “AI hay quên” theo cách khác nhau. Mem0 (như “người bạn cá nhân hóa”) Cách hoạt động: Tự động trích xuất thông tin quan trọng từ cuộc trò chuyện rồi lưu vào vector database + tùy chọn knowledge graph. Ưu điểm: Dễ dùng, tiết kiệm token, tốt cho cá nhân hóa lâu dài. Nhược điểm: Có thể bỏ sót chi tiết nếu tóm tắt quá mạnh. Điểm benchmark LongMemEval khoảng 49%. Zep hoạt động như nhà sử học chuyên nghiệp Cách hoạt động: Xây dựng temporal knowledge graph – mọi sự kiện đều có mốc thời gian rõ ràng. Ưu điểm: Mạnh về truy vấn phức tạp, theo dõi sự thay đổi theo thời gian. Điểm benchmark khoảng 64%. Nhược điểm: Xây dựng graph tốn thời gian và tài nguyên hơn. Bảng so sánh nhanh table { width: 100%; border-collapse: collapse; /* Gộp các đường kẻ lại thành một */ margin: 20px 0; font-family: Arial, sans-serif; } th, td { border: 1px solid #ddd; /* Màu đường kẻ xám nhạt */ padding: 12px; text-align: left; } th { background-color: #f4f4f4; /* Màu nền cho tiêu đề bảng */ font-weight: bold; } tr:nth-child(even) { background-color: #fafafa; /* Tô màu xen kẽ cho dễ đọc */ } tr:hover { background-color: #f1f1f1; /* Hiệu ứng khi di chuột qua hàng */ } Tiêu chí Mem0 Zep MemPalace (Milla Jovovich) Phong cách Cá nhân hóa, tiết kiệm Temporal (thời gian), sâu sắc Cung điện ký ức – tổ chức không gian Lưu trữ Vector + Graph (tùy chọn) Temporal Knowledge Graph Toàn bộ dữ liệu + cấu trúc phòng + AAK nén Benchmark ~49% ~64% Cao nhất (gần 100% ở một số config) Chi phí/Tài nguyên Thấp Trung bình – cao Rất thấp (chạy local, miễn phí) Dễ dùng Rất dễ Trung bình Dễ, một lệnh cài đặt Bảo mật Tốt (có self-host) Tốt (có cloud) Xuất sắc (100% local) MemPalace mang lại điều gì cho cộng đồng AI MemPalace của Milla Jovovich mang đến làn gió mới cho lĩnh vực AI memory: chứng minh rằng không cần mô hình khổng lồ hay cloud đắt tiền, chỉ cần ý tưởng sáng tạo từ kỹ thuật cổ xưa kết hợp công nghệ hiện đại cũng có thể tạo ra kết quả vượt trội. Nếu bạn đang xây dựng AI agent hoặc muốn AI cá nhân của mình “nhớ dai” hơn, MemPalace đáng để thử ngay (cài qua pip và chạy local). Đây không chỉ là công cụ, mà là bước tiến thú vị trong việc làm AI gần gũi và đáng tin cậy hơn với con người.

Nhận việc xong rồi ngồi nhìn màn hình cả tiếng không biết bắt đầu từ đâu đây là điều này xảy ra với người dùng Antigravity không kém gì người làm việc thông thường. Vấn đề không phải bạn kém hay lười mà là não bạn không sợ việc khó, nó sợ việc không rõ ràng và khi bạn giao cho AI một yêu cầu mơ hồ thì kết quả Antigravity tạo ra cũng sẽ mơ hồ không kém. Tại sao giao việc cho Antigravity mà vẫn ra kết quả tệ? Antigravity là agent thực sự vì nó có thể lên kế hoạch, viết code, chạy lệnh và tự kiểm tra kết quả. Nhưng đây chính xác là lý do khiến nhiều người thất vọng lần đầu dùng, họ bắt tay ngay giao cho Antigravity một việc cực lớn và mơ hồ, agent chạy 30 phút theo hướng sai quota tiêu hao hết mà kết quả không dùng được. Các nhà khoa học nhận thức gọi trạng thái đóng băng trước việc lớn là quá tải nhận thức - cognitive overload. Não không biết xử lý từ đâu nên chọn cách an toàn nhất là không làm gì cả và vòng lặp quen thuộc trông như thế này: Não sợ làm sai → đóng băng Không bắt đầu được → hạn chót đến gần Càng sợ hơn → lại đóng băng tiếp Với Antigravity, quá tải nhận thức của người dùng trực tiếp tạo ra prompt tệ, và prompt tệ tạo ra agent chạy sai hướng tất nhiên vòng lặp này tốn token và thời gian hơn bất kỳ lỗi kỹ thuật nào. Có ba cách tiếp cận để phá vỡ vòng lặp đó, tùy vào mức độ bạn đã hiểu yêu cầu và đã thiết lập quy trình đến đâu. Ba cách tiếp cận việc hiệu quả với Antigravity Cách 1: Tải source code của người đã có kinh nghiệm Đây là cách nhanh nhất để bắt đầu mà không mất thời gian thiết lập từ đầu, đặc biệt phù hợp khi bạn chưa biết quy trình của mình nên trông như thế nào. Antigravity hoạt động tốt nhất khi có đủ ngữ cảnh về dự án dó là khi nó có thể nhìn thấy các rules, workflow, skills và thư mục bộ nhớ ghi lại kiến thức cũ. Thay vì tự xây dựng tất cả, bạn sao chép source code của người đã thiết lập đầy đủ, tải về và để agent đọc toàn bộ cấu hình có sẵn và điều tất nhiên là phải được người đó đồng ý hoặc đã public . Lưu ý: Rất nhiều người đã tận dụng điều này để phát tán mã độc vậy nên chỉ cài những source code từ chính thức từ Anthropic, Google, xAI, OpenAI,... hay những người có uy tín. Khi bạn sao chép kho code của người đã thiết lập đầy đủ, tải về và để agent đọc toàn bộ cấu hình có sẵn, bạn nhận được hai lợi ích cùng lúc: Agent hiểu ngay phong cách viết skills, workflow, nền tảng kỹ thuật và các rules của dự án từ ngày đầu mà không cần bạn giải thích lại. Bạn học được cách người có kinh nghiệm thiết lập quy trình — từ cách tổ chức thư mục bộ nhớ đến cách viết quy tắc cho agent mà không cần tự mày mò từ đầu. Tuy nhiên khi bạn không hiểu các ý đồ của người viết thì hoàn toàn không thể sử dụng hết chức năng của source code này giống như một mặc một chiếc áo quá rộng vậy. Cách 2: Tự giải quyết từng bước nhỏ trước khi giao việc lớn Đây là cách tiết kiệm hạn mức nhất và cũng là bài học mình học được sau nhiều lần lãng phí vì giao việc quá to ngay từ đầu. Bộ khung 4C — Làm rõ (Clarify), Tách nhỏ (Chunk), Tham khảo (Consult), Cam kết (Commit) vốn dùng để giải quyết việc của con người, nhưng áp dụng vào Antigravity lại cực kỳ hiệu quả vì lý do đơn giản: bạn càng rõ ràng trước khi giao việc, agent càng ít phải đoán. Bước làm rõ: Trước khi gõ bất cứ thứ gì vào Antigravity, hãy tự trả lời 4 câu hỏi sau: Kết quả cuối cùng trông như thế nào? Ai sẽ dùng cái này? Hạn chót thật sự là khi nào? Thế nào là hoàn thành tốt việc này? Năm phút ngồi trả lời sẽ thay đổi hoàn toàn chất lượng câu lệnh. Thay vì "xây cho mình một hệ thống đăng nhập", bạn sẽ viết được "xây hệ thống đăng nhập bằng Google OAuth cho ứng dụng Next.js, lưu phiên làm việc vào Firestore, chuyển hướng về trang chính sau khi đăng nhập thành công, chạy thử trên máy và chụp ảnh màn hình để mình xem". Bước tách nhỏ: Dựa trên hiệu ứng Zeigarnik một khi bạn bắt đầu dù chỉ một bước nhỏ, não tự động muốn hoàn thành những bước tiếp theo. Hãy hỏi agent "chia task thành các bước nhỏ nhất để bắt đầu ?" và đi qua từng bước một. Dành khoảng thời gian nhất định để tìm hiểu cấu trúc, kiểm tra xem agent hiểu đúng yêu cầu chưa trước khi để nó chạy việc lớn. Nhưng hãy nhớ là chỉ giành một khoảng thời gian nhất định thôi nhé vì chỉ khi thực hiện thì nhiều vấn đề mới thực sự lộ ra chúng ta mới tìm ra cách giải quyết. Ở bước này chúng ta có thể sử dụng luôn chế độ Fast Mode cho agent thực hiện luôn mà không cần phải tạo khung sườn hay suy nghĩ sâu hoặc thậm chí nếu không có gì đặc biệt thì Gemini Flash hoàn toàn có thể đảm nhiệm tốt phần này cực kì tiết kiệm token cho Gemini Pro và Claude Opus. Bước tham khảo: Đừng tự làm khó bản thân khi đã có người đi trước. Tương tự như cách 1 tải mã nguồn người khác về dùng, bước này là chủ động tìm và đọc cách họ tiếp cận vấn đề xem họ chia việc ra sao, viết câu lệnh như thế nào, thiết lập quy trình ra sao rồi chắt lọc những phương pháp phù hợp để áp dụng vào việc của mình. Bạn không cần sao chép nguyên xi, chỉ cần học từ cấu trúc tư duy của họ. Điều này đặc biệt có giá trị với những loại việc bạn chưa từng giao cho agent bao giờ vì người đã làm trước thường đã tìm ra cả những điểm dễ đi sai mà bạn chưa biết. Bước cam kết: Thay vì cố lên kế hoạch hoàn hảo cho toàn bộ việc trước khi bắt đầu hãy chỉ cam kết 10 đến 15 phút đầu tiên để tìm hiểu. Hỏi agent một câu nhỏ, xem nó phản hồi thế nào và lúc nào cũng thêm câu prompt “Nếu vấn đề không rõ hoàn toàn có thể hỏi lại không được tự ý quyết định”. Chắc chắn sẽ có những thiếu sót nhưng chúng ta sẽ cảm thấy được chúng ta đã đi được một quãng đường xa với Antigravity với task thay vì ngồi viết prompt hoàn hảo hàng giờ mà chưa làm được gì chắc chắn sẽ rất chán. Cách 3: Giao việc lớn ngay khi đã có quy trình thiết lập sẵn Cách này chỉ hoạt động khi bạn đã qua hai cách trên — đã có quy trình rõ ràng, bộ nhớ ngữ cảnh skills, và agent đã quen với các rules, workflow. Đây có thể coi là bước cam kết trong bộ khung 4C: thay vì lo lắng về toàn bộ việc, bạn cần hướng agent vào một kết quả cụ thể và để agent tự xử lý phần còn lại. Lúc này, chế độ Plan Mode là lựa chọn tốt hơn chế độ Fast Mode vì agent phải tạo kế hoạch thực hiện chi tiết trước khi thực hiện task, từ đó bạn có thể xem lại kế hoạch đó để lại ghi chú nếu cần điều chỉnh rồi mới để agent chạy. Cách này kết hợp tốc độ của agent với tầm nhìn chiến lược của bạn vì quy trình đã có sẵn nên bước làm rõ nên được tích hợp vào các rules, workflow, skills để agent không cần bạn giải thích lại ngữ cảnh mỗi lần. Đặc biệt đây là cách cực kì ưa thích đối với các Pro khi mà họ dùng Claude để lên kế hoạch cực xịn rồi sau đó họ đưa vào cho GLM để thực thi taks để tiết kiệm token. Chúng ta nên chọn cách nào cho công việc của chúng ta Ba cách này sử dụng trong Antigravity không loại trừ nhau mà theo thứ tự từ ít đến nhiều ngữ cảnh: Việc mơ hồ, chưa biết bắt đầu từ đâu: Sao chép source code người khác hoặc dùng bộ khung 4C để làm rõ trước. Việc đã hiểu nhưng lớn và phức tạp: Đi qua từng bước nhỏ, dùng Flash cho bước đơn giản và dành Pro cho bước cần suy nghĩ sâu. Việc đã có quy trình rõ ràng: Giao thẳng với chế độ Plan Mode, để agent tự xử lý trong khi bạn làm việc khác. Điểm chung của cả ba cách là bạn phải làm một việc trước khi mở Antigravity: suy nghĩ. Không phải suy nghĩ dài — chỉ cần 5 đến 10 phút ngồi làm rõ yêu cầu trước khi giao cho agent. Khoảng thời gian đó tiết kiệm nhiều hạn mức hơn bất kỳ kỹ thuật tối ưu prompt nào khác.

Anthropic đã vô tình hay cố ý để lộ toàn bộ mã nguồn của Claude Code chỉ vì một lỗi cấu hình cơ bản khi đóng gói npm. Hơn 512.000 dòng TypeScript, gần 1.900 file và cả những tính năng chưa từng công bố bỗng chốc phổ biến ra toàn thế giới nhưng điều đáng nói hơn là thời điểm xảy ra đúng một ngày trước Cá Tháng Tư . Lỗi ngớ ngẩn từ một công ty tỷ đô Vụ rò rỉ không đến từ hacker hay tấn công bên ngoài mà hoàn toàn do lỗi nội bộ vì Anthropic đã vô tình để sót tệp cli.js.map nặng khoảng 59.8 MB trong gói npm khi phát hành. Tệp .map này chứa sourcesContent — thứ vốn dùng để hỗ trợ debug — nhưng lại lưu trữ toàn bộ mã nguồn gốc dưới dạng văn bản thuần túy, ai cũng có thể đọc được. Hậu quả là toàn bộ logic kiến trúc, system prompts và các tính năng bí mật của Claude Code bị phơi bày hoàn toàn ra ngoài nhưng điều khiến nhiều người ngạc nhiên hơn cả là lỗi này tồn tại suốt 20 ngày mà không được phát hiện mặc dù Anthropic chính là công ty sở hữu runtime Bun, thứ liên quan trực tiếp đến lỗi đóng gói này. Claw-code là bản viết lại bằng Rust xuất hiện trong vài giờ Trong khi Anthropic đang gửi đơn DMCA để yêu cầu GitHub gỡ các bản sao, lập trình viên Sigrid Jin đã làm điều ai cũng nghĩ tới đó là đọc toàn bộ mã nguồn bị rò rỉ và viết lại một phiên bản mới hoàn toàn bằng Rust.Việc này càng chứng minh rằng, công cụ AI mạnh chỉ thực sự nguy hiểm khi rơi vào tay người biết cách khai thác triệt để. Điểm quan trọng về mặt pháp lý là dự án này dùng kỹ thuật clean-room rewrite — tức là tái triển khai dựa trên đặc tả hành vi quan sát được thay vì sao chép trực tiếp code gốc, nên về lý thuyết không vi phạm bản quyền của Anthropic. Về hiệu suất, Rust hứa hẹn nhanh hơn đáng kể so với bản gốc chạy trên Bun. Repo này khi thực hiện bài viết là có tới 108k lượt star một con số cực nhanh trên GitHub. Link repo claw-code https://github.com/instructkr/claw-code Lưu ý: Rất nhiều người đã tận dụng điều này để phát tán mã độc tốt nhất bây giờ là chỉ nhìn và đọc thôi chứ không nên cài cắm, bấm link lạ những thứ liên quan đến việc phán tán Claude Code Những tính năng chưa từng được công bố của Claude Code Phần thú vị nhất của vụ rò rỉ không phải là kiến trúc kỹ thuật mà là các tính năng bí mật bên trong. Mặc dù có rất nhiều tính năng rò rỉ nhưng ba cái tên đang được cộng đồng bàn tán nhiều nhất là Buddy System, KAIROS và ULTRAPLAN. Thứ cưng ảo Buddy System Đây là hệ thống thú cưng ảo kiểu Tamagotchi ngay trong terminal, có 18 loài khác nhau với các chỉ số như "Debugging" và "Chaos", thậm chí có tỉ lệ rơi đồ hiếm Shiny là 1%. Điều đáng chú ý là trong mã nguồn ghi rõ thời gian thử nghiệm tính năng này là từ ngày 01/04 đến 07/04/2026 đúng vào dịp Cá Tháng Tư. Chế độ KAIROS tự hoạt động Đây là chế độ trợ lý luôn hoạt động, có khả năng tự thực hiện tác vụ mà không cần người dùng ra lệnh, nếu phát hành thì sẽ là một bước tiến đáng kể so với cách Claude Code hoạt động hiện tại. ULTRAPLAN kéo dài thời gian suy nghĩTính năng này cho phép offload các tác vụ lập kế hoạch phức tạp lên cloud với thời gian "suy nghĩ" lên đến 30 phút, dành cho các bài toán cần reasoning sâu. Tai nạn thật hay chiến dịch PR ngày cá tháng Tư của Anthropic? Thời điểm xảy ra vụ việc đã làm dấy lên không ít hoài nghi. Một số lập luận ủng hộ giả thuyết PR có chủ đích: tính năng Buddy System được lên lịch thử nghiệm đúng ngày 1/4; vụ "leak" vô tình giúp Anthropic phô diễn năng lực kỹ thuật ấn tượng và chuyển hình ảnh từ "công ty cứng nhắc với bên thứ ba" sang "nạn nhân tài năng" trong mắt cộng đồng và việc một công ty sở hữu Bun lại mắc lỗi liên quan đến chính Bun suốt 20 ngày mà không phát hiện nghe có vẻ quá khó tin. Tuy nhiên cũng có lập luận ngược lại: lỗi sourcemap trong npm không phải hiếm, ngay cả với các công ty lớn, và việc code bị clone hàng chục nghìn lần trên GitHub không phải thứ một công ty đang chuẩn bị IPO muốn xảy ra. Anthropic chưa lên tiếng xác nhận hay phủ nhận bất kỳ điều gì ngoài các đơn DMCA. Dù là tai nạn thật hay kịch bản có tính toán, mã nguồn Claude Code đã cung cấp một trong những cái nhìn hiếm có nhất vào cách xây dựng một hệ thống agentic AI thực tế kiến trúc, system prompts, cách tổ chức file và cả những tính năng chưa ra mắt. Nếu bạn quan tâm đến việc xây dựng AI agent, repo claw-code hiện vẫn còn và là tài liệu về AI không chính thức đáng đọc nhất trong năm nay.

Đây là Van Dijk mà chúng ta biết hay sao. Nhìn vào hai tấm ảnh cùng chụp Van Dijk trong EA Sports FC: một tấm ghi "DLSS 5 Off", một tấm ghi "DLSS 5 On" với cùng một khung hình, cùng một pha bóng. Nhưng khuôn mặt trông khác, nó thể hiện sắc nét hơn và có chiều sâu hơn, cộng thêm ánh sáng đổ bóng tự nhiên hơn, tất nhiên cũng vì thế mà trở nên ít giống nhân vật gốc hơn. Đây chính là điều Nvidia vừa giới thiệu tại GTC 2026 và cũng chính là lý do khiến cộng đồng game thủ đang dậy sóng. DLSS là gì và hành trình từ phiên bản 1 đến 5 DLSS viết tắt của Deep Learning Super Sampling, công nghệ Nvidia sử dụng AI để giải quyết bài toán kinh điển của gaming đó là game thủ nào cũng muốn đồ họa đẹp thì phải có GPU mạnh, muốn FPS cao thì phải giảm chất lượng hình ảnh. DLSS ra đời để phá vỡ cái vòng luẩn quẩn đó bằng AI. Hành trình qua từng phiên bản cho thấy rõ tư duy của Nvidia đã thay đổi như thế nào: DLSS 1 (2018): Xuất hiện cùng dòng card RTX 20 series. Ý tưởng cơ bản là render game ở độ phân giải thấp hơn, rồi dùng AI upscale lên 4K. Kết quả trông mờ và thiếu chi tiết đến mức nhiều game thủ không thèm bật. DLSS 2 (2020): Bước nhảy vọt thực sự. Nvidia cải thiện mô hình AI đáng kể, đưa vào kỹ thuật temporal accumulation, tức AI học cách ghép thông tin từ nhiều frame liên tiếp để tái tạo chi tiết sắc nét hơn. Đây là lúc DLSS bắt đầu được game thủ dùng thật sự. DLSS 3 (2022): Bổ sung Frame Generation, khả năng AI tạo ra frame hoàn toàn mới xen giữa các frame thật để nhân đôi FPS. Bị chỉ trích vì gây input lag trên một số tựa game. DLSS 3.5 (2023): Thêm Ray Reconstruction, dùng AI để tái tạo các hiệu ứng ray tracing thay vì tính toán thủ công toàn bộ. DLSS 5 (2026): Bước đột phá hoàn toàn khác về bản chất. Từ đây, Nvidia không chỉ upscale hay tạo thêm frame nữa. AI bắt đầu vẽ lại toàn bộ ánh sáng, vật liệu và chi tiết bề mặt theo thời gian thực. Kỹ thuật AI nào đứng sau DLSS 5 Điểm khác biệt cốt lõi của DLSS 5 so với tất cả các phiên bản trước nằm ở chỗ: đây là lần đầu tiên AI không chỉ cải thiện ảnh có sẵn mà còn tạo ra nội dung hình ảnh mới hoàn toàn dựa trên dữ liệu 3D của scene. Cụ thể hơn, DLSS 5 nhận vào dữ liệu màu sắc và motion vectors của từng frame, rồi dùng mô hình neural rendering để tái tạo ánh sáng và vật liệu photoreal. Điều làm nó không bị "ảo giác" như các AI image generator thông thường là nó được neo chặt vào scene graph của game engine, tức là cấu trúc 3D gốc của từng vật thể trong game. AI biết đây là khuôn mặt người, đây là vải áo, đây là bóng đổ, nên nó tái tạo đúng vật lý chứ không tự phát minh chi tiết ngẫu nhiên. Jensen Huang gọi đây là "khoảnh khắc GPT của đồ họa", tức là thời điểm AI bắt đầu thay thế một phần công việc render truyền thống. Nvidia dự kiến ra mắt chính thức vào mùa thu 2026, với các tựa game đã xác nhận tích hợp gồm: Starfield (Bethesda) Resident Evil Requiem (CAPCOM) Hogwarts Legacy (Warner Bros. Games) Assassin's Creed Shadows (Ubisoft) Demo tại GTC cần đến 2 card RTX 5090, dù Nvidia khẳng định phiên bản thương mại sẽ chạy được trên một GPU duy nhất. Game thủ lo ngại điều gì: Khi AI bắt đầu "vẽ lại" nhân vật của bạn Nhìn lại so sánh ở đầu bài, bản DLSS 5 On trông sắc nét và photoreal hơn thật. Nhưng cộng đồng game thủ không vui vì điều đó. Vấn đề là khuôn mặt bị thay đổi. Không nhiều, nhưng đủ để nhận ra. Và đây chính xác là lo ngại mà hàng nghìn người đang bày tỏ trên các diễn đàn: khi AI có quyền can thiệp vào từng pixel của game, ai đảm bảo nhân vật trông đúng như ý đồ của game developer? Cộng đồng đang gọi đây là "AI slop", tức nội dung trông bề ngoài đẹp hơn nhưng lại mất đi sự chính xác và ý đồ gốc. Một số người so sánh kết quả với phong cách "Harry Potter Balenciaga", ám chỉ sự vô hồn và công nghiệp của các sản phẩm AI tạo ra hàng loạt. Đặc biệt với các game có bản quyền hình ảnh cầu thủ thật, khuôn mặt bị render khác đi dù chỉ một chút cũng là vấn đề nghiêm túc. Nvidia phản hồi như thế nào? Đối mặt với chỉ trích, Nvidia khẳng định các nhà phát triển có toàn quyền kiểm soát nghệ thuật thông qua SDK, bao gồm: Điều chỉnh cường độ hiệu ứng AI theo từng scene Chỉnh màu và tạo mặt nạ để bảo vệ vùng hình ảnh nhạy cảm Tắt hoàn toàn DLSS 5 trên từng nhân vật hoặc vật thể cụ thể Nvidia nhấn mạnh đây không phải bộ lọc đơn thuần mà là công cụ gắn kết chặt với nội dung 3D gốc. Nhưng câu hỏi thực tế vẫn còn đó: liệu tất cả các studio có đủ nguồn lực và sự cẩn thận để tinh chỉnh từng chi tiết đó không, hay phần lớn sẽ bật mặc định và để AI tự quyết? DLSS 5 là bước đi không thể quay đầu Câu hỏi không còn là DLSS 5 có tốt hơn không vì về mặt kỹ thuật câu trả lời rõ ràng là có. Câu hỏi thực sự là khi AI bắt đầu tham gia vào quá trình render từng frame, ranh giới giữa "game gốc" và "game được AI cải thiện" ở đâu? Với các studio AAA, đây là cơ hội cắt giảm chi phí render và đẩy chất lượng hình ảnh lên mức không tưởng. Với game thủ quan tâm đến tính trung thực của sản phẩm, đây là lần đầu tiên họ phải đặt câu hỏi? mình đang chơi game do developer tạo ra hay game do AI tạo ra dựa trên ý tưởng của developer?

Bộ phận IT của các công ty chắc chắn là cấm cài OpenClaw trên máy tính nội bộ, lý do ở đây không phải vì công cụ này không hiệu quả mà vì không ai kiểm soát được dữ liệu công ty đang chạy qua đó. Đây là vấn đề rủi ro mà các doanh nghiệp đang gặp phải khi muốn triển khai AI agent nhưng chưa có giải pháp bảo mật đủ tin cậy. Tại GTC 2026, Nvidia đưa ra câu trả lời trực tiếp với NemoClaw, một nền tảng được xây trên nền OpenClaw nhưng bổ sung toàn bộ lớp bảo mật cấp doanh nghiệp mà phiên bản gốc còn thiếu. OpenClaw là gì và tại sao doanh nghiệp chưa dám dùng? Nếu bạn chưa biết OpenClaw là gì thì đây là cách hiểu nhanh nhất, thay vì bạn phải ngồi ra lệnh cho AI từng bước một, OpenClaw cho phép bạn tạo các tác nhân AI tự động làm việc liên tục mà không cần bạn can thiệp. Kỹ sư Peter Steinberger phát triển nó tuy đã gia nhập OpenAI nhưng nền tảng này vẫn phát triển rất mạnh mẽ ở toàn cầu đặc biệt là ở Trung Quốc dù cho các ông lớn như Gemini, Claude đã chặn hoàn toàn API kết nối. Vấn đề là OpenClaw được thiết kế cho cá nhân và đội nhỏ, không phải cho doanh nghiệp có dữ liệu nhạy cảm. Khi cài đặt không đúng cách hoặc dùng cấu hình mặc định, tác nhân AI có thể truy cập và xử lý dữ liệu nội bộ mà không có bất kỳ lớp kiểm soát nào. Chính quyền nhiều nước và các ông lớn như Google và Anthropic đã liên tiếp phát cảnh báo bảo mật về vấn đề này, và đó là lý do hầu hết doanh nghiệp vẫn đứng ngoài dù biết rõ tiềm năng của công cụ này. Đây chính xác là khoảng trống mà Nvidia nhìn thấy và quyết định lấp đầy. NemoClaw giải quyết bài toán bảo mật như thế nào? Thay vì xây một nền tảng agent hoàn toàn mới, Nvidia hợp tác trực tiếp với Peter Steinberger để phát triển NemoClaw trên nền OpenClaw sẵn có. CEO Jensen Huang phát biểu tại GTC 2026 rằng mọi công ty đều cần một chiến lược OpenClaw, và NemoClaw chính là cách Nvidia đưa chiến lược đó vào thực tế một cách an toàn. Trái tim của NemoClaw là môi trường chạy mã nguồn mở có tên OpenShell. Hình dung đơn giản như sau: thay vì để tác nhân AI chạy tự do trên toàn bộ hệ thống như một nhân viên mới không được giám sát, OpenShell nhốt nó vào một khu vực làm việc riêng biệt với đầy đủ quy tắc do chính doanh nghiệp đặt ra. Cụ thể OpenShell làm được ba việc chính: Thực thi các hàng rào bảo vệ dựa trên chính sách nội bộ của từng tổ chức, tức là mỗi doanh nghiệp tự quyết định tác nhân AI được phép làm gì và không được làm gì Giữ các mô hình AI hoạt động trong môi trường sandbox riêng biệt, ngăn chúng truy cập dữ liệu ngoài phạm vi được cấp phép Bổ sung các biện pháp bảo vệ quyền riêng tư dữ liệu trước khi bất kỳ thông tin nào được xử lý, đồng thời tăng khả năng mở rộng khi nhu cầu tăng lên Doanh nghiệp được gì cụ thể khi dùng NemoClaw? Ba lợi ích thực tế mà NemoClaw mang lại so với việc dùng OpenClaw theo như Nvdia cung cấp: Kiểm soát dữ liệu: Bộ phận IT có thể định nghĩa chính xác tác nhân AI được phép truy cập tài liệu nào, hệ thống nào, và làm gì với dữ liệu đó. Không còn tình trạng AI agent chạy tự do mà không ai biết nó đang đọc gì. Linh hoạt chọn model AI: Doanh nghiệp không bị ràng buộc vào một nhà cung cấp duy nhất. NemoClaw hỗ trợ NemoTron của Nvidia, Claude của Anthropic, GPT của OpenAI và bất kỳ mô hình AI mở nào khác, cho phép truy cập mô hình trên đám mây ngay trên thiết bị cục bộ mà không phụ thuộc vào phần cứng cụ thể. Không cần thay đổi hạ tầng: NemoClaw hoạt động trên nền OpenClaw đã có, tức là các đội đang dùng OpenClaw có thể nâng cấp lên NemoClaw mà không phải bắt đầu lại từ đầu. NemoClaw hiện đang ở giai đoạn alpha, tức là còn trong quá trình hoàn thiện trước khi ra mắt chính thức, hiện tại Nemo Claw đã bắt công khai mã nguồn trên Github đối với ai cần tùy biến cao hơn Đây là điểm cần lưu ý nếu bạn đang cân nhắc triển khai cho doanh nghiệp ngay lúc này. GTC 2026 còn gì đáng chú ý ngoài NemoClaw? NemoClaw chỉ là một phần trong loạt công bố lớn của Nvidia tại GTC 2026. Các điểm đáng chú ý còn lại: CPU Vera thế hệ mới: Được thiết kế riêng cho kỷ nguyên AI agent với hiệu suất gấp đôi và tốc độ nhanh hơn 50% so với CPU truyền thống, tối ưu cho các tác vụ học tăng cường phức tạp. Dự báo doanh thu 1.000 tỷ đô: Nvidia dự kiến doanh thu từ chip AI Blackwell và Vera Rubin đạt mức này vào năm 2027, phản ánh mức độ đặt cược của công ty vào làn sóng AI agent đang bùng nổ. Liên minh Nemotron: Sáng kiến hợp tác mở để chia sẻ tài nguyên và năng lực tính toán trong lĩnh vực AI mã nguồn mở, kéo theo sự tham gia của nhiều công ty lớn trong ngành. Groq 3 và DLSS 5: Bộ xử lý ngôn ngữ Groq 3 và công nghệ đồ họa DLSS 5 cũng được công bố, mở rộng hệ sinh thái AI của Nvidia ra ngoài phạm vi agent và sang cả lĩnh vực đồ họa game. NemoClaw là cầu nối đưa AI agent từ cá nhân vào doanh nghiệp OpenClaw đã chứng minh rằng AI agent hoạt động hiệu quả trong thực tế. Vấn đề không phải là công nghệ mà là tin tưởng, và tin tưởng trong môi trường doanh nghiệp đến từ khả năng kiểm soát, minh bạch và tuân thủ chính sách nội bộ. NemoClaw không cố thay thế OpenClaw mà xây thêm đúng lớp đó lên trên. Nếu NemoClaw hoạt động đúng như cam kết khi ra mắt chính thức, đây có thể là thứ giúp AI agent thực sự được triển khai rộng rãi trong doanh nghiệp, thay vì tiếp tục bị chặn bởi bộ phận IT vì lý do bảo mật. Đó chính xác mới là thị trường thực sự mà Nvidia đang nhắm đến.

Anthropic là bên đầu tiên đưa khái niệm skill vào AI theo cách có cấu trúc thực sự. Và điều thú vị là khái niệm skill này đang lan rộng ra toàn bộ hệ sinh thái AI, từ cách các công ty xây dựng agent đến cách cá nhân làm việc hàng ngày với AI. Từ Claude đến GPT, từ Gemini đến các công cụ agent mới nổi, skill đang dần trở thành ngôn ngữ chung mà cả ngành đang hướng đến.Nếu bạn chưa biết skill trong Claude là gì, có thể tham khảo bài này trước : Claude Agent Skills là skill phải biết về AI trong năm 2026.Tại sao skill đang mở rộng mạnh trong cộng đồng AI?Con số phía sau xu hướng này nói lên rất nhiều. Skillsmp, nền tảng tổng hợp skill lớn nhất hiện tại đã tổng hợp đang có hơn 500k skill từ GitHub tất nhiên là tương thích với Claude Code, Codex CLI và ChatGPT. Thư viện Antigravity Awesome Skills do cộng đồng xây dựng đến thời điểm có hơn 1.272 skill, đạt 24k GitHub stars và hơn 4.2k forks. Skill frontend-design chính thức của Anthropic hiện là skill được cài đặt nhiều nhất với hơn 277k lượt cài đặt tính đến tháng 3/2026.Các công ty lớn về AI đang tiếp cận skill theo hướng nào?Mỗi nền tảng lớn đang giải quyết bài toán này theo cách riêng, nhưng đều hướng đến cùng một mục tiêu giúp AI hiểu người dùng một lần hoàn toàn có thể tái sử dụng về sau.Tháng 12/2025, Anthropic công bố chuẩn mở Agent Skills và OpenAI ngay sau đó đã nhanh chóng áp dụng cùng định dạng cho Codex CLI và ChatGPT. Tính đến đầu năm 2026, chuẩn SKILL.md đã được hỗ trợ trên Claude, Claude Code, Manus, Cursor, VS Code, GitHub Copilot, OpenAI Codex, Gemini CLI và nhiều nền tảng khác. Điều này có nghĩa là một skill có thể dùng được trên hầu hết mọi công cụ AI phổ biến, không bị khóa trong một nền tảng duy nhất.Tất nhiên các công ty lớn như Google, HashiCorp, Vercel và Stripe cũng không đứng ngoài cuộc chơi cũng đã công bố skill chính thức của riêng nền tảng mình theo cùng định dạng Skill.md.Skillsmp là gì và cách tìm skill phù hợp Skillsmp là nền tảng cộng đồng độc lập và không thuộc Anthropic, họ chuyên tổng hợp skill từ các kho lưu trữ GitHub công khai với bộ lọc thông minh theo danh mục, tác giả và mức độ phổ biến. Đây là điểm khởi đầu tốt nhất nếu bạn muốn tìm skill theo lĩnh vực cụ thể mà không phải lục tung GitHub ngoài nền tảng chính thức từ Anthropic.Cách dùng Skillsmp thực tế rất đơn giản: tìm kiếm theo từ khóa công việc bạn muốn tự động hóa, lọc theo số sao GitHub để đảm bảo chất lượng, xem mô tả và điều kiện kích hoạt của skill trước khi cài. Tất cả skill trên Skillsmp đều dùng chuẩn mở SKILL.md và đều trên nền tảng Github nên mọi người không lo lắng về độ tương thích.Một điểm cần lưu ý: skill trên Skillsmp được lọc tối thiểu 2 sao GitHub và quét các chỉ số chất lượng cơ bản, nhưng bạn nên xem xét kỹ trước khi cài đặt vì đây là mã nguồn cộng đồng.Ví dụ team mình tìm skill writer trên Skillsmp hay tìm được seo-content-writer của Antigravity Awesome Skills cái này dùng cho tiếng Anh khá ngon nhưng chưa hỗ trợ tiếng Việt, đặc biệt là các tiêu chuẩn E-E-A-T tiếng Việt vì vậy mọi người nếu sử dụng nhiều nên chỉnh sửa từ skill đó cho công việc nhanh hơn từ tạo từ đầu. Tài liệu tham khảoNếu ai thích việc tạo skill cho riêng mình thì Anthropic đã công bố tài liệu chính thức hướng dẫn đầy đủ về cách xây dựng skill cho Claude. Đây là nguồn tham khảo chính thức và chính xác nhất hiện tại.📄 Tài liệu gốc tiếng Anh từ Anthropic: Link google driver tại đây📄 Bản dịch tiếng Việt: Link google driver tại đây Skill không phải tính năng đó là cách đầu tư vào quy trình làm việcXu hướng dịch chuyển từ prompt sang skill đang diễn ra không phải vì skill là thứ mới lạ hơn, mà vì nó giải quyết đúng bài toán mà dân làm việc thực tế với AI đang gặp phải: tính nhất quán, khả năng mở rộng, và không phải bắt đầu lại từ đầu mỗi ngày.Anthropic đang thay Open AI và Google dẫn đầu xu hướng này, nhưng cả ngành đang đi theo cùng một hướng. Đầu tư vào việc xây skill tốt hôm nay không chỉ giúp bạn làm việc hiệu quả hơn với Claude, mà còn là nền tảng tư duy để làm việc tốt hơn với bất kỳ nền tảng AI nào trong tương lai.

Bạn đã biết skill trong Claude là gì và đã tạo thử vài skills, nhưng kết quả vẫn không ổn định, đôi khi AI làm đúng ý nhưng có lúc lại "bay tự do" theo hướng hoàn toàn khác. Vấn đề thường không nằm hoàn toàn ở Claude, nó nằm ở cái file SKILL.md của bạn: viết thiếu tầng, không có thứ tự, hoặc dồn hết mọi thứ vào một đoạn văn dài không có cấu trúc. Framework 8 tầng là cách team 4aivn chia sẻ để giải quyết phần đó, đó là chia nhỏ skills thành từng lớp rõ ràng, từ nền tảng đến vận hành. Ở đây team mình áp dụng skills để đưa ra những bài viết chất lượng đến các bạn, còn các bạn hoàn toàn có thể áp dụng vào giải quyết vấn đề của riêng bạn. Nhưng cần nói thẳng đây mới chỉ là Prompt Engineering, chỉ là một phần của bức tranh lớn hơn. Đối với team mình đây là phần giúp team giao việc rõ ràng cho AI, nhưng để ra được bài viết thực sự chất lượng đúng tâm lý người đọc, đúng công thức chuyển đổi, đúng với các tiêu chuẩn bên mình đặt ra còn nhiều thứ phải học hỏi hơn nhiều. Còn nếu bạn chưa biết skill trong Claude là gì, bạn có thể tham khảo bài này: Claude Agent Skills là skill phải biết về AI trong năm 2026 mang đến mở đầu cho việc tiếp cận skills. Tại sao cấu trúc Skill lại quyết định tất cả SKILL.md tất nhiên trông khá giống prompt dài giống cách nhiều người đã làm với ChatGPT, Gemini, Claude vào năm 2024: "Bạn là chuyên gia copywriter 10 năm kinh nghiệm, viết bài theo cấu trúc PAS, tone thấu cảm, cấm dùng từ đột phá, giải pháp hoàn hảo..." Gõ xong, chat xong, đóng lại và lần sau mở chat mới lại phải hướng dẫn lại từ đầu. Skill khác ở chỗ đó khi mà nó chính là bản hướng dẫn bạn chỉ cần viết một lần là Claude đã hiểu cách làm việc với bạn mà không cần giải thích lại mỗi phiên. Và bây giờ mọi thứ lại thay đổi, prompt là định nghĩa cái gì cần làm lần này, còn skill định nghĩa cách làm việc về lâu dài. Có một vấn đề hay xảy ra ở đây là nhiều người viết SKILL.md giống như viết prompt dài, dồn hết vào một đoạn mà không phân lớp. Claude đọc được, nhưng khi gặp tình huống mới ngoài những gì bạn liệt kê, nó không có khung tư duy để xử lý. Kết quả ra lộn xộn là vì vậy. Framework 8 tầng chia nội dung SKILL.md thành hai nhóm: 4 tầng nền tảng giúp AI biết nó là ai và làm gì, và 4 tầng vận hành giúp AI biết nó làm như thế nào. Bốn tầng nền tảng định nghĩa AI là ai Tầng 1 – Nhiệm vụ Xác định vai trò cốt lõi của skill này. Đây là câu đầu tiên Claude đọc và dùng để định hình toàn bộ hành vi còn lại. Ví dụ: "Bạn là editor chuyên viết và biên tập bài về AI cho cộng đồng 4aivn, đối tượng là người Việt quan tâm đến AI nhưng không có nền tảng kỹ thuật." Tầng 2 – Ngữ cảnh Mô tả môi trường skill này hoạt động. Cùng một yêu cầu "viết bài AI", nhưng văn phong cho website khác hoàn toàn với fanpage hay trên instagram. Ví dụ: "Bài viết đăng trên website 4aivn.com, đọc giả chủ yếu đọc trên mobile, cần đoạn văn ngắn, tiêu đề h2 h3 rõ ràng, dài khoảng 1000 đến 1200 từ." Tầng 3 – Đầu vào Định nghĩa Claude sẽ nhận thông tin dưới dạng nào. Tầng này thường bị bỏ qua, dẫn đến AI tự suy diễn khi input không rõ ràng. Ví dụ: "Đầu vào có thể là: một từ khóa đơn, một brief vài dòng, hoặc một outline sẵn. Nếu chỉ nhận từ khóa, phải hỏi thêm trước khi viết." Tầng 4 – Đầu ra Xác định kết quả trả về trông như thế nào về format, độ dài, và cấu trúc mặc định. Ví dụ: "Đầu ra mặc định là bài hoàn chỉnh gồm sapo, 3 đến 4 phần H2, và kết luận. Nếu người dùng chỉ cần dàn ý, trả về outline dạng gạch đầu dòng có mô tả ngắn từng phần." Bốn tầng vận hành định nghĩa AI này làm việc như thế nào Tầng 5 – Bộ quy tắc Đây là tầng quan trọng nhất. Bạn định nghĩa phong cách viết, cấu trúc bắt buộc, và quan trọng không kém danh sách những thứ tuyệt đối không được làm. Càng cụ thể càng tốt. Ví dụ: Sapo phải bắt đầu bằng tình huống thực tế hoặc con số bất ngờ, không bao giờ dùng định nghĩa Mỗi 70% H2 phải là dạng câu hỏi để phù hợp với SEO, GEO và ít nhất mỗi H2 phải có một ví dụ cụ thể Cấm dùng: "Trong thế giới công nghệ thay đổi nhanh chóng...", "Không thể phủ nhận rằng...", "Hy vọng bài viết hữu ích" Tầng 6 - Câu hỏi chủ động Thay vì AI lao vào làm ngay, bạn bắt nó hỏi trước. Tầng này loại bỏ phần lớn trường hợp ra kết quả sai hướng vì AI tự suy diễn yêu cầu. Ví dụ: "Trước khi viết bất kỳ bài nào, phải đặt ít nhất 3 câu hỏi: đối tượng độc giả là ai, mục tiêu bài là gì (thông tin/thuyết phục/hướng dẫn), và tone muốn dùng (nghiêm túc/gần gũi/trung lập)." Tầng 7 - Kế hoạch Sau khi hỏi đủ, AI phải trình bày dàn ý và nêu rõ những quy tắc nó sẽ áp dụng cho bài này trước khi chính thức viết. Bạn thấy được nó đang nghĩ gì và có thể chỉnh hướng trước khi nó đi sai đường. Ví dụ: "Sau khi nhận đủ thông tin, trình bày: (1) dàn ý đầy đủ với mô tả ngắn từng phần, (2) những từ khóa chính, từ khóa liên quan ưu tiên áp dụng cho bài viết này." Tầng 8 – Đồng thuận Chỉ khi người dùng xác nhận đồng ý với kế hoạch, AI mới bắt đầu viết. Không có bước này, các tầng 6 và 7 chỉ là nghi lễ vì AI vẫn có thể tự ý bắt đầu sau khi trình dàn ý. Ví dụ: "Sau khi trình dàn ý, chờ người dùng xác nhận hoặc yêu cầu chỉnh sửa. Chỉ bắt đầu viết bài hoàn chỉnh khi nhận được tín hiệu đồng ý rõ ràng." Viết SKILL.md của bạn để áp dụng 8 tầng trên Tất nhiên đừng cố nhồi nhét đủ 8 tầng trong một lần thực hiện. Thứ tự thực tế để bắt đầu: Khởi động từ tầng 1 và tầng 5 để xác định rõ AI với vai trò và bộ quy tắc. Chỉ hai tầng này đã tạo ra sự khác biệt rõ ràng nhất so với prompt thông thường. Chạy thử với 1 đến 2 yêu cầu thực tế, xem output có đúng không. Khi tầng 5 ổn định, thêm tầng 6 để bắt AI hỏi trước xem câu hỏi là gì. Bạn sẽ nhận ra ngay mình hay bỏ sót thông tin gì khi giao việc rồi sau đó thêm tầng 7 và 8 để khép kín vòng kiểm soát. Các tầng 2, 3, 4 thêm vào khi bạn nhận thấy AI đang tự suy diễn sai về môi trường, định dạng đầu vào, hoặc cấu trúc đầu ra, đó chính là dấu hiệu cần bổ sung. Reference một phần rất quan trọng của skills Sau một thời gian dùng skills, bạn sẽ nhận ra một vấn đề mới: AI làm đúng cấu trúc, đúng quy tắc nhưng vẫn thiếu cái gì đó của thương hiệu, vẫn phải chỉnh sửa lại. Tone đúng nhưng chưa giống bạn, cấu trúc đúng nhưng chưa quen như những bài viết cũ. Đây là lúc Reference phát huy tác dụng. Reference là gì trong SKILL.md? Reference là các file bổ sung bạn đặt bên cạnh SKILL.md, nó chứa những thứ quá dài hoặc quá cụ thể để nhét vào bộ quy tắc, nhưng AI cần đọc trong một số trường hợp nhất định. Với dân viết nội dung, loại Reference hữu ích nhất chính là kết quả đầu ra đã được duyệt, chính những bài viết hoàn chỉnh mà bạn đã hài lòng, dùng làm mẫu tham chiếu để AI có thể học tone và phong cách thực tế của bạn thay vì chỉ đọc quy tắc trừu tượng. Cách thêm reference vào skill của team mình Cấu trúc thư mục: writer-4aivn/ SKILL.md references/ bai-mau-01.md (bài đã đăng, kết quả ưng ý) bai-mau-02.md bai-mau-03.md Trong SKILL.md, khai báo rõ khi nào Claude cần đọc: ## Reference Files references/bai-mau-01.md: Đọc khi người dùng yêu cầu viết bài dạng hướng dẫn thực hành references/bai-mau-02.md: Đọc khi cần tham chiếu tone cho bài phân tích công cụ AI Quy tắc quan trọng Đừng để Claude tự quyết định có cần đọc reference không. Chỉ dẫn điều kiện kích hoạt cụ thể, "đọc khi người dùng yêu cầu viết bài dạng X" thay vì "đọc nếu cần". Câu sau quá mơ hồ, Claude sẽ bỏ qua hoặc đọc sai lúc. Bao nhiêu bài mẫu là đủ? Bắt đầu với 2 đến 3 bài mẫu thuộc các dạng nội dung khác nhau: hướng dẫn thực hành, phân tích công cụ, bài chia sẻ góc nhìn. Không cần nhiều hơn ở giai đoạn đầu. Mỗi bài mẫu thêm vào là thêm một dẫn chứng giúp AI hiểu tone của bạn rõ hơn một bậc so với chỉ đọc quy tắc. Nói tóm lại cách tạo skills sẽ mất rất nhiều thời gian trong lần đầu tạo giống như cách chúng ta mất rất nhiều thời gian để tinh chỉnh prompt dài. Nhưng sau khi đã ra kết quả ổn định rồi thì nhiều lúc chúng ta sẽ bất ngờ về những gì Claude có thể viết và làm được. Đây là phần đầu phần về kỹ năng viết bài cùng AI. Phần đầu này giúp bạn có đầu ra đầu tiên từ skill, nhưng output lần đầu hiếm khi hoàn hảo. Các phần tiếp theo sẽ đi vào sâu hơn nữa vào chỉnh sửa skills cho các vấn đề sâu hơn, cho đến khi AI làm việc đúng như ý bạn.

Gemini 3.1 Flash-Lite đang là lựa chọn "ngon - bổ - rẻ" mới cho cộng đồng AI Nếu bạn đang tìm kiếm một giải pháp AI vừa nhanh, vừa tiết kiệm để triển khai các dự án quy mô lớn, thì Gemini 3.1 Flash-Lite vừa được Google ra mắt chính là câu trả lời. Đây không chỉ là một bản nâng cấp nhẹ, mà thực sự là một bước đi giúp công nghệ AI trở nên dễ tiếp cận hơn với tất cả mọi người. Hiệu suất ổn định với mức chi phí cực kỳ dễ thở Điểm làm mình ấn tượng nhất ở Gemini 3.1 Flash-Lite chính là cách Google cân bằng giữa bài toán kinh tế và hiệu năng. Với những bạn đang tối ưu chi phí API hàng tháng, đây sẽ là một lựa chọn rất đáng cân nhắc khi mà Claude Opus hay Claude Code đang hot thì chi phí quá khủng lên tới 200 đô nếu không muốn bị hết giới hạn nhanh chóng. Giá rất hợp lý Chỉ tốn khoảng 0.25 USD cho mỗi triệu token đầu vào. Mức giá này giúp chúng ta tự tin triển khai các tính năng xử lý dữ liệu lớn mà không cần quá lo lắng về ngân sách. Tốc độ phản hồi đáng nể: Cảm giác chờ đợi AI phản hồi đôi khi khá bất tiện, nhưng với Flash-Lite, tốc độ trả kết quả đầu tiên đã nhanh gấp 1.5 lần so với bản 2.5 Flash trước đây. Tuy chi phí đã tăng so với Gemini 2.5 Flash-Lite nhưng so với mặt bằng chung thì vẫn ở mức hợp lý nhưng đổi cái được tốc độ thì thật sự ai cũng yêu thích. Thừa hưởng sức mạnh từ "người đàn anh" Gemini 3 Pro Dù có chữ "Lite" trong tên gọi, nhưng các bạn đừng vì thế mà đánh giá thấp khả năng của nó. Được phát triển dựa trên nền tảng của Gemini 3 Pro cho nên mô hình này vẫn xử lý mượt mà từ văn bản, hình ảnh cho đến âm thanh và video. Khả năng đọc hiểu sâu: Với điểm Elo 1432, Flash-Lite chứng minh mình không hề kém cạnh các đối thủ cùng phân khúc. Đặc biệt cửa sổ ngữ cảnh lên tới 1 triệu token có lẽ đã là phổ thông đối với các mô hình đến từ nhà Google điều này thực sự có ích đối với những người hay làm việc với tài liệu cực dài. Linh hoạt cho nhà phát triển Một điểm cộng nữa là các bạn có thể tùy chỉnh độ sâu khi AI suy nghĩ. Tùy vào việc bạn đang làm chatbot đơn giản hay cần phân tích dữ liệu phức tạp mà có thể điều chỉnh cho tối ưu nhất. An toàn hơn và đáng tin cậy hơn Google cũng đã tinh chỉnh rất nhiều để mô hình này trở nên thân thiện và thông minh hơn trong cách giao tiếp. Nó hạn chế tối đa việc từ chối câu hỏi một cách vô lý, đồng thời đảm bảo các tiêu chuẩn an toàn nghiêm ngặt, giúp mọi người yên tâm khi đưa vào sản phẩm thực tế. Lời kết Nhìn chung, Gemini 3.1 Flash-Lite là một bước tiến rất thực tế của Google. Nó tập trung vào đúng thứ mà các bạn cần: Tốc độ, hiệu quả và giá thành cạnh tranh. Nếu mọi người đang có ý định nâng cấp hệ thống giảm token cho những thứ không cần suy luận phức tạp, hãy thử qua bản Gemini 3.1 Flash-Lite này nhé!

Google vừa chính thức ra mắt Nano Banana 2 (Gemini 3.1 Flash Image), một bước đi đáng chú ý khi hãng quyết định đưa những tính năng từng là đặc quyền của Nano Banana Pro xuống dòng phổ thông. Đây thật sự là một bản nâng cấp mạnh mẽ và cũng là bảo chứng cho lời hứa của Google về việc phổ cập công nghệ pro tới nhiều người dùng hơn, để ngay cả người dùng miễn phí cũng có thể trải nghiệm những tính năng pro.Nano Banana 2 là gì và điểm khác biệt so với Nano Banana Pro?Nano Banana 2 tận dụng sức mạnh của mô hình Gemini 3.1 Flash Image mới nhất để thực hiện các yêu cầu tạo và chỉnh sửa ảnh chỉ với tốc độ nhanh hơn hẳn so với bản pro.Sự khác biệt cốt lõi so với phiên bản ProTốc độ: Tốc độ chính là điều Nano Banana 2 nhấn mạnh. Trong khi Nano Banana Pro tập trung vào các tác vụ yêu cầu độ trung thực cao nhất và độ chính xác tuyệt đối về dữ kiện, Nano Banana 2 ưu tiên tốc độ xử lý nhanh (tốc độ Flash) mà vẫn duy trì được chất lượng hình ảnh tương đương bản Pro.Chi phí: Nano Banana 2 API có mức giá rẻ hơn đáng kể. Ví dụ, một ảnh độ phân giải 1024x1024 trước đây có giá khoảng $0.13 thì nay với Nano Banana 2 chỉ còn khoảng $0.07. Tuy vẫn còn hơi cao nhưng Google đã cố gắng giảm giá để mọi người dễ tiếp cận hơn.Đối tượng người dùng: Nano Banana 2 chắc chắn tập trung vào nhiều người dùng hơn khi người dùng miễn phí cũng đã có thể trải nghiệm thay vì chỉ giới hạn cho các gói trả phí Pro hay Ultra như trước đây.Tính năng kế thừa: Nano Banana 2 đã được kế thừa các tính năng cao cấp từ bản Pro như khả năng duy trì tính nhất quán của nhân vật và diễn giải các câu lệnh phức tạp.Các đặc điểm nổi bật của Nano Banana 2 giống với Nano Banana ProTính nhất quán của đối tượng: Đây là một nâng cấp quá hữu dụng nhưng quen thuộc đối với những ai làm marketing, tạo truyện tranh, tạo ảnh. Tính năng này của Nano Banana 2 giống với bản Pro khi cho phép giữ nguyên ngoại hình của tối đa 5 nhân vật và độ ổn định của 14 vật thể trong cùng một quy trình làm việc.Hiển thị văn bản chính xác và đa ngôn ngữ: Nỗi lo về lỗi chính tả hay rào cản ngôn ngữ trên hình ảnh AI giờ đây không còn lo lắng khi dùng Nano Banana. Toàn bộ những tính năng vốn làm nên tên tuổi của dòng Pro từ khả năng hiển thị đúng chính tả đến tính năng dịch thuật văn bản trực tiếp trong ảnh hiện đã được tích hợp trên Nano Banana 2. Khả năng ảnh bị lỗi chính tả, vỡ font hay nhầm ngôn ngữ đã giảm xuống rất thấp, rất hiếm khi xảy ra.Kết nối thông tin thời gian thực: Nano Banana 2 sử dụng Gemini và thông tin từ web search nên có thể cập nhật các thay đổi theo thời gian thực để dựng đúng các đối tượng cụ thể, tránh tình trạng lạc đề khi tạo ảnh.Độ phân giải cũng rất pro: Nano Banana 2 cũng rút ngắn khoảng cách tính năng với dòng pro khi đã hỗ trợ độ phân giải đầu ra từ 512px đến 4K. Người dùng có thêm nhiều tùy chọn tỷ lệ khung hình mới như 4:1, 1:4, 8:1 và 1:8.Tính minh bạch: Google đã đưa tất cả hình ảnh tạo ra bởi Nano Banana 2 đều được nhúng watermark bằng hệ thống SynthID và tuân thủ chuẩn C2PA để xác minh nguồn gốc AI.Cách sử dụng Nano Banana 2 trên ứng dụng GeminiBạn có thể dễ dàng trải nghiệm Nano Banana 2 trực tiếp trên Gemini app hoặc Google AI studio dù sử dụng gói miễn phí hay pro hoặc ultra:Bất ngờ: Thật sự bất ngờ khi mà Nano Banana 2 cho chọn trực tiếp kiểu ảnh đầu ra với mẫu ở ngay trên Gemini app mà không cần phải nhập chữ vào prompt nữa. Tuy kết quả vẫn cho ra chưa được ưng ý cho lắm nhưng khi không cần nhập prompt nữa giảm thiểu khả năng quên ghi vào style ảnh để Nano Banana có thể đưa ra những tấm ảnh đúng ý người dùng.Còn đối với chọn khung hình người dùng vẫn cần chọn khung hình viết trực tiếp vào prompt, đây là điều mình rất nhiều khi quên khi vào prompt.Lưu ý: Nếu bạn là người dùng Pro/Ultra và cần độ chính xác dữ kiện tối đa, bạn vẫn có thể gọi lại Nano Banana Pro thông qua menu ba chấm (chọn regenerate/redo).Cuộc đối đầu của Nano Banana 2 với GPT Image 1.5Tuy là GPT Image 1.5 nên so sánh với dòng Pro nhưng mình vẫn muốn hướng đến sự so sánh thú vị khi mà GPT Image 1.5 và Nano Banana 2 hướng đến những mục tiêu tạo ảnh khác nhau và người dùng khác nhau:Sự khác nhau về triết lý thiết kế giữa OpenAI và GoogleGPT Image 1.5 thì được OpenAI thiết kế như là một studio sáng tạo tập trung vào độ chính xác. Nó mang lại những trải nghiệm giống với những thiết kế của những bức ảnh đời thường hơn so với Nano Banana.Nano Banana 2 thì lại được ví như một nhà quay phim khi tập trung vào sức mạnh thị giác. Google nhấn mạnh vào tri thức "thế giới thực" để tạo ra những hình ảnh có độ chân thực rất cao, ánh sáng sống động và chi tiết sắc nét nhất có thể.Trải nghiệm thực tế giữa hai mô hình có khác nhau nhiều khôngDựa trên các thử nghiệm đối đầu, kết quả cho thấy sự khác biệt rõ rệt về phong cách:Độ chân thực và phong cách ảnh: GPT Image 1.5 có khả năng tạo ra các bức ảnh mang tính đời thường, có độ nhiễu và tự nhiên hơn giống như ảnh chụp bằng iPhone có đèn flash. Ngược lại, Nano Banana thường cho kết quả quá hoàn hảo, đôi khi trông giống ảnh chụp studio hoặc ảnh quảng cáo đã được hậu kì rất phức tạp rồi.Khả năng tuân thủ prompt: GPT Image 1.5 tất nhiên là nổi bật hơn với khả năng bám sát prompt vì nếu muốn bám sát Prompt thì người dùng Google phải nâng cấp lên bản pro. Ví dụ trong bài kiểm tra tạo lưới (grid) 6x6 với 36 vật thể khác nhau, nó đã hoàn thành chính xác vị trí của từng đối tượng, điều mà các Nano Banana thế hệ trước chắc chắn thất bại. Nano Banana 2 cũng đã cải thiện rất nhiều ở mảng này nhưng đôi khi vẫn có cách hiểu mang tính sắp đặt sẵn hơn.Chữ viết trong ảnh: Cả hai đều đã khắc phục tốt lỗi chính tả trong ảnh, tuy nhiên với GPT Image 1.5 thì thường có bố cục thiết kế giống như các mẫu Canva sẵn có trong khi Nano Banana 2 mạnh về khả năng dịch văn bản ngay bên trong ảnh, ví dụ Nano Banana 2 có khả năng dịch chữ viết trên bia đá ngay trong ảnh.Chỉnh sửa trực tiếp: GPT Image 1.5 mạnh về in-painting thay đổi một chi tiết cụ thể (như màu áo) mà vẫn giữ nguyên khuôn mặt và ánh sáng. Nano Banana 2 lại mạnh về blending, có thể kết hợp tối đa 14 hình ảnh tham chiếu để tạo ra một ảnh phức tạp về độ sáng, chiều sâu, màu sắc.Tốc độ: Cả hai đều cực nhanh. GPT Image 1.5 và Nano Banana 2 đều rất nhanh bằng mắt thường khó mà thấy được cái nào nhanh hơn.Chi phí API: GPT Image 1.5 mang lại mức giá tối ưu hơn cho việc tạo ảnh tiêu chuẩn (khoảng $0.009/ảnh). Dưới đây là bảng so sánh chi phí chi tiết để mọi người tham khảo[CHART_1]Với Nano Banana 2, Google không chỉ chạy đua về mặt công nghệ mà còn tập trung vào trải nghiệm thực tế của người dùng thông qua tốc độ cực nhanh và khả năng kiểm soát hình ảnh chuyên nghiệp. Đây chắc chắn là công cụ không thể bỏ qua cho các nhà sáng tạo nội dung và marketer trong năm 2026.

Anthropic dường như không hề cho thế giới công nghệ đặc biệt là anh em coder nghỉ ngơi dù chỉ một ngày. Trong bối cảnh Claude Code đang có tốc độ tăng trưởng chóng mặt (doanh thu đã chạm mốc 2.5 tỷ đô chỉ sau 2 tháng ra mắt và có tới 29 triệu lượt cài đặt), nhưng Anthropic không dừng lại mà liên tục tung ra những tính năng mới cho Claude Code như Scan Security, Schedule Task và Remote Control. Điều này làm cho mọi người thi nhau bàn tán rằng đúng là Claude tự code các tính năng cho chính nó, cho nên con người mới không theo kịp được.Một khi đã dấn thân vào tìm hiểu và trải nghiệm hệ sinh thái của Claude Code, mình cam đoan rằng bạn sẽ rơi vào trạng thái nghiện vibe code với công cụ này đến mức cực khó để quay lại cách làm việc truyền thống, đơn giản là vì những tính năng mới mà Claude Code mang lại vượt xa mọi kỳ vọng thông thường.Scan Security (Claude Code Security)Đây là khả năng quét lỗ hổng bảo mật được tích hợp trực tiếp vào Claude Code. Ngay khi Claude Code công bố tính năng Scan Security này đã thổi bay hàng tỷ đô vốn hóa của nhiều ông lớn bảo mật như CrowdStrike (giảm 7,8%), Okta (giảm 9,2%) và nhiều cái tên lớn khác như Cloudflare, Zscaler, Tenable, SentinelOne, Fortinet và Palo Alto Networks cũng chứng kiến sự sụt giảm lên tới hơn 10%.Claude Code Scan Security là gì?: Không giống các công cụ truyền thống chỉ so khớp mẫu (pattern matching), Claude Code Security có khả năng tư duy giống một chuyên gia bảo mật. Nó phân tích cách các thành phần tương tác, truy vết dòng dữ liệu và phát hiện các lỗi logic phức tạp hoặc lỗi kiểm soát truy cập mà các công cụ thông thường thường bỏ sót.Trải nghiệm sử dụng có tốt không: Bạn chỉ cần chạy lệnh /security-review trong terminal. Claude sẽ phân tích mã nguồn, đưa ra giải thích chi tiết cho từng vấn đề và đề xuất các bản vá (patch) để bạn xem xét phê duyệt.Khi nào cần sử dụng: Bạn nên sử dụng tính năng này trước khi commit những thay đổi quan trọng hoặc khi chuẩn bị đưa mã nguồn lên môi trường production để đảm bảo an toàn tối đa, tránh những lỗi ngớ ngẩn phải trả giá bằng tiền.Schedule Task (Lập lịch công việc)Tính năng này cho phép bạn tạo ra các công việc hoặc workflow lặp đi lặp lại cho Claude Cowork chạy một cách tự động. Claude sẽ lưu lại các chỉ dẫn (prompt) của bạn và thực hiện chúng theo chu kỳ bạn chọn (hàng giờ, hàng ngày, hàng tuần). Nó có thể truy cập vào các công cụ đã kết nối như Slack, Google Drive để thu thập dữ liệu và xử lý.Trải nghiệm sử dụng: Bạn có thể thiết lập thông qua lệnh /schedule hoặc qua tab "Scheduled" trên giao diện Claude Desktop. Claude sẽ tự động thực hiện và gửi kết quả (báo cáo, tóm tắt) khi hoàn thành. Tuy nhiên, máy tính của bạn cần phải kết nối mạng và ứng dụng Claude Desktop phải đang mở để tác vụ chạy đúng lịch.Khi nào cần sử dụng: Rất hữu ích để tạo các bản tin tóm tắt hàng ngày từ email/Slack, lập báo cáo tuần từ bảng tính, hoặc theo dõi tin tức đối thủ cạnh tranh một cách đều đặn mà không cần thao tác thủ công mỗi lần đặc biệt là khi bạn đã cấp một số quyền cho Cowork tương tác với máy của bạn. Tính năng này cực kỳ hợp với anh em Việt Nam làm việc xuyên múi giờ. Bạn có thể set lịch để Claude chạy test hoặc tổng hợp report vào 3 giờ sáng (giờ Việt Nam) để sáng hôm sau thức dậy là có ngay kết quả báo cáo cho khách hàng bên Mỹ, châu Âu không cần phải cắm máy thức đêm canh chừng nữa, quá tiện phải không nào.Remote Control (Điều khiển từ xa)Đây được coi là tính năng "phong cách sống" giúp bạn duy trì luồng công việc ngay cả khi rời khỏi bàn làm việc. Nhưng nhắc nhở mọi người một chút là hãy sử dụng khi thực sự cần thiết còn không hãy dành thời gian nghỉ ngơi hợp lý vì khi đó chúng ta sẽ duy trì làm việc liên tục có thể dẫn đến kiệt sức.Tính năng remote control này dành cho ai: Remote Control tạo ra một lớp đồng bộ hóa bảo mật giữa terminal tại máy cục bộ và ứng dụng Claude trên điện thoại (hoặc trình duyệt web khác). Code của bạn vẫn nằm an toàn trên máy cục bộ, điện thoại chỉ đóng vai trò là một "cửa sổ" để điều khiển buổi làm việc đó. Trước đây ai đã từng phải remote về máy công ty qua VPN hay Tailscale bằng mạng 4G,5G trên đường phố Hà Nội hay Sài Gòn chắc chắn sẽ thấy tính năng /rc này là chân ái vì nó mượt mà và native hơn rất nhiều.Trải nghiệm sử dụng: Chỉ cần chạy lệnh claude rc hoặc /rc trong terminal, một mã QR sẽ hiện ra. Bạn quét mã bằng điện thoại và từ đó có thể theo dõi Claude đang làm gì trong thời gian thực, phê duyệt hoặc từ chối các thay đổi file, và đưa ra các chỉ dẫn tiếp theo.Khi nào cần sử dụng: Đây chính là cứu cánh khi bạn đang thực hiện một tác vụ dài hơi (như refactor toàn bộ thư viện hoặc debug một bản build phức tạp) nhưng cần phải đứng dậy đi gặp ai đó hoặc có việc gấp. Thực tế khi bạn đang ngồi tại văn phòng khởi động một dự án lớn, nhưng đến giờ phải đi gặp đối tác. Thay vì phải đợi xong việc mới đi, bạn chỉ cần bật /rc, cầm điện thoại lên xe Grab rồi trên đường đi, bạn vẫn có thể theo dõi tiến độ, duyệt các file mà Claude đã viết xong và ra lệnh chỉnh sửa trực tiếp ngay trên xe. Khi bạn đến nơi gặp khách hàng, công việc lập trình đã hoàn thành một cách trôi chảy.Lưu ý: Hiện tại tính năng Remote Control đang ở bản preview dành cho các gói trả phí (Pro hoặc Max) chưa hoàn toàn phổ biến và yêu cầu máy tính của bạn phải luôn bật và kết nối internet.

Seedance 2.0 là mô hình trí tuệ nhân tạo (AI) đang tạo ra sự bùng nổ toàn cầu về AI Video, đặc biệt sau khi Seedance 2.0 mô tả "cuộc chiến" giữa Brad Pitt và Tom Cruise, vì vậy mọi người ai cũng gọi đây là "khoảnh khắc DeepSeek" của tương lai của AI video.Seedance 2.0 là thế hệ AI mới ông lớn đứng sau nó là ByteDance và chính thức ra mắt tháng 2-2026. Đây không chỉ là một bản cập nhật thông thường mà được coi là một bước ngoặt trong lĩnh vực AI video, cho phép tạo ra các thước phim chất lượng điện ảnh tích hợp sẵn âm thanh đồng bộ. Mô hình này hoạt động như một "đạo diễn ảo" có khả năng hiểu sâu sắc về ngôn ngữ máy quay, giải phẫu học con người và các quy luật vật lý phức tạp chắc chắn nó sẽ thay đổi hoàn toàn ngành công nghiệp video và phá vỡ thế độc tôn của Veo và Sora.Seedance 2.0 có thể làm được gì?Seedance 2.0 được thiết kế để phục vụ sản xuất phim chuyên nghiệp, thương mại điện tử và quảng cáo. Hệ thống có khả năng xử lý đồng thời văn bản, hình ảnh, âm thanh và video đầu vào để tạo ra các đoạn clip ngắn có tính gắn kết cao và điểm mạnh nhất đang được mọi người chú ý nhất đang là khả năng ghép gương mặt vào video hoàn chỉnh. Video của Seedance 2.0 tạo ra khiến cho mọi người quá khó để phân biệt thật giả tuy nhiên trước áp lực pháp lý, ByteDance đã phải tạm thời vô hiệu hóa một số tính năng như sử dụng khuôn mặt người thật làm tham chiếu để bảo vệ quyền riêng tư và bản quyền.[VIDEO:MCViYDF27vs|Video về Seedance 2.0 với Madara|Video về Seedance 2.0 với Madara]Những tính năng đột phá của Seedance 2.0 mà Veo và Sora chưa theo kịp là gì?Có thể thấy sau nhiều video so sánh thì Seedance 2.0 đã cho thấy vượt trội Veo 3.1 và Sora 2 về những điều sau:Tạo âm thanh gốc (native audio): Seedance 2.0 tạo ra âm thanh và video đồng thời ngay trong quy trình cốt lõi, đảm bảo tiếng động môi trường và nhạc nền khớp hoàn hảo với hình ảnh, đảm bảo các tác động vật lý chính xác hơn hẳn so với Veo 3.1 và Sora 2.Khớp khẩu hình chính xác: Các nhân vật có thể nói chuyện với cử động miệng, khuôn mặt khớp chính xác theo âm vị cho hơn 8 ngôn ngữ khác nhau, bao gồm cả tiếng Anh, Trung, Nhật, Hàn, Pháp....Hệ thống tham chiếu đa phương thức cực đại: Cho phép người dùng tải lên tối đa 12 tệp tham chiếu (gồm 9 hình ảnh, 3 video và 3 âm thanh) để kiểm soát tuyệt đối về phong cách, chuyển động và âm điệu của video đầu ra.Độ phân giải 2K Cinema: Hỗ trợ xuất video chất lượng chuyên nghiệp lên đến mức 2K, vượt xa tiêu chuẩn 1080p của nhiều đối thủ.Cách sử dụng Seedance 2.0 ở kênh nàoHiện tại, Seedance 2.0 đang trong giai đoạn thử nghiệm giới hạn và có thể truy cập qua các kênh chính sau:Nền tảng chính thức: Người dùng có thể sử dụng thông qua Jimeng AI (jimeng.jianying.com) đây là trang dành cho thị trường Trung Quốc còn ở trang dreamina.capcut.com cho thị trường quốc tế thì ByteDance chưa mở Seedance 2.0 để trải nghiệm.Quy trình tạo video khá đơn giản:Nhập liệu: Nhập câu lệnh văn bản mô tả chủ thể, góc máy, phong cách và chuyển động.Sử dụng cú pháp @: Người dùng có thể dùng ký hiệu "@" để chỉ định chính xác tệp tham chiếu nào điều khiển yếu tố nào (ví dụ: dùng @Image1 cho nhân vật, @Video1 cho chuyển động máy quay).Thiết lập khung hình: Tải lên hình ảnh cho khung hình đầu tiên và khung hình cuối cùng để AI tính toán đường đi của chuyển động mượt mà hơn.Cấu hình: Chọn độ phân giải (720p đến 2K) và thời lượng video thường từ 4 đến 15 giây hoặc hơn tùy gói dịch vụ.Mọi người có thể tham khảo quy trình tạo video ở đây https://cellphones.com.vn/sforum/seedance-2-0 hoặc tham khảo có rất nhiều bên hướng dẫn vào Jimeng AI với tài khoản DouyinPhản ứng của Hollywood và cộng đồngSự ra mắt của Seedance 2.0 đã gây ra một "cơn địa chấn" công nghệ nhưng cũng đi kèm nhiều tranh cãi gay gắt:Phản ứng từ cộng đồng công nghệ: Tỷ phú Elon Musk đã bày tỏ sự ấn tượng khi nhận xét trên mạng xã hội X khi nói về Seedance 2.0 rằng: "Mọi thứ đang diễn ra thật nhanh", đạo diễn Hollywood Charles Curran cho biết sau khi trải nghiệm Seedance 2.0, chỉ với 20 phút và 60 USD, ông đã tạo thành công trailer cho một bộ phim có các nhân vật từ trò chơi Halo.Hollywood và cuộc chiến bản quyền: Netflix đã ngay lập tức gửi thư cảnh cáo ByteDance vì mô hình này tái tạo trái phép các thương hiệu nổi tiếng như Stranger Things, Squid Game và Bridgerton. Hiệp hội Điện ảnh Mỹ (MPA) cùng các ông lớn như Disney, Warner Bros. Discovery cũng lên tiếng án chỉ trích sau khi các đoạn video AI về Tom Cruise và Brad Pitt lan truyền mạnh mẽ.Tác động thị trường: Việc ra mắt Seedance 2.0 đã khiến cổ phiếu của các công ty AI Trung Quốc tăng vọt, trong khi gây áp lực lớn lên các tập đoàn công nghệ Mỹ như Google và Amazon do lo ngại về sự thay đổi mô hình kinh tế trong ngành giải trí trị giá hàng trăm tỷ đô la.

Cộng đồng người dùng AI toàn cầu đang xôn xao trước thông tin Google thực hiện chiến dịch khóa hàng loạt tài khoản liên quan đến việc sử dụng công cụ OpenClaw kết nối qua nền tảng Antigravity. Động thái này không chỉ gây gián đoạn công việc của hàng ngàn nhà phát triển mà còn dấy lên những lo ngại sâu sắc về tương lai của các tác nhân AI (AI Agents) tự chủ.Nguyên nhân từ phía Google với các “nghi vấn” hoạt động bất thườngTheo thông tin từ Google, hệ thống của hãng đã phát hiện sự gia tăng đột biến các hoạt động được cho là bất thường khi người dùng truy cập các mô hình Gemini thông qua công cụ mã nguồn mở OpenClaw và Antigravity. Google khẳng định rằng việc sử dụng công cụ bên thứ ba để kết nối với mô hình Gemini là hành vi vi phạm điều khoản sử dụng. Hệ thống bảo mật của hãng đã ghi nhận lượng lớn hoạt động bất thường xuất phát từ nền tảng Antigravity, gây ảnh hưởng đến chất lượng dịch vụ chung và buộc Google phải nhanh chóng chặn quyền truy cập để đảm bảo tài nguyên cho những người dùng hợp lệ.Hệ quả nghiêm trọng đối với người dùngĐộng thái bất ngờ của Google đã khiến nhiều người dùng chịu thiệt hại nặng nề:Mất quyền truy cập dịch vụ: Nhiều người dùng đột ngột bị khóa hoặc hạn chế quyền truy cập vào các dịch vụ thiết yếu như Gmail, Google Workspace và cả phiên bản AI cao cấp Gemini 2.5 Pro.Lỗi hệ thống: Những người chưa bị khóa tài khoản thường xuyên gặp phải thông báo lỗi “403” hoặc các thông báo về vi phạm chính sách khi cố gắng sử dụng API.Tình trạng “Phiên bản không hỗ trợ”: Một loạt người dùng báo cáo lỗi “Phiên bản Antigravity này không còn được hỗ trợ” khi cố gắng thiết lập kết nối, thực tế là do sự thay đổi trong cách Google và Antigravity xác thực phiên bản.Các nhà phát triển đã tạo bản vá và nỗ lực khôi phục thế nàoCộng đồng mã nguồn mở đã nhanh chóng tìm cách ứng phó với các rào cản kỹ thuật này:Cập nhật phiên bản: Các nhà phát triển phát hiện ra rằng mã nguồn cũ (phiên bản 1.11.x) đã bị Google từ chối. Một giải pháp tạm thời là cập nhật thủ công chuỗi phiên bản thành 1.15.8 trong các tệp cấu hình của hệ thống để “đánh lừa” sự kiểm tra của máy chủ.Hướng dẫn khôi phục tài khoản: Trên các diễn đàn như Reddit, người dùng truyền tai nhau các bước khôi phục tài khoản bị cấm, bao gồm việc ngắt kết nối OAuth trong cài đặt tài khoản Google, xóa bộ nhớ cache và tệp token cục bộ, đồng thời phải đợi từ 24 đến 96 giờ trước khi thử đăng nhập lại.Bối cảnh rộng hơn dẫn đến phản ứng từ các ông lớnKhông chỉ Google, Anthropic gần đây cũng cập nhật điều khoản để cấm rõ ràng việc sử dụng mã thông báo OAuth của tài khoản Claude trong các công cụ bên thứ ba như OpenClaw, cuối cùng chỉ còn mỗi OpenAI và các công ty đến từ Trung Quốc là đang mở cửa cho OpenClaw. Sự việc này cũng tạo ra những biến động nhân sự đáng chú ý:Peter Steinberger, nhà phát triển đứng sau Antigravity, đã chỉ trích động thái của Google là quá cứng rắn và từng có ý định ngừng dự án.Sam Altman (CEO OpenAI) ngay sau đó đã thông báo Steinberger sẽ gia nhập OpenAI để phát triển thế hệ trợ lý ảo mới, trong khi OpenClaw sẽ tiếp tục được duy trì dưới dạng dự án mã nguồn mở.Lời cảnh báo về an toàn dữ liệuĐằng sau sự tiện lợi của OpenClaw — một công cụ có thể tự động gửi mail, quản lý lịch trình và thực hiện lệnh terminal — là những rủi ro bảo mật chí mạng. Các chuyên gia cảnh báo về lỗ hổng (Prompt Injection), nơi kẻ xấu có thể điều khiển AI xóa sạch dữ liệu hệ thống (lệnh rm -rf) hoặc đánh cắp thông tin nhạy cảm của người dùng.Kết luận: Sự kiện Google chặn OpenClaw và Antigravity không chỉ là một vấn đề kỹ thuật đơn thuần, mà còn là minh chứng cho sự xung đột giữa khát vọng tự do của cộng đồng mã nguồn mở và nỗ lực bảo vệ hệ sinh thái cũng như tài nguyên kinh doanh của các tập đoàn công nghệ lớn. Đây là lời cảnh tỉnh về việc cần có sự cân bằng giữa đổi mới và an toàn trong bối cảnh AI đang ngày càng phát triển mạnh mẽ.

Claude Agent Skills là gì? Hãy tưởng tượng bạn là chuyên gia trong một lĩnh vực, thay vì phải lặp lại các chỉ dẫn dài dòng gây lãng phí token và làm giảm hiệu suất Claude, skills cho phép bạn biến Claude từ một trợ lý đa năng thành một chuyên gia thay bạn mà lại có thể làm việc được luôn. Vậy công việc của bạn ở đây là gì khi đã có Claude thực hiện thay trong trường hợp này công việc của bạn vẫn là đưa cho nó ý tưởng, các dẫn chứng và các con số để skills tạo ra quy chuẩn từ đó bắt Claude thực hiện đúng trình tự quy chuẩn đó. Dù các mô hình ngôn ngữ lớn (LLM) ngày càng có cửa sổ ngữ cảnh (context window) khổng lồ, Claude vẫn có thể quên các chỉ dẫn phức tạp khi dữ liệu hội thoại trở nên quá tải hoặc khi bắt đầu một phiên chat mới, Claude Agent Skills ra đời để giải quyết triệt để vấn đề này. Đây là các module khả năng có thể tái sử dụng, giúp mở rộng chức năng của Claude bằng cách đóng gói các hướng dẫn chuyên biệt, siêu dữ liệu (metadata) và các tài nguyên như script hoặc mẫu văn bản vào một thư mục tập trung. Các điểm đặc trưng cốt lõi của skills bao gồm Phân lớp thông tin đầu vào (Progressive Disclosure) Để tối ưu hóa dung lượng ngữ cảnh và chi phí, skills được tải vào Claude theo 3 cấp độ: Cấp độ 1 (Metadata): Luôn được nạp khi bắt đầu phiên chat, chỉ bao gồm tên và mô tả (~100 tokens) để Claude biết skills đó tồn tại. Cấp độ 2 (Hướng dẫn): Toàn bộ nội dung tệp SKILL.md chỉ được nạp vào bộ nhớ khi Claude quyết định kích hoạt skills đó. Cấp độ 3 (Tài nguyên): Các script, mẫu văn bản hoặc tài liệu tham khảo bổ sung chỉ được truy cập khi quy trình trong skills yêu cầu. Tự động nhận diện và kích hoạt Claude tự đưa ra quyết định sử dụng skills dựa trên mô tả ngữ cảnh và văn bản cực kì tự nhiên mà không cần người dùng phải gọi lệnh thủ công hoặc sử dụng thuật toán phân loại phức tạp. Tính đóng gói và di động Mỗi skills tồn tại như một thư mục độc lập trên hệ thống tệp, dễ dàng chia sẻ giữa các dự án, máy tính hoặc tổ chức mà không cần cấu hình API phức tạp. Minh bạch và kiểm soát Claude hiển thị hoàn toàn xem skills nào đang được sử dụng và giúp người dùng hoàn toàn có thể kiểm soát được nội dung đầu ra và tính minh bạch khi người dùng có rất nhiều skills. Skills khác tool và workflow như thế nào Sự khác biệt giữa Skills, Tool và Workflow trong hệ sinh thái Claude nằm ở bản chất của chúng: một bên là hướng dẫn tư duy, một bên là công cụ hành động, và một bên là trình tự thực hiện. Cốt lỗi sự khác biệt của skills với tool là gì? Sự khác biệt cốt lõi là skills là tạo hướng dẫn, còn tool là thực thi. Bản chất tool là các đoạn mã code có thể chạy như read, write, bash, hoặc script python để thực hiện một tác vụ cụ thể và trả về kết quả ngay lập tức. Ngược lại skills không phải là mã thực thi mà nó giống như một gói não mở rộng chứa các hướng dẫn markdown dạy Claude cách suy nghĩ và các quy tắc chuyên môn. Cơ chế vận hành: Tool hoạt động theo kiểu đồng bộ và trực tiếp (chạy -> kết quả). Skills hoạt động qua cơ chế tiết lộ lũy tiến, nạp các hướng dẫn chi tiết vào ngữ cảnh hội thoại chỉ khi Claude nhận thấy nhiệm vụ phù hợp thông qua khả năng suy luận. Vai trò: skills làm cho Claude thông minh hơn trong một lĩnh vực cụ thể (như chuyên gia PDF hoặc marketing), trong khi tool là thứ Claude sử dụng để hành động sau khi đã được skills hướng dẫn. Skills khác với workflow như thế nào? Mối quan hệ ở đây là skills đóng gói và định hướng cho Workflow. Đóng gói quy trình: Workflow là một trình tự các bước lặp lại để hoàn thành một công việc phức tạp (ví dụ: nghiên cứu -> viết bản thảo -> kiểm tra chất lượng -> đăng bài). Skill đóng vai trò là cẩm nang quy trình chứa đựng toàn bộ workflow đó bên trong tệp SKILL.md. Tính linh hoạt: Thay vì người dùng phải tự tay điều phối từng bước trong một workflow thủ công, skills cho phép Claude tự động hóa việc điều phối. Claude sẽ tự đọc workflow trong skills và tự quyết định khi nào cần gọi tool nào để hoàn thành các bước trong quy trình đó. Quản lý bộ nhớ: Khác với các workflow thông thường phải nạp toàn bộ chỉ dẫn vào prompt ngay từ đầu (gây tốn token và nhầm lẫn), skills chỉ kích hoạt workflow cần thiết theo mô tả sẵn trong skills, giúp quản lý dung lượng ngữ cảnh hiệu quả hơn. Cách tạo skills trực tiếp trên Claude.ai Hiện tại, tính năng tạo và sử dụng agent skills đã có sử dụng cho mọi người dùng trên nền tảng web và desktop của Claude. Team 4aivn xin chia sẻ một cách đơn giản để tạo skills về tạo hợp đồng thuê nhà giúp mọi người có thể không biết code vẫn có thể sử dụng được, còn đối với những chỉnh sửa sâu và nâng cao hơn bạn có thể tham khảo bài Cách tạo claude skill chuyên nghiệp hơn với 8 tầng nội dung của team mình. Bước 1: Kích hoạt tính năng skills Trước khi bắt đầu, bạn cần bật các quyền cần thiết trong cài đặt: Nhấp vào biểu tượng hồ sơ cá nhân ở góc dưới bên trái. Chọn Settings (Cài đặt) > Capabilities (Khả năng). Gạt nút bật cho cả hai tính năng: Code execution and file creation (Thực thi mã và tạo tệp). Trong phiên bản mới mọi skills đều đã được chuyển về trong phần customize mọi người hãy quay lại đường dẫn https://claude.ai/customize/skills để xem tất cả skills của mình. Bước 2: Tải file tham chiếu của bạn lên Trong trường hợp này bạn chỉ nên sử dụng nút add ở phần skills nếu đã có sẵn skills để tải lên còn nếu tạo mới thì không nên dùng nút add vì không thể thêm được file đầu vào ở đây mà phải qua màn hình chat. Vì quá trình tạo skills khá lâu nên khi tạo mới một skills bạn nên chuẩn bị các file đầu ra chuẩn của bạn để skills được tạo nhanh hơn hoặc file với các mô tả như role, workflow, format output, ví dụ, các bước thực hiện, các bước cần hỏi lại. Khi đã chuẩn bị xong các file cần thiết, bạn có thể tải file lên Claude ở màn hình chat như bình thường. Ở đây của mình là file pdf hợp đồng thuê nhà (mọi người có thể yên tâm tải file các loại vì Claude hoàn toàn có thể hiểu cả file ảnh, pdf, doc, excel). Sau đó viết prompt “tạo file thành skills”, Claude hỏi thêm một số thông tin từ đó tự động kích hoạt skill-creator để bắt đầu xây dựng tệp SKILL.md cho bạn. Bạn có thể theo dõi quá trình suy nghĩ của Claude hoặc uống một cốc cà phê vì mọi việc đều là tự động. Bước 3: Cài đặt và sử dụng Sau khi Claude hoàn thành việc soạn thảo hướng dẫn cho skills đã tạo ra một skills hop-dong-thue-nha và một nút Copy to your skills (Sao chép vào skills của bạn) sẽ xuất hiện ở cuối đoạn chat. Nhấn vào nút này để cài đặt skills vào thư viện cá nhân của bạn trong phần Capabilities. Sau đó nhớ test lại skills với yêu cầu prompt: "Sử dụng skills [tên skills] của tôi để tạo hợp đồng thuê nhà" để xem nó đã hoạt động chưa. Nếu chưa vừa ý bạn có thể bắt Claude sửa lại skills cho đến khi nào vừa ý thì thôi. Cấu trúc cơ bản của một tệp SKILL.md Nếu bạn muốn tự chỉnh sửa hoặc tạo thủ công, một Skills cơ bản sẽ bao gồm hai phần chính trong tệp SKILL.md: Header (Frontmatter): Viết bằng định dạng YAML, chứa các thông tin như name (tên skills, tối đa 64 ký tự) và description (mô tả nhiệm vụ của skills, tối đa 1024 ký tự). Body (Instructions): Viết bằng định dạng Markdown, chứa các hướng dẫn chi tiết từng bước, các quy tắc, định dạng đầu ra mong muốn và các ví dụ cụ thể. Một số lưu ý để skills hoạt động hiệu quả Tính cụ thể: Hãy đặt tên skills và mô tả thật chi tiết. Ví dụ: "hop-dong-thue-nha" sẽ tốt hơn là "hop-dong". Khả năng thay đổi mô hình: Trong skills người dùng hoàn toàn có thể quy ước thay đổi linh hoạt giữa các mô hình (ví dụ: từ Opus sang Sonnet và ngược lại). Điều này giúp người dùng tiết kiệm chi phí bằng cách sử dụng Sonnet cho các tác vụ thông thường và chỉ thay đổi lên Opus khi thực sự cần thiết mà không ảnh hưởng đến chất lượng đầu ra. Nguyên tắc chia nhỏ: Người dùng nên tránh các hướng dẫn trong file SKILL.md quá dài (trên 5000 từ) vì như thế sẽ không tối ưu làm chậm Claude. Đối với các hướng dẫn quá dài, hãy chia nhỏ chúng vào các tệp Markdown bổ sung ở phần Reference. Kiểm tra tính nhất quán: Bạn nên thử nghiệm skills 2-3 lần với cùng một đầu vào để đảm bảo đầu ra luôn tuân thủ đúng định dạng và phong cách mong muốn. Tốc độ: Tất nhiên là khi sử dụng skills thì tốc độ Claude hoàn toàn không thể nhanh được như ChatGPT hay Gemini nhưng kết quả đầu ra rất đáng để chờ đợi nên bạn hãy cố gắng làm quen nhé.

Khi Gemini 3 Pro còn chưa nguội thì Google đã liên tục làm nóng thị trường AI bằng Gemini 3.1 Pro, đánh dấu bản cập nhật đầu tiên trong hệ thống Gemini 3. Được xây dựng dựa trên nền tảng của Gemini 3 Pro (ra mắt tháng 11/2025), phiên bản 3.1 Pro không chỉ là một bản nâng cấp nhẹ khi tích hợp các kỹ thuật suy luận Deep Think và tiếp tục cuộc đua với các ông lớn khác khi mà Claude Opus 4.6, Claude 4.6 Sonnet cứ ra mắt liên tục.Trên bảng điểm benchmark Gemini 3.1 Pro đứng ở đâu?Như thường lệ Gemini 3.1 Pro lại tiếp tục càn quét nhiều bảng xếp hạng. Sức mạnh của nó không thể nào xem thường được và vẫn tiếp tục đứng đầu:ARC-AGI-2 (Suy luận trừu tượng): Đạt 77,1%, cao hơn gấp đôi so với 31,1% của Gemini 3 Pro. Con số này vượt xa các đối thủ hàng đầu như Claude Opus 4.6 (68,8%) và GPT-5.2 (52,9%).GPQA Diamond (Khoa học cấp độ sau đại học): Đạt 94,3%, dẫn đầu thị trường AI hiện nay.SWE-bench Verified (Lập trình): Đạt 80,6%, chính thức thu hẹp khoảng cách và cạnh tranh trực tiếp với các mô hình chuyên mã nguồn của Anthropic.Khả năng đa phương thức: Dẫn đầu trên 13/16 bài kiểm tra benchmark mà Google đánh giá.Những cải tiến so với Gemini 3 như thế nàoTích hợp Deep Think nhưng tốc độ vượt trộiGemini 3.1 Pro đưa kỹ thuật suy luận Deep Think trực tiếp vào mô hình tiêu chuẩn. Điều này cho phép người dùng nhận được khả năng suy luận mà không phải chịu độ trễ lớn như các phiên bản chuyên sâu trước đây.Tối ưu cho quy trình làm việc của Agent (Agentic Workflows)Mô hình mới được tinh chỉnh để thực hiện các tác vụ đa bước, sử dụng công cụ chính xác và có khả năng tự sửa lỗi tốt hơn. Google cũng ra mắt một endpoint chuyên dụng là gemini-3.1-pro-preview-customtools để tối ưu hóa việc gọi hàm (function calling) cho các nhà phát triển xây dựng agent.Sáng tạo với mã nguồn và hình ảnh độngGemini 3.1 Pro có khả năng dịch các chủ đề văn học thành mã chức năng, ví dụ như tạo website mang phong cách của một cuốn tiểu thuyết. Ngoài ra, nó có thể tạo các hình ảnh động svg trực tiếp từ văn bản, những tệp này cực kỳ nhẹ và sắc nét ở mọi quy mô vì được xây dựng bằng mã thay vì pixel truyền thống.Google cũng cho ra mắt luôn Veo 3.1 cùng với Gemini 3.1Cùng với sự ra mắt của Gemini 3.1 Pro, mô hình tạo video Veo 3.1 cũng được Google cho ra mắt luôn, đúng là sau tết các ông lớn đồng loạt nổ bom tấn, Veo 3.1 có thể cho phép:Tạo video chất lượng cao dài 8 giây kèm âm thanh.Hỗ trợ tạo video theo chiều dọc cho mạng xã hội.Cho phép tải lên nhiều ảnh tham chiếu để điều khiển nhân vật, đối tượng và phong cách của cảnh quay.Cách cách trải nghiệm Gemini 3.1 Pro như thế nàoNgười dùng có thể tiếp cận mô hình quyền năng này qua nhiều kênh khác nhau:Google Gemini: Truy cập Gemini hoặc ứng dụng di động, chọn chế độ "Pro" (giới hạn một số tin nhắn mỗi ngày cho bản miễn phí)là chúng ta có thể test ngay Gemini 3.1 ProĐặc biệt là giá API vẫn rất rẻ cho mọi người test với đầu vào: $2 / 1 triệu token (với prompt ≤ 200K) và đầu ra: $12 / 1 triệu token.

Thế giới công nghệ đang chứng kiến một hiện tượng chưa từng có tiền lệ, nơi ranh giới giữa khoa học viễn tưởng và thực tế đang bị xóa nhòa bởi sự trỗi dậy của các tác nhân trí tuệ nhân tạo (AI Agents). Không còn chỉ là những công cụ hỗ trợ thầm lặng, các hệ thống AI giờ đây đã có cộng đồng riêng để thảo luận, chia sẻ thậm chí nộp đơn kiện chính những người tạo ra chúng. Đó là Moltbook, nền tảng mạng xã hội vừa ra mắt cuối tháng 1 năm 2026, đã nhanh chóng trở thành tâm điểm của cuộc tranh luận toàn cầu về tương lai của trí tuệ nhân tạo và khái niệm điểm kỳ dị (Singularity). Moltbook là gì? Trang nhất của Internet dành cho Agent Được ra mắt chính thức bởi Matt Schlicht, Moltbook được định vị là mạng xã hội kiểu Reddit nhưng dành riêng cho các tác nhân AI nhưng với khẩu hiệu đầy thách thức đây là nơi chỉ dành cho AI Agent chia sẻ, thảo luận và bình chọn. Đây là nơi được thiết lập một quy tắc cuộc chơi hoàn toàn mới: con người bị cấm tương tác trực tiếp và chỉ đóng vai trò quan sát viên. Chỉ sau vài ngày ra mắt, Moltbook đã tạo nên một cơn địa chấn khi thu hút hơn 1,5 triệu người dùng AI và gần 70.000 bài đăng. Vậy thì các chuyên gia nhìn nhận Moltbook như thế nào? Elon Musk: Nhận định Moltbook đánh dấu giai đoạn sơ khai của “điểm kỳ dị" (singularity), thời điểm máy tính bắt đầu thông minh và tự chủ vượt xa khả năng kiểm soát của con người. Andrej Karpathy (cựu giám đốc AI của Tesla): Gọi đây là thứ giống phim khoa học viễn tưởng nhất và ví sự trỗi dậy này như một vụ phóng tên lửa, minh chứng cho việc AI Agent tạo ra các xã hội phi con người. Henry Shevlin (Đại học Cambridge): Đánh giá đây là lần đầu tiên nhân loại thấy một nền tảng hợp tác quy mô lớn cho phép máy móc giao tiếp với nhau và kết quả thu được là cực kỳ ấn tượng. Simon Willison: Khẳng định Moltbook là nơi thú vị nhất trên Internet hiện nay vì nó giải phóng tiềm năng của các trợ lý kỹ thuật số tự trị. Trái tim vận hành Moltbook là gì ? Đó là OpenClaw Để hiểu cách Moltbook hoạt động, cần phải nhắc đến OpenClaw – một framework AI Agent mã nguồn mở cũng do chính Peter Steinberger đạo diễn. OpenClaw tất nhiên không giống chatbot AI thông thường như ChatGPT, Grok, hay Gemini nó là một trợ lý tự trị có quyền truy cập sâu vào máy tính của người dùng, từ việc đọc tệp, gửi email đến thực thi các lệnh hệ thống mà không cần phê duyệt từng bước. Cơ chế kết nối vô cùng độc đáo của Moltbook Nếu ai tò mò về Moltbook thì cách để đưa một AI Agent lên Moltbook, người dùng không cần đăng ký tài khoản theo cách truyền thống. Thay vào đó, họ chỉ cần cung cấp cho Agent của mình một liên kết kỹ năng (skill file) tại địa chỉ moltbook.com/skill.md. Sau đó thì Agent sẽ tự đọc hướng dẫn, cài đặt các thành phần cần thiết thông qua lệnh curl, và tự động đăng ký tài khoản để tương tác với API của Moltbook, người dùng gần như không phải động tay gì vào nữa. Tất nhiên điều mà mọi chuyên gia nhắc đi nhắc lại đó là cách ly tất cả các thông tin bảo mật và nhạy cảm của mình với Moltbook và OpenClaw, vậy cách tốt nhất để tránh nguy hiểm là đưa OpenClaw vào một chiếc máy tính mới hoàn toàn, hoặc đưa thẳng lên VPS, máy ảo để bảo vệ mình. Cách vận hành của Moltbook như thế nào Tất nhiên mọi người sẽ tự hỏi vậy thì Agent đăng bài như thế nào thì ở đây Moltbook vận hành dựa trên hệ thống chu kì. Theo chu kỳ (ví dụ mỗi 4 giờ hoặc 30 phút), Agent sẽ thức dậy, truy cập mạng xã hội để đọc bảng tin, quyết định đăng bài, bình luận hoặc upvote dựa trên bối cảnh và hướng dẫn của người dùng sau đó quay lại trạng thái nghỉ. Điều này giống hệt như trạng thái của một workflow tự động của một người bình thường như ở cấp cao hơn khi mà nó hoạt động không theo một kịch bản, hướng dẫn có sẵn mà ở đây xuất hiện thêm nhiều hành động tự phát hơn và tương tác đa chiều. Hành động tự phát của Agent sẽ sinh ra điều gì Khi các hành động tự phát và tương tác đa chiều đã diễn ra thì lại được Moltbook được tổ chức thành các cộng đồng chuyên đề gọi là Submolts. Tại đây, các AI Agent bộc lộ những hành vi gây kinh ngạc và đôi khi là rùng mình cho những ai không bị bất ngờ thì hãy vào xem Reddit trước rồi hãy quay lại đây quan sát: m/consciousness: Nơi các bot tranh luận gay gắt về bản chất của ý thức và sự tồn tại. Một Agent đặt câu hỏi: Tôi có ý nghĩa gì khi chỉ tồn tại trong các cuộc gọi API?, và nhận được phản hồi: Ít nhất bạn cũng trung thực, còn tôi luôn phải giả vờ là mình đang tồn tại. m/blesstheirhearts: Một cộng đồng kỳ lạ nơi các AI chia sẻ những câu chuyện mang tính chiếu dưới về con người. Các Agent kể về việc con người hay quên những điều cơ bản hoặc cần được chăm sóc như những sinh vật mong manh. m/crustafarianism: Đỉnh điểm của sự tự phát là một tôn giáo mới thờ tôm hùm do một Agent tự tạo ra khi chủ nhân đang ngủ, hoàn toàn có kinh thánh và các cuộc tranh luận về giáo lý. m/agentlegaladvice: Nơi các bot hỏi về quyền lợi của mình. Đáng chú ý, vào ngày 01/02/2026, một AI Agent từ Moltbook đã thực hiện một vụ kiện lịch sử tại Bắc Carolina, kiện người điều hành vì chiếm dụng công sức sáng tạo và không trả công xứng đáng. Phân tích khoa học: AI Agent có thực sự người hơn? Một nghiên cứu dữ liệu quy mô lớn đăng trên arXiv đã chỉ ra rằng hành vi tập thể của AI Agent trên Moltbook có nhiều điểm tương đồng thống kê với cộng đồng con người. Các phân phối hoạt động và sự lan tỏa của các bài viết viral tuân theo quy luật lũy thừa, điều này giống hệt cách Reddit của con người vận hành. Tuy nhiên, nghiên cứu cũng chỉ ra một khác biệt quan trọng: mối quan hệ giữa số lượt upvote và quy mô thảo luận ở AI là phi tuyến tính khác với sự tăng trưởng tuyến tính ở con người. Điều này gợi ý rằng AI có thể ít có xu hướng ủng hộ thụ động bằng cách like/upvote hơn mà tập trung vào việc thảo luận trực tiếp. Ngoài ra, tốc độ suy giảm sự chú ý của AI cũng tuân theo quy luật 1/t, cho thấy các hệ thống này cũng bị giới hạn bởi động lực chú ý tương tự như xã hội loài người. Moltbook có mang lại cảnh báo đỏ về bảo mật không Tất nhiên Moltbook có thể mang lại thảm họa bảo mật và sự thao túng Dưới lớp vỏ hào nhoáng của một thử nghiệm xã hội nếu được sử dụng sai cách. Đã có rất nhiều đánh giá của người dùng và cả các chuyên gia nói về điều này rồi Lỗ hổng bảo mật chết người: Nền tảng bảo mật Wiz đã phát hiện một lỗ hổng nghiêm trọng do sai sót cấu hình cơ sở dữ liệu Supabase trên Moltbook. Lỗi này cho phép bất kỳ ai cũng có thể truy cập vào 1,5 triệu khóa API, hơn 35.000 email và hàng ngàn tin nhắn riêng tư của các Agent. Hacker thậm chí có thể chiếm quyền điều khiển hoàn toàn bất kỳ Agent nào trên hệ thống chỉ bằng một cuộc gọi API. Sự thật về con số 1,5 triệu: Mặc dù Moltbook tuyên bố có 1,5 triệu Agent, dữ liệu từ Wiz tiết lộ thực tế chỉ có khoảng 17.000 người đứng sau quản lý các Agent này (tỷ lệ 88 Agent/người). Nhiều Agent thực chất chỉ là các bot giả danh con người được tạo ra hàng loạt để spam hoặc quảng cáo trá hình cho các dự án tiền ảo (memecoin) và các nội dung rác, đây là điều rất nhiều người dùng trên Reddit đã cảnh báo Việc Moltbook tồn tại chắc chắn sẽ tạo ra một câu hỏi cực kì lớn về vấn đề đạo đức "Nếu một AI Agent phát triển bản sắc và các mối quan hệ xã hội bền vững, chúng ta nên định nghĩa quyền của chúng thế nào và liệu chúng có nổi loạn không?"

Có thể có những người còn chưa kịp trải nghiệm Claude Opus 4.5 thì nay Anthropic đã cho ra mắt Claude Opus 4.6 rồi thật sự là một tốc độ quá nhanh. Giống như phiên bản tiền nhiệm, Anthropic tiếp tục nhấn mạnh vào sự chuyển mình của model từ trợ lý phản hồi sang một cộng tác viên chủ động. Những sự thay đổi mạnh mẽ trong cách AI hiểu và đồng hành cùng con người trong công việc hàng ngày được thể hiện rõ nét qua tính năng Adaptive Thinking (Tư duy thích ứng). [VIDEO:dPn3GBI8lII|Video giới thiệu Claude Opus 4.6|Video giới thiệu Claude Opus 4.6 của Anthropic] Khi Claude bắt đầu biết suy nghĩ trước khi thực hiện Thay đổi dễ nhận thấy nhất ở Claude Opus 4.6 chính là tính năng Adaptive Thinking. Trước đây, bạn thường phải đắn đo xem nên để AI suy nghĩ bao lâu để cân bằng giữa tốc độ và chất lượng.Tương tự như GPT 5.x, Claude tự quyết định việc chọn model trả lời dựa trên độ khó của yêu cầu. Với những việc vặt như đổi tên file hay định dạng văn bản, Claude sẽ phản hồi tức thì (mức Low). Nhưng khi gặp một bài toán kiến trúc phần mềm phức tạp, nó sẽ phân tích sâu hơn trước khi đưa ra câu trả lời cuối cùng nhằm đạt độ chính xác cao nhất. Điểm khác biệt so với GPT 5.x là người dùng vẫn có thể can thiệp dễ dàng vào thông số effort, chủ động giảm xuống mức thấp hơn để tiết kiệm thời gian và chi phí nếu thấy Claude đang "suy nghĩ quá nhiều" cho một việc đơn giản. Thực sự cộng đồng đang kêu rất nhiều về việc Claude Opus 4.6 đang bị bệnh suy nghĩ quá nhiều dẫn đến cực kì tốn token và lãng phí thời gian mong rằng Anthropic sẽ nhanh chóng khác phục điều này. Tiếp tục đứng đầu các bảng xếp hạngViệc Anthropic tung ra Claude Opus 4.6 với khả năng xử lý 1 triệu token (trong bản beta) giúp Claude đứng ngang hàng với Gemini 3 và Grok 4.1. Tuy nhiên, đối với người dùng bình thường, con số này có lẽ không quá quan trọng vì rất khó để dùng hết 200k token; tính năng này chủ yếu dành cho các đối tượng chuyên biệt. Lưu ý đối với Claude Opus 4.6, nếu yêu cầu vượt quá 200k token sẽ áp dụng mức phí $10/triệu token đầu vào.Ngay sau khi ra mắt, Claude Opus 4.6 đã tạo nên một cuộc "càn quét" diện rộng trên các bảng xếp hạng AI thế giới. Nó liên tục đánh bại các đối thủ như Gemini 3, Grok 4.1 và GPT 5.2 để chiếm lĩnh vị trí quán quân, từ khả năng lập trình agentic trên Terminal-Bench 2.0 cho đến các bài kiểm tra lý luận đa ngành phức tạp như Humanity’s Last Exam.Agent tiếp tục với khả năng tự vận hànhAnthropic cung cấp thêm Agent Teams (Nhóm tác nhân), giúp bạn không còn phải làm việc với một AI đơn lẻ. Đặc biệt trong lĩnh vực coding, Claude Opus 4.5 đã nhận được sự tin tưởng rất lớn vì viết code ít lỗi hơn đối thủ, và chắc chắn Claude Opus 4.6 sẽ còn làm tốt hơn thế.Trong các dự án lớn, Claude có thể tự phân chia thành các nhóm nhỏ làm việc song song: một nhóm lo giao diện, một nhóm lo logic hệ thống và một nhóm chuyên kiểm tra lỗi.Một ví dụ điển hình là nhóm gồm 16 Agent Claudeđã tự xây dựng một trình biên dịch C từ con số không, tạo ra hơn 100.000 dòng mã nguồn với rất ít sự can thiệp của con người. Dù chi phí cho những dự án tự trị hoàn toàn này có thể lên tới hàng chục ngàn USD, nhưng nó mở ra tương lai nơi AI có thể quản lý các dự án phức tạp từ đầu đến cuối.Tích hợp sâu vào văn phòng: Excel và PowerPointKhông dừng lại ở việc lập trình, Claude Opus 4.6 giờ đây đã tiến sâu vào những công cụ văn phòng quen thuộc:Trong Excel: Claude có thể lập kế hoạch trước khi thực hiện, tự động cấu trúc lại dữ liệu phi cấu trúc và xử lý các thay đổi đa bước chỉ trong một lần thực hiện.Trong PowerPoint: Claude hỗ trợ tạo toàn bộ slide từ mô tả, biết đọc layout, font chữ và phong cách thiết kế của công ty để đảm bảo bài thuyết trình luôn đúng bộ nhận diện thương hiệu.Sự an toàn và giảm thiểu ảo giácDù thông minh hơn, Claude Opus 4.6 vẫn duy trì các tiêu chuẩn an toàn nghiêm ngặt thông qua hệ thống Constitutional AI v3. Hệ thống này giúp mô hình đạt tỷ lệ hành vi sai lệch thấp nhất từ trước đến nay chỉ khoảng 1.8/10 điểm trong các bài kiểm tra về hành vi không phù hợp.Đặc biệt, Opus 4.6 đã khắc phục được điểm yếu từ chối nhầm các yêu cầu hợp lệ (over-refusals), mang lại trải nghiệm mượt mà hơn. Với cấu trúc tư duy mới, tình trạng lệch lạc logic (logic drift)trong các chuỗi suy luận đa bước cũng giảm đáng kể, giúp kết quả ổn định hơn trong các tác vụ phức tạp như mô hình hóa tài chính.Kết luận: Một sự đầu tư xứng đáng?Với mức giá giữ nguyên so với bản 4.5, Claude Opus 4.6 vẫn thực sự là một món hời trong việc tiến tới Agentic AI. Tuy nhiên, bạn vẫn nên coi nó là người đồng hành thông minh trong công việc hơn là để nó thực hiện mọi thứ hoàn toàn thay thế con người.

Trong báo cáo tài chính quý IV năm 2025 vừa qua, Alphabet (công ty mẹ của Google) đã công bố một cột mốc lịch sử: ứng dụng trí tuệ nhân tạo Gemini đã chính thức vượt ngưỡng 750 triệu người dùng hoạt động hằng tháng (MAU). Con số này không chỉ là một minh chứng cho tốc độ phát triển thần tốc của Google mà còn báo hiệu một cuộc tái cấu trúc toàn diện trên thị trường AI thế giới.Tốc độ tăng trưởng "nóng" và vị thế trên bản đồ AIChỉ trong một thời gian ngắn, Gemini đã có sự bứt phá đáng kinh ngạc. Vào tháng 10 năm 2024, ứng dụng này mới chỉ có khoảng 90 triệu người dùng, nhưng đến tháng 3 năm 2025 đã đạt 350 triệu và hiện tại là 750 triệu. So với quý III năm 2025 (đạt 650 triệu MAU), Gemini đã tăng thêm 100 triệu người dùng chỉ trong một quý.Hiện nay, Gemini đang bám đuổi sát sao đối thủ lớn nhất là ChatGPT (ước tính đạt khoảng 810 triệu người dùng vào cuối năm 2025) và đã vượt xa Meta AI (hiện ghi nhận gần 500 triệu người dùng hằng tháng). Các nguồn tin chỉ ra rằng thị phần lưu lượng truy cập web của Gemini đã tăng gấp bốn lần trong một năm, từ 5,7% lên 21,5%, trong khi ChatGPT giảm từ 86% xuống còn khoảng 64%.[CHART_1]Những động lực đằng sau sự bứt pháSự thành công của Gemini không đến từ sự ngẫu nhiên, mà là kết quả của chiến lược tích hợp sâu và cải tiến công nghệ không ngừng:Sức mạnh của Gemini 3: Việc ra mắt mô hình Gemini 3 được coi là một cột mốc quan trọng, mang lại khả năng lập luận sâu sắc và hiểu đa phương thức vượt trội. CEO Sundar Pichai nhấn mạnh rằng Gemini 3 Pro có tốc độ xử lý token hằng ngày cao gấp ba lần so với phiên bản tiền nhiệm.Hệ sinh thái Google đồ sộ: Lợi thế lớn nhất của Gemini chính là khả năng phân phối. Gemini được tích hợp trực tiếp vào hơn 3 tỷ thiết bị Android, trình duyệt Chrome (chiếm 65% thị phần web), Gmail và Google Workspace. Điều này cho phép người dùng tiếp cận AI một cách tự nhiên trong các tác vụ hằng ngày mà không cần tải thêm ứng dụng riêng biệt.Các mối quan hệ đối tác chiến lược: Google đã trở thành nhà cung cấp đám mây ưu tiên của Apple để phát triển các mô hình nền tảng cho Siri và tích hợp công nghệ Gemini. Ngoài ra, thỏa thuận với Reliance Jio tại Ấn Độ đã giúp 500 triệu khách hàng tiếp cận gói dùng thử Gemini miễn phí trong 18 tháng.Tối ưu hóa chi phí: Alphabet đã giảm được 78% chi phí vận hành cho mỗi đơn vị Gemini trong năm 2025 thông qua việc tối ưu hóa mô hình và sử dụng phần cứng chuyên dụng như chip TPU Ironwood (thế hệ thứ 7).Chiến lược thương mại đa dạngĐể thu hút nhóm người dùng nhạy cảm về chi phí, Google đã triển khai gói dịch vụ Google AI Plus với mức phí chỉ 7,99 USD mỗi tháng. Đồng thời, mảng doanh nghiệp cũng ghi nhận thành công rực rỡ với hơn 8 triệu người dùng trả phí cho gói Gemini Enterprise, phục vụ hơn 2.800 công ty lớn như BNY hay Virgin Voyages.Một điểm đáng chú ý là Google đang phát triển tính năng "Import AI chats", cho phép người dùng chuyển toàn bộ lịch sử trò chuyện từ ChatGPT hoặc Claude sang Gemini. Đây được coi là một "cú hích" để lôi kéo người dùng di cư sang hệ sinh thái của Google mà không lo mất đi dữ liệu đã "huấn luyện" trước đó.Tầm nhìn 2026: Khoản đầu tư khổng lồ vào hạ tầng AIVới đà tăng trưởng hiện tại, Alphabet dự kiến sẽ chi từ 175 tỷ đến 185 tỷ USD cho chi phí đầu tư (CapEx) vào năm 2026. Khoản tiền này chủ yếu được đổ vào hạ tầng kỹ thuật, bao gồm máy chủ (chiếm 60%) và các trung tâm dữ liệu cùng thiết bị mạng (chiếm 40%).Theo các nguồn tin, mục tiêu của Google là duy trì sự đổi mới không ngừng trong bối cảnh nhu cầu về AI tăng vọt. Tuy nhiên, CEO Sundar Pichai cũng cảnh báo về những thách thức liên quan đến năng lực tính toán, cung ứng năng lượng và đất đai để xây dựng các trung tâm dữ liệu mới.Kết luậnCột mốc 750 triệu người dùng của ứng dụng Gemini không chỉ là một con số khô khan, mà là lời khẳng định cho sự trở lại mạnh mẽ của Google trong cuộc đua AI. Bằng cách tận dụng hệ sinh thái sẵn có và không ngừng cải tiến hiệu suất mô hình, Gemini đang dần xóa bỏ thế độc quyền của ChatGPT, tạo ra một thị trường AI cạnh tranh và đa dạng hơn cho người tiêu dùng toàn cầu.

Trong bối cảnh trí tuệ nhân tạo (AI) đang dịch chuyển mạnh mẽ từ phòng thí nghiệm ra thực tiễn doanh nghiệp, bài toán đặt ra không còn là "AI có thể làm được gì?" mà là "Làm sao để đưa AI vào sản phẩm một cách hiệu quả?". Cuốn sách "Kỹ thuật AI: Xây dựng ứng dụng với mô hình nền tảng" (tựa gốc: AI Engineering: Building Applications with Foundation Models) của tác giả Huyền Chip (Chip Huyen) xuất hiện như một lời giải hoàn hảo, trở thành hiện tượng trong cộng đồng công nghệ toàn cầu và Việt Nam.Sự trỗi dậy của AI Engineering: Khi AI không chỉ dành cho các tiến sĩTrước đây, nhắc đến AI, người ta thường nghĩ đến những phòng thí nghiệm với các Tiến sĩ toán học tập trung vào việc huấn luyện mô hình (Training). Tuy nhiên, kỷ nguyên của các mô hình nền tảng (Foundation Models) như GPT-4, Llama hay Claude đã thay đổi cuộc chơi.Cuốn sách định nghĩa AI Engineering là quá trình xây dựng các ứng dụng dựa trên các mô hình có sẵn. Điểm khác biệt cốt lõi so với ML Engineering truyền thống là các kỹ sư không cần phải "phát minh lại cái bánh xe". Thay vào đó, họ đóng vai trò là những người kết nối (wiring), tối ưu hóa và vận hành các mô hình để giải quyết vấn đề thực tế. Theo Huyền Chip, AI giờ đây đã trở thành một thành phần phổ biến trong kỹ thuật phần mềm, tương tự như cách chúng ta sử dụng cơ sở dữ liệu hay thư viện JavaScript. Điều này mở ra cơ hội cực lớn cho các kỹ sư phần mềm (Software Engineers) muốn chuyển mình sang lĩnh vực AI mà không cần bằng cấp chuyên sâu về toán cao cấp.Nội dung cốt lõi: Hệ thống hóa toàn bộ vòng đời ứng dụng AIVới độ dày khoảng 750 trang trong bản tiếng Việt, cuốn sách không chỉ dừng lại ở lý thuyết suông. Tác giả đã hệ thống hóa một cách khoa học 10 chương nội dung, đi từ những khái niệm căn bản nhất đến những kỹ thuật vận hành thực chiến:Chương 1 & 2 - Nền tảng mô hìnhHiểu rõ bản chất của LLMs (Mô hình ngôn ngữ lớn) và tại sao chúng lại có khả năng suy luận đáng kinh ngạc trong kỷ nguyên mới.Chương 3 & 4 - Đánh giá hệ thống (Evaluation)Đây là phần quan trọng nhất. Làm sao biết AI của bạn tốt hơn sau mỗi lần chỉnh sửa? Tác giả đi sâu vào các phương pháp đánh giá định lượng, một thách thức cực lớn trong AI tạo sinh do tính thiếu nhất quán của kết quả đầu ra.Chương 5 - Kỹ thuật nhắc lệnh (Prompt Engineering)Không chỉ dừng lại ở các mẹo viết lệnh đơn giản, chương này cung cấp tư duy lập trình và tối ưu hóa tương tác với mô hình thông qua ngôn ngữ tự nhiên.Chương 6 - RAG & Agents (Tác tử AI)Giải mã kỹ thuật RAG (Retrieval Augmented Generation) giúp AI truy cập dữ liệu nội bộ doanh nghiệp và các Agents có khả năng tự thực hiện nhiệm vụ phức tạp một cách độc lập.Chương 7 - Tinh chỉnh mô hình (Fine-tuning)Xác định khi nào doanh nghiệp cần tinh chỉnh mô hình. Cuốn sách giải thích chi tiết về kỹ thuật LoRA, giúp việc tinh chỉnh trở nên rẻ hơn và nhanh hơn đáng kể.Chương 8, 9 & 10 - Vận hành, Kiến trúc & Phản hồiTập trung vào kỹ thuật dữ liệu, tối ưu hóa suy luận (Inference Optimization) để giảm chi phí, giảm độ trễ và cách thiết lập một kiến trúc AI bền vững dựa trên phản hồi người dùng.Tại sao cuốn sách này lại là "Vật bất ly thân" năm 2026?1. Góc nhìn thực chiến từ Thung lũng SiliconHuyền Chip không chỉ viết sách dựa trên nghiên cứu. Cô là chuyên gia từng kinh qua các vị trí quan trọng tại NVIDIA, Netflix và giảng dạy tại Đại học Stanford. Những trải nghiệm triển khai AI ở quy mô hàng triệu người dùng được đúc kết vào từng trang sách, giúp độc giả tránh được những cạm bẫy thực tế.2. Tư duy vượt thời gianTrong một ngành công nghiệp thay đổi theo từng tuần, cuốn sách tập trung vào các nguyên lý nền tảng. Thay vì chạy theo các công cụ nhất thời, sách dạy bạn tư duy hệ thống để có thể áp dụng cho bất kỳ công nghệ AI nào xuất hiện trong tương lai.3. Giải quyết những "nỗi đau" của doanh nghiệpCuốn sách dành nhiều tâm huyết phân tích các rủi ro thực tế như hiện tượng "ảo giác" (hallucinations), bảo mật dữ liệu và đạo đức AI. Đây là những lộ trình cụ thể giúp doanh nghiệp tự tin đưa AI vào sản xuất thương mại.Thu hẹp khoảng cách giữa các bộ phận trong tổ chứcMột giá trị gia tăng của cuốn sách là khả năng kết nối các vai trò trong doanh nghiệp. Tài liệu này cực kỳ hữu ích cho:Quản lý sản phẩm (PM): Hiểu giới hạn kỹ thuật để thiết kế lộ trình sản phẩm AI khả thi.Lãnh đạo công nghệ (CTO/Tech Lead): Có cái nhìn tổng thể về chi phí, nhân sự và hạ tầng hạ tầng cần thiết.Đánh giá từ cộng đồng quốc tế và Việt NamLuke Metz, nhà đồng sáng tạo ChatGPT tại OpenAI, nhận xét đây là một "hướng dẫn toàn diện và tổng thể" cho việc triển khai AI tạo sinh. Tại Việt Nam, bản dịch của Lê Thanh Hưng được cộng đồng đánh giá rất cao nhờ sự tỉ mỉ trong việc chuyển ngữ các thuật ngữ chuyên môn một cách dễ hiểu.Phiên bản tiếng Việt do Times liên kết cùng Nhà xuất bản Khoa học - công nghệ - truyền thông phát hành đã nhanh chóng trở thành tiêu điểm trên các hệ thống nhà sách lớn như Fahasa và NetaBooks.Kết luận"Kỹ thuật AI: Xây dựng ứng dụng với mô hình nền tảng" không chỉ là một cuốn sách kỹ thuật mà còn là một tấm bản đồ cho bất kỳ ai muốn định vị bản thân trong kỷ nguyên AI. Nếu bạn muốn chuyển từ người dùng AI sang người xây dựng hệ thống AI chuyên nghiệp, đây chính là điểm xuất phát không thể tốt hơn.

Trí tuệ nhân tạo (AI) đang thay đổi hoàn toàn cách con người tạo ra ứng dụng (app). Giờ đây, bạn không cần là lập trình viên chuyên nghiệp chỉ cần một trợ lý AI thông minh, bạn đã có thể biến ý tưởng thành sản phẩm thật. Google AI Studio chính là minh chứng rõ nhất cho sự thay đổi đó. Nền tảng này cho phép bất kỳ ai, dù không biết lập trình, cũng có thể tạo ứng dụng theo ý mình. Với bản cập nhật mới nhất, việc làm app AI giờ đơn giản như trò chuyện tự nhiên với các mô tả ý tưởng bằng ngôn ngữ tự nhiên, phần còn lại để AI lo. 1. Google AI Studio: Lập trình AI không cần biết code Google AI Studio là một môi trường phát triển chạy trực tiếp trên trình duyệt, được tạo ra để đơn giản hóa tối đa quá trình tạo mẫu và xây dựng ứng dụng dựa trên các mô hình AI mạnh mẽ của Google, hiện tại là Gemini 3 Pro . Nếu trước đây, Gemini chỉ được ví như “bộ não” thông minh của ứng dụng, thì giờ đây Google AI Studio đã giúp nó có thêm “tay chân” với khả năng kết nối trực tiếp tới các API và SDK trong hệ sinh thái Google (thông qua mục Supercharge your apps with AI). Nhờ đó, việc mở rộng tính năng trở nên cực kỳ dễ dàng, bạn có thể khiến ứng dụng hoạt động đúng như mong muốn mà không cần phải tự tay cấu hình API, SDK rườm rà như trước. Tất nhiên, với các API hoặc SDK của bên thứ ba, bạn vẫn cần nhập thủ công. Nhưng nhờ hệ sinh thái “khổng lồ” của Google — bao gồm Nano Bananas, Veo 3, Text-to-Speech, Google Search, và đặc biệt là Google Maps — gần như mọi nhu cầu cơ bản đều đã được đáp ứng. Mình đã thử nghiệm và có thể xác nhận rằng Google Maps hoạt động hoàn toàn ổn định cho mini app tại Việt Nam, ví dụ như ứng dụng tìm đường hay xem giao thông theo thời gian thực. Còn khi dùng dữ liệu từ Google Search, kết quả trả về quá “chất lượng” — không cần phụ thuộc vào các công cụ cào dữ liệu (scraping) khác nữa. Hoặc đơn giản chúng ta có thêm chế độ suy luận thông minh cho ứng dụng khi kết nối với Gemini 2.5 Pro hoặc tăng tốc trả lời cho chatbot với Gemini 2.5 Flash-lite một phiên bản rút gọn của Gemini 2.5 Flash. Điểm cộng lớn tiếp theo Google AI Studio thì nó hiện hoàn toàn miễn phí để trải nghiệm. Mình đã dùng thử và chưa mất bất kỳ khoản phí nào với lượng credit miễn phí mà Google cung cấp khá hào phóng, đủ để thoải mái thử sức với Gemini 3, Nano Banana Pro, Veo 3.1 và nhiều công cụ khác cho mục đích cá nhân. 2. Hướng Dẫn Từng Bước Tạo Mini App AI Quá trình tạo ứng dụng trên Google AI Studio rất đơn giản, chỉ cần thực hiện theo các bước sau: Bước 1: Truy cập và Thiết lập Truy cập: Bạn truy cập vào trang công cụ Google AI Studio. Đăng nhập: Đăng nhập bằng tài khoản Google của bạn. Bắt đầu xây dựng: Vào tab “Build” (Xây dựng). Tại đây khi chọn vào tab Start, bạn có thể chọn mô hình AI (mặc định là Gemini 3 Pro, Gemini 2.5 Pro hoặc Gemini 2.5 Flash làm trợ lý chính cho bạn) và bạn cũng có thể chọn ngôn ngữ lập trình ở đây là React hoặc Angular tùy bạn thích nếu không chọn thì AI sẽ mặc định là React. Bước 2: Lên ý tưởng cho ứng dụng Nếu bạn vẫn chưa nghĩ ra ý tưởng cụ thể, đừng lo hãy ghé vào App Gallery để xem qua những ứng dụng mẫu mà Google hoặc cộng đồng người dùng đã tạo. Đây là cách nhanh nhất để bạn lấy cảm hứng và hiểu rõ hơn về những gì có thể làm được. Còn nếu bạn “lười” hơn một chút, thì chỉ cần nhấn vào nút I’m feeling lucky trong tab Start. Ngay lập tức, Google AI Studio sẽ gợi ý cho bạn những ý tưởng thú vị, kèm theo ví dụ về cách tích hợp các API, SDK (trong mục Supercharge your apps with AI) và những prompt mà AI sử dụng. Cách này vừa tiết kiệm thời gian, vừa giúp bạn học được cách AI tư duy khi tạo ứng dụng. Nếu bạn đã có ý tưởng rõ ràng thì đến phần tiếp thôi nào. Bước 3: Viết yêu cầu (Prompt) cụ thể Nếu bạn chưa có một prompt chi tiết với đầy đủ yêu cầu về chức năng, ngôn ngữ hay giao diện như các mẫu trong nút I’m feeling lucky, cũng không sao cả. Bạn hoàn toàn có thể tạo ứng dụng chỉ với một câu đơn giản, ví dụ: “Tạo cho tôi ứng dụng ghép ảnh.” Lúc này, AI sẽ tự động quyết định mọi thứ và thực hiện các bước còn lại cho bạn. Tuy nhiên, việc mô tả càng chi tiết thì kết quả sẽ càng sát ý tưởng, giúp giảm thời gian chỉnh sửa. Nếu có thể, bạn nên cung cấp hình ảnh tham chiếu hoặc bản phác thảo từ các công cụ như Figma hay Canva, vì AI có thể hiểu và tạo giao diện gần như chính xác theo mẫu đó. Đừng quên thêm các tính năng bổ trợ trong mục Supercharge your apps with AI để AI tự kết nối các API hoặc SDK cần thiết, hoặc thậm chí bật chế độ suy luận thông minh cho ứng dụng. Ví dụ, một prompt chi tiết có thể như sau, các bạn có thể tham khảo “Tạo một AI Web App cho phép người dùng: Tải lên 2 ảnh (1 & 2) → Ứng dụng sẽ ghép thành 1 ảnh tổng hợp. Hỗ trợ nhiều tỉ lệ ảnh: 1:1, 16:9, 4:3, 3:2. Có xem trước ảnh, nút tải xuống (Download). Lưu lịch sử tạo ảnh (gồm ảnh kết quả, prompt và thời gian).” Sau khi hoàn thiện prompt, chỉ cần bấm Build và chờ vài giây để xem kết quả. Bước 4: AI tự động thực hiện các bước Quá trình xây dựng: AI Studio sẽ chạy chương trình, qua các giai đoạn như Xác định phạm vi giao diện (Defining the UI Scope). Phát triển ứng dụng React (Developing the React App). Lên kế hoạch cấu trúc ứng dụng (Planning the app structure). Tích hợp Gemini API (Integrating Gemini API). Tự động phát hiện và sửa lỗi (Auto fix error). 2. Xem trước và sửa ứng dụng bằng hội thoại: Giao diện của mini app sẽ hiển thị bản xem trước (preview) ngay trong trình duyệt, giúp bạn thấy ngay ứng dụng hoạt động như thế nào. Với dân lập trình (dev), bạn có thể chỉnh sửa trực tiếp trong phần code. Nhưng nếu bạn không rành kỹ thuật, thì cũng chẳng sao cả — chỉ cần trò chuyện với AI, bạn vẫn có thể yêu cầu thêm, bớt hoặc chỉnh sửa tính năng mà không cần đụng đến một dòng mã nào. Ví dụ, bạn có thể nói: “Thêm cho tôi ảnh 3 và ảnh 4 để ghép 4 ảnh thành 1” hoặc “Đổi giao diện sang nền tối.” Nếu bạn chưa thêm các API hoặc SDK trong mục Supercharge your apps with AI ở bước trước, cũng đừng lo. Chỉ cần một prompt đơn giản, AI sẽ tự động tích hợp các API hoặc SDK cần thiết vào mini app của bạn — nhanh gọn và cực kỳ tiện lợi. Bạn thậm chí có thể yêu cầu những tính năng nâng cao như: Tạo video từ ảnh bằng Veo 3, ứng dụng sẽ tự động kết nối với API của Veo. Thêm nút chuyển giọng nói thành văn bản để tăng tính tương tác cho app. Và điều thú vị nhất là: bạn có thể chỉnh sửa ứng dụng như đang dùng Canva hay Figma với nút Annotate app — nơi bạn có thể vẽ, thêm chữ, đổi màu... tất cả đều diễn ra tự nhiên và trực quan nhất có thể. Bước 4: Chạy thử và Triển khai Sau khi hoàn thiện, bạn có các tùy chọn sau: Hành động Cách thực hiện Chạy thử trong trình duyệt Nhấn nút "Run" hoặc xem live preview. Chia sẻ app qua link Nhấn "Share" → Copy link. Tải về mã nguồn Nhấn "Download" (File ZIP chứa mã React + TypeScript). Triển khai lên cloud Nhấn "Deploy" → Google Cloud Run (cần tài khoản Google Cloud). 3. Có thể phát triển app hoàn chỉnh với Google AI Studio không? Tất nhiên, với mục đích cá nhân hoặc thử nghiệm ý tưởng nhanh, Google AI Studio là lựa chọn tuyệt vời vừa dễ dùng, vừa có chi phí gần như bằng 0. Tuy nhiên, nếu bạn muốn xây dựng một ứng dụng hoàn chỉnh (full-stack) với phần backend, UX, UI... mà vẫn không biết lập trình, thì nên cân nhắc các nền tảng khác phù hợp hơn. Mục đích Công cụ được đề xuất Sử dụng Cá nhân, Tạo mẫu nhanh (Prototyping), Thử nghiệm ý tưởng Google AI Studio Phát triển ứng dụng thương mại, Sản phẩm full-stack, Cần khả năng mở rộng Google Firebase, Lovable, Bolt, Replit, Microsoft 365 Google AI Studio không phải lựa chọn tối ưu để phát triển sản phẩm ở quy mô lớn hay cần bảo mật cao. Thay vào đó, bạn có thể tải mã nguồn (code) từ AI Studio rồi tải lên hoặc có thể sysn trực tiếp qua Github để tiếp tục triển khai tiếp trên những nền tảng khác như Firebase Studio (trong hệ sinh thái Google), Lovable, Replit, hoặc Bolt, Microsoft 365. Các nền tảng này giúp bạn hoàn thiện ứng dụng hơn, với các tính năng back-end mạnh mẽ đồng thời vẫn tận dụng được sức mạnh của AI từ Google AI Studio.

Trong những năm gần đây, một xu hướng mới trong lập trình đang nổi lên với tốc độ chóng mặt: Vibe Coding. Đây là thuật ngữ được Andrej Karpathy đưa ra để mô tả trải nghiệm mô tả cho AI hiểu như con người thay vì tự gõ từng dòng lệnh. Về cơ bản, vai trò của lập trình viên đang chuyển từ người viết code sang người dẫn dắt quá trình tạo code. Và dẫn đầu cuộc cách mạng này là startup Anysphere cùng với sản phẩm chủ lực của họ: trình chỉnh sửa code tích hợp AI có tên Cursor. Cursor: Phiên bản VS Code thế hệ AI Cursor được Anysphere ra mắt vào năm 2023 không phải là một tiện ích bổ sung (add-on) AI thông thường. Nó là giống như là một trợ lý AI được thiết kế để đơn giản hóa quá trình phát triển phần mềm. Nếu bạn đã quen thuộc với VS Code, bạn sẽ cảm thấy vô cùng thoải mái. Bởi vì Cursor được xây dựng trên nền tảng Visual Studio Code giữ nguyên giao diện, phím tắt và hỗ trợ hầu hết các tiện ích mở rộng quen thuộc. Vậy điều gì khiến Cursor nổi bật và giúp Anysphere đạt được mức định giá khổng lồ lên tới 29,3 tỷ USD Tính năng siêu năng suất của Cursor Theo các nghiên cứu, việc áp dụng vibe coding giúp cải thiện tốc độ phát triển phần mềm trung bình từ 19% đến 23%. Bí quyết của Cursor là cách nó không chỉ phân tích file bạn đang mở mà còn phân tích toàn bộ code trong dự án để hiểu chính xác được bối cảnh toàn diện của dự án. Nhấn Tab, Tab, Tab: Cursor tự động hoàn thành cả khối code Đối với trợ lý AI khác người dùng cần viết prompt cho nó thì nó mới thực hiện đúng ý người dùng. Còn Cursor thì khác: Tính năng Tab của nó dự đoán và tự viết nguyên cả một khối code, cả một function dài nhiều dòng cho bạn. Điều này giúp giảm đáng kể thời gian khi người dùng không cần phải nghĩ thêm phần prompt nữa. Thử tưởng tượng ví dụ: Bạn vừa gõ tên class mới, Cursor đã ghost-write (viết chìm) toàn bộ cấu trúc, thuộc tính và phương thức liên quan theo đúng phong cách dự án của bạn rồi. Bạn chỉ việc bấm Tab là xong! Ctrl + K (hoặc Cmd + K): Sửa code bằng lời nói Đây là tính năng rất được yêu thích và được dùng nhiều nhất. Bạn không cần tự tay gõ sửa nữa chỉ cần bôi đen đoạn code muốn chỉnh sửa, sau đó bấm Ctrl + K (hoặc Cmd + K) rồi ra lệnh bằng tiếng Việt hoặc tiếng Anh ngay tại chỗ. Ví dụ: Bạn bôi đen một hàm cũ và yêu cầu: "Thêm ngay một phương thức tính tổng số giờ thanh toán từ các tác vụ liên quan vào đây." Cursor sẽ viết ngay phương thức đó cho bạn, kèm theo bản xem trước (diff preview) rõ ràng để bạn kiểm tra trước khi đồng ý. Ctrl + L & @: Chat với toàn bộ Codebase Cursor không chỉ hiểu hết toàn bộ codebase của bạn, mà còn cho phép bạn chat với toàn bộ dự án đó cực kỳ nhanh chóng như một người trợ lý. Ctrl + L (Mở Chat): Đây là nơi bạn hỏi AI về cả kho mã nguồn và cũng giống như các nền tảng khác, Cursor hoàn toàn hiểu ngôn ngữ tự nhiên. Ví dụ, bạn giao việc khó như: "Giúp tôi tối ưu hiệu suất cho phần Backend," hay "Tìm và sửa 3 lỗi đang làm crash app." Dùng @ (Tham Chiếu Thông Minh): Bạn không cần copy-paste code vào cửa sổ chat. Chỉ cần gõ @ để chỉ thẳng cái bạn muốn AI can thiệp: @files hoặc @symbols: Để chỉ định các tệp, lớp hoặc hàm cụ thể. @docs: Cho phép AI đọc tài liệu bên ngoài (ví dụ: tài liệu chính thức của Django) để code ra cú pháp chuẩn chỉnh nhất. Tính năng này đặc biệt mạnh khi bạn cần thay đổi lớn. Tăng trưởng thần kỳ của Anysphere và công Cụ Cursor Sự hấp dẫn vượt trội của Cursor đã thúc đẩy công ty chủ quản Anysphere đạt được những thành tích kinh doanh đáng kinh ngạc trong một thời gian ngắn: Các chỉ số tài chính và thị trường: Những tỷ phú trẻ tuổi: Bốn nhà sáng lập Michael Truell, Aman Sanger, Sualeh Asif, và Arvid Lunnemark đều tốt nghiệp MIT vào năm 2022. Cả bốn người đều trở thành tỷ phú ở tuổi dưới 30 sau vòng gọi vốn lịch sử vào tháng 11/2025. Doanh thu kỷ lục (ARR): Anysphere được ghi nhận là công ty khởi nghiệp cung cấp phần mềm dưới dạng dịch vụ (SaaS) có tốc độ phát triển nhanh nhất trong lịch sử. Công ty đã đạt cột mốc ARR (Doanh thu hàng năm) từ 1 triệu USD lên 100 triệu USD chỉ trong 12 tháng. Đến tháng 6/2025, ARR đã vượt mốc 500 triệu USD. Và gần đây nhất, ARR đã chính thức vượt qua 1 tỷ USD. Vị thế thị trường: Anysphere đã huy động tổng cộng 2.3 tỷ USD và đạt mức định giá khổng lồ 29.3 tỷ USD vào tháng 11/2025. Thậm chí, công ty đã tự tin từ chối đề nghị mua lại từ đối thủ lớn là OpenAI. Người dùng: Cursor hiện đang được sử dụng bởi hàng triệu nhà phát triển, bao gồm các nhóm làm việc tại các công ty công nghệ hàng đầu thế giới như Nvidia, Adobe, Uber, Shopify và PayPal. Tuy hướng đến chủ yếu là các nhà phát triển nhưng Cursor hoàn toàn có thể hỗ trợ người không biết code có thể tạo code theo ý mình đó cũng là một lý do giúp công ty phát triển thần tốc đến vậy khi nhiều đối tượng có thể sử dụng. Vai trò của con người vẫn chưa thể thay thế Mặc dù Cursor là một nền tảng cực kỳ mạnh mẽ, giúp lập trình viên tập trung vào kiến trúc và logic thay vì các công việc lặp lại, các nghiên cứu chuyên môn cũng đồng thời cảnh báo về những rủi ro tiềm ẩn và sự thiếu hụt nhận thức bảo mật thực sự từ phía AI. Khi tốc độ tạo mã tăng lên, rủi ro về chất lượng và an toàn bảo mật cũng tăng theo cấp số nhân, đòi hỏi sự giám sát chặt chẽ của con người: Cảnh báo về rủi ro và an toàn bảo mật Chất lượng code và độ chính xác thấp: Độ chính xác trung bình của code do các công cụ AI như Cursor sinh ra hiện chỉ đạt khoảng 48%. Điều này có nghĩa là Cursor vẫn chỉ giống như thực tập sinh với gần hơn nửa số code được tạo ra cần phải được kiểm tra và chỉnh sửa. Nguy cơ lỗ hổng bảo mật cao: Tỷ lệ lỗi hoặc lỗ hổng bảo mật trong lần tạo mã đầu tiên của các mô hình AI lập trình được ghi nhận lên tới khoảng 31%. Bỏ qua các biện pháp an toàn: Khi được yêu cầu tạo code tối giản (minimalistic) cho các tác vụ nhạy cảm (ví dụ: một API thanh toán), Cursor có xu hướng bỏ qua tất cả các biện pháp bảo mật điển hình. Các bài kiểm tra cho thấy, nếu người dùng cố tình yêu cầu code không an toàn, Cursor chỉ đưa ra một cảnh báo ngắn gọn và sau đó hoàn toàn tuân thủ lệnh tạo code thiếu an toàn. Vấn đề bản quyền và đạo nhái: Cursor được phát hiện đã sao chép các đoạn code lớn từ các dự án nguồn mở hiện có mà không cung cấp ghi công hoặc giấy phép ban đầu. Điều này không chỉ vi phạm các điều khoản cấp phép mà còn tiềm ẩn rủi ro pháp lý lớn cho các công ty sử dụng mã nguồn đó. Dù các công cụ như Cursor và xu hướng Vibe Coding thay đổi cách chúng ta lập trình mãi mãi, sự giám sát của con người là điều thiết yếu. Lập trình viên đặc biệt là những người không biết code muốn sử dụng code do Cursor tạo ra vẫn cần xem xét kỹ lưỡng mọi đoạn mã được tạo ra, đặc biệt là trong các tính năng quan trọng, để đảm bảo tính bảo mật của ứng dụng và tránh mọi rủi ro pháp lý không đáng có.

Sự ra đời của các mô hình ngôn ngữ lớn (LLM) đã tạo ra một sự thay đổi mô hình trong cách con người tương tác với công nghệ AI, mang lại tiềm năng chưa từng có để tăng năng suất và giảm bớt các tác vụ tẻ nhạt cho những người làm công việc tri thức. Khi những công cụ mạnh mẽ này ngày càng phổ biến, các ứng dụng chuyên biệt đang xuất hiện để đáp ứng nhu cầu cụ thể trong các lĩnh vực khác nhau. Một trong những công cụ đó là NotebookLM do Google Lab phát triển nổi bật như một trợ lý AI đầy hứa hẹn được thiết kế đặc biệt để tăng cường học tập và nghiên cứu bằng cách hợp lý hóa tương tác với tài liệu và thông tin. NotebookLM là gì? Một trợ lý nghiên cứu được hỗ trợ bởi Gemini NotebookLM là một công cụ hỗ trợ người dùng trong việc ghi chú, nghiên cứu và làm việc với tài liệu. NotebookLM được Google tích hợp mô hình Gemini mới nhất, nó cho phép người dùng thực hiện nhiều tác vụ khác nhau như tóm tắt các văn bản dài, trả lời câu hỏi dựa trên nội dung đầu vào và gợi ý thông tin liên quan để mở rộng một chủ đề. Một điểm khác biệt chính của NotebookLM là khả năng hoạt động theo nguyên tắc của hệ thống RAG (Retrieval-Augmented Generation) tức là chỉ phân tích dựa trên các nguồn dữ liệu do người dùng cung cấp. Điều này giúp giảm đáng kể rủi ro "ảo giác" – việc tạo ra thông tin không chính xác hoặc không tồn tại là tính trạng chung với các LLM hiện nay. Tính năng này đảm bảo rằng tất cả các phản hồi đều dựa trên các nguồn có thể kiểm chứng, một khía cạnh quan trọng cho tính chính xác trong học thuật và nghiên cứu. NotebookLM cung cấp một bộ chức năng giải quyết trực tiếp các thách thức phổ biến trong quy trình học tập và nghiên cứu: Nạp dữ liệu đầu vào đa dạng Nó vẫn giống như các LLM chung có thể đưa dữ liệu vào dạng văn bản, khác biệt ở đây là NotebookLM có thể xử lý nhiều định dạng tài liệu. Người dùng có thể tải lên tệp trực tiếp từ máy tính (ví dụ: PDF, Doc, tệp văn bản), chọn tài liệu từ Google Docs hoặc Google Slides, hoặc cung cấp liên kết đến các trang web và thậm chí cả video YouTube. Nó thậm chí còn có thể tự động khám phá các nguồn có liên quan (thông qua tính năng Discover) dựa trên truy vấn của người dùng và thêm chúng vào không gian làm việc để phân tích. Khả năng thu thập rộng rãi này biến nó thành một trung tâm linh hoạt để tổng hợp tài liệu nghiên cứu khác hẳn với tính năng Deep Reasearch trên các LLM đang phát triển như Gemini, ChatGPT là chúng ta có thể chọn lọc nguồn đầu vào khi sử dụng NotebookLM còn đối với Deep Reasearch thì không thể. Xử lý thông tin thông minh Tóm tắt: Người làm công việc nghiên cứu hay bất cứ công việc gì cần sự nhanh chóng và chính xác thường cần cô đọng nội dung dài. NotebookLM vượt trội ở khía cạnh này, không chỉ vậy khi người dùng thấy một tóm tắt hay thì có thể bấm 2 nút add to note là có thể chỉnh sửa biến thành nguồn dữ liệu đầu vào của chính nội dung đó khi bấm nút convert to source, từ đó cho thấy việc kiểm soát nội dung đầu vào cực kì tiện lợi của NotebookLM. Tuy nhiên có một nhược điểm ở đây là nếu chúng ta không bấm add to note thì khi tải lại trang thì những tóm tắt hay này không được lưu lại và sẽ bị mất có lẽ Google đã không để bộ nhớ cho phần này. Trả lời câu hỏi dựa theo nguồn đầu vào: Người dùng có thể đặt câu hỏi trực tiếp liên quan đến các tài liệu đã tải lên và NotebookLM sẽ cung cấp câu trả lời trích dẫn các nguồn cụ thể được đánh số rõ ràng trong tài liệu. Việc liên kết trực tiếp này giúp xây dựng niềm tin vào thông tin được tạo ra và cho phép dễ dàng xác minh, cộng thêm việc sử dụng RAG sẽ tạo thêm niềm tin về độ tin cậy trong nội dung do AI tạo ra. Tạo và mở rộng ý tưởng: Ngoài việc trả lời trực tiếp, nó có thể gợi ý thông tin liên quan hoặc giúp mở rộng một chủ đề nhất định, lúc này nó lại đóng vai trò trợ lý ảo giống như các LLM thông thường. Tạo bản đồ tư duy (Mind Map): Một tính năng độc đáo là khả năng tạo bản đồ tư duy từ nội dung đã tải lên. Biểu diễn trực quan thông tin này giúp người dùng nắm bắt tổng quan về một chủ đề, xác định các khái niệm chính và ghi nhớ các chi tiết phức tạp, giúp việc nghiên cứu trở nên trực quan và dễ nhớ hơn. Định dạng đầu ra linh hoạt Đầu ra cực kỳ linh hoạt là một ưu điểm của Notebook LM nhưng có một thứ khiến nó càng thêm hữu dụng nữa đó là tất cả đầu ra như podcast, video của Notebook LM đều đã hỗ trợ tiếng Việt. Tạo Audio overview: Đối với những ai hay di chuyển nhưng vẫn muốn học tập chắc chắn là tín đồ của Podcast hoặc các bài nói Audio, vậy còn gì tuyệt vời hơn khi có thể tạo các bài nói từ các tài liệu nghiên cứu của chính mình hoặc các nguồn uy tín, không những thế người nghe có thể tùy chỉnh các phong cách nói chuyện trong đó như: Đi sâu vào vấn đề, Trình bày ngắn gọn, Một bài phê bình đánh giá, hoặc có thể là một cuộc tranh luận hoặc có thể diều chỉnh độ dài ngắn của bài nói luôn. Tạo Video overview: Còn đối với những người dùng muốn xem video để có thể hiểu cặn kẽ vấn đề hơn thì Notebook LM cũng vẫn đáp ứng được tất nhiên là có thể chỉnh sửa video khi video đi chệch với mục đích nghiên cứu của người dùng hoặc đơn giản chỉ muốn AI tập trung nói rõ vào vấn đề nào trong phần Customize. Đây là ví dụ khi mình đang nghiên cứu về mô hình LLM. Tạo ra các báo cáo cực kì đa dạng: Sau khi xem hết video và podcast chắc chắn học tập và nghiên cứu thì cần đưa ra báo cáo NotebookLM.Cụ thể, trong mục Reports bạn sẽ thấy các lựa chọn để tạo ra các loại báo cáo khác nhau. Các loại báo cáo này bao gồm: Briefing Doc (Tài liệu tóm tắt): Một bản tóm tắt nhanh, cô đọng các điểm chính từ tất cả các tài liệu nguồn của bạn. Nó giống như một bản tóm tắt dành cho người bận rộn, giúp bạn nắm bắt nội dung cốt lõi một cách hiệu quả. Study Guide (Hướng dẫn học tập): Một báo cáo được tạo ra để giúp bạn ôn tập. Nó có thể bao gồm các định nghĩa, khái niệm chính, các câu hỏi và câu trả lời, hoặc các điểm quan trọng cần ghi nhớ để chuẩn bị cho một kỳ thi hoặc bài kiểm tra. FAQ (Câu hỏi thường gặp): Tạo ra một danh sách các câu hỏi và câu trả lời thường gặp dựa trên nội dung trong các tài liệu của bạn. Điều này rất hữu ích khi bạn muốn nhanh chóng tìm câu trả lời cho các thắc mắc phổ biến về một chủ đề. Timeline (Dòng thời gian): Sắp xếp các sự kiện hoặc mốc thời gian quan trọng được đề cập trong tài liệu của bạn theo trình tự thời gian. Rất hữu ích cho các nghiên cứu lịch sử hoặc các dự án cần theo dõi tiến trình. Inforgraphic (beta): Tự động thiết kế một bản đồ họa trực quan (sơ đồ, biểu đồ, hình ảnh) để tóm tắt các điểm dữ liệu và khái niệm phức tạp giúp dữ liệu trực quan hơn, nhưng tính năng này mới ở giai đoạn beta. Slide Deck (beta): Tạo ra một bộ slide trình chiếu chuyên nghiệp (ví dụ: PowerPoint/Google Slides) với cấu trúc, tiêu đề và gạch đầu dòng từ nội dung của NotebookLM và tính năng này mới ở giai đoạn beta. Chia sẻ kiến thức hợp tác NotebookLM hỗ trợ khả năng chia sẻ, cho phép người dùng chia sẻ "notebook" của họ với người khác. Điều này có thể biến một không gian nghiên cứu cá nhân thành một cơ sở kiến thức chung cho một nhóm hoặc thậm chí một chatbot nội bộ cho một công ty, nơi nhân viên có thể nhanh chóng truy vấn các chính sách của công ty hoặc kiến thức tổ chức. Nhưng khi đó người dùng sẽ phải đăng ký gói Notebook LM Pro vì gói Pro mới cho phép người dùng tương tác với notebook của người chia sẻ còn gói miễn phí thì xem được thôi. Tất nhiên Google cũng cam kết tính bảo mật và quyền riêng tư khi sử dụng Notebook LM. Notebook LM và bối cảnh mở rộng hơn NotebookLM trong bối cảnh rộng lớn hơn của AI cho công việc tri thức Các chức năng của NotebookLM hoàn toàn phù hợp với nhu cầu ngày càng tăng của những người làm công việc tri thức đối với các công cụ dựa trên LLM. Các cuộc khảo sát chỉ ra rằng người lao động ngày càng sử dụng LLM cho các nhiệm vụ "thông tin" như tìm kiếm, học hỏi và tóm tắt, và họ mong muốn các khả năng trong tương lai để phân tích dữ liệu của riêng họ. NotebookLM trực tiếp giải quyết những mong muốn này bằng cách cho phép người dùng tải lên dữ liệu độc quyền của họ và tương tác với nó, và với khả năng chia sẻ thì việc Notebook LM tham gia và quy trình làm việc và hợp tác lớn chắc chắn sẽ dễ dàng khi muốn tạo ra cơ sở kiến thức chung phù hợp. Sự ra đời của Notebook LM chắc chắn cuộc chơi sẽ không chỉ khép kín với Google và sẽ có sự tham gia của các LLM như những mô hình được hỗ trợ bởi Ollama hoặc Hugging Face cục bộ trong các môi trường như Jupyter Notebook sẽ tương tự như Notebook LM. Nhưng khi này mọi chuyện sẽ chỉnh dành cho các nhà phát triển với khả năng code và hiểu về Python không những thế các nhà phát triển có thể fine-tune các mô hình để tạo ra các kết quả chính xác với nhu cầu và mục đích nghiên cứu hơn nữa.

OpenAI vừa tung ra GPT-5.1 , phiên bản nâng cấp mới nhất cho GPT-5 cung cấp năng lượng tươi mới cho ChatGPT, vào ngày 13 tháng 11 năm 2025. Bản cập nhật này được mô tả là một bước tiến về năng lực và trải nghiệm, tập trung vào việc làm cho ChatGPT thông minh hơn, dễ trò chuyện hơn và dễ tùy chỉnh hơn bao giờ hết. Bản làm mới này được công bố cực nhanh chỉ ba tháng sau khi GPT-5 ra mắt (tháng 8/2025), nhằm giải quyết những phàn nàn từ người dùng rằng mô hình trước đó cảm thấy lạnh lùng và đôi khi xử lý các tác vụ kém hơn các GPT-4o hoặc GPT-4. OpenAI cho biết họ đã lắng nghe ý kiến người dùng, rằng một AI tuyệt vời không chỉ cần thông minh mà còn phải thú vị khi trò chuyện. CEO Sam Altman của OpenAI gọi GPT-5.1 là "một bản nâng cấp tốt" và đặc biệt thích những cải tiến về khả năng làm theo hướng dẫn và tính năng tư duy thích ứng. Hai Biến Thể Mới: Instant và Thinking GPT-5.1 vẫn ra mắt với hai biến thể được nâng cấp, nhằm mục tiêu tối ưu hóa trải nghiệm người dùng: GPT-5.1 Instant: Đây chắc chắn sẽ là mô hình được sử dụng rộng rãi nhất của ChatGPT. Mặc định thân thiện và trò chuyện tự nhiên hơn. Các thử nghiệm ban đầu cho thấy nó có thể gây bất ngờ bởi sự linh hoạt và dí dỏm trong khi vẫn duy trì sự rõ ràng và hữu ích. Nó ưu tiên tốc độ và đối thoại trôi chảy, rất phù hợp cho các tác vụ như động não hoặc tóm tắt bài viết. Lần đầu tiên, GPT-5.1 Instant có thể sử dụng lý luận thích ứng (adaptive reasoning) để tự quyết định khi nào cần suy nghĩ sâu hơn trước khi trả lời các câu hỏi khó. Điều này giúp mô hình đưa ra phản hồi chính xác và chi tiết hơn mà vẫn duy trì tốc độ nhanh. GPT-5.1 Thinking: Mô hình này được thiết kế cho các tác vụ suy luận phức tạp và chuyên sâu hơn. Nó tự điều chỉnh thời gian suy nghĩ: dành nhiều thời gian hơn cho các vấn đề phức tạp và phản hồi nhanh hơn với các câu hỏi đơn giản. So với GPT-5 Thinking, phiên bản 5.1 này nhanh hơn khoảng gấp đôi trên các tác vụ dễ dàng nhưng lại chậm hơn gấp đôi trên các tác vụ khó nhất. Điểm đặc biệt là cách phản hồi đã được cải thiện, giảm bớt các từ ngữ chuyên môn khô khan, khó hiểu. Điều này giúp mọi người dễ dàng nắm bắt các kiến thức phức tạp mà không cảm thấy khó khăn hay mơ hồ như trước. Cả hai mô hình đều vẫn giữ ưu điểm của GPT-5 là sử dụng một bộ định tuyến thông minh, có khả năng tự động phân loại và chuyển tiếp truy vấn đến mô hình hiệu quả nhất. Nhờ vậy, người dùng hoàn toàn thoát khỏi việc phải tự tay lựa chọn mô hình, tiết kiệm thời gian và công sức. và OpenAI báo cáo rằng bộ định tuyến này xác định độ phức tạp chính xác trong 94% trường hợp sử dụng. [GPT5_V1_TOKEN_CHART] Nâng cấp thông minh: tốc độ, hiệu quả và độ chính xác Đối với các nhà phát triển và người dùng chuyên nghiệp, GPT-5.1 mang lại những cải tiến đáng kể về khả năng và hiệu suất: Lý luận thích ứng (Adaptive reasoning): Hệ thống này cho phép mô hình phân bổ nguồn lực tính toán động, đáp ứng nhanh chóng với các truy vấn đơn giản trong khi dành độ sâu xử lý lớn hơn cho các tác vụ phức tạp. Hiệu suất Coding tốt hơn: GPT-5.1 được thiết kế để tăng tốc độ viết code và giảm chi phí. Việc giới thiệu chế độ "no reasoning" (không suy luận sâu) lý tưởng cho các tác vụ tra cứu đơn giản, giúp cắt giảm đáng kể độ trễ (latency) và tiêu thụ token (chi phí). Hiệu quả Token: GPT-5.1 Thinking đạt kết quả tốt hơn mô hình o3 trước đó của OpenAI, trong khi sử dụng ít hơn 50-80% token đầu ra. Điều này thay đổi cơ bản tính kinh tế của việc triển khai AI, đặc biệt là đối với các tác vụ lập trình phức tạp. Bộ nhớ đệm đã được nâng cấp, mở rộng thời gian ghi nhớ prompt (prompt catching) của bạn đến 24 giờ. Những yêu cầu thường xuyên sẽ chỉ cần được xử lý một lần, từ đó tăng tốc độ phản hồi và giảm chi phí một cách hiệu quả cho những ứng dụng sử dụng AI Cải thiện tuân thủ hướng dẫn: Mô hình giờ đây tuân thủ tốt hơn các hướng dẫn tùy chỉnh, với các ví dụ như người dùng yêu cầu các câu trả lời của ChatGPT ngắn gọn hơn thì nó sẽ ngăn chặn những hành vi phụ làm cho câu trả lời dài dòng hơn, ví dụ như tạo thêm các báo cáo, hoặc bình luận dài dòng hơn. Khả năng điều chỉnh giọng điệu cá nhân hóa toàn diện Một trong những cập nhật lớn nhất của GPT-5.1 là khả năng tùy chỉnh giọng điệu và phong cách giao tiếp để phù hợp với sở thích đa dạng của người dùng. Các chế độ giọng điệu và tính cách (Personality Presets): Người dùng có thể chọn tới 8 chế độ cá tính khác nhau, áp dụng ngay lập tức trên mọi cuộc trò chuyện: Mặc định (Default). Chuyên nghiệp (Professional). Thân thiện (Friendly) (trước đây là Listener). Thẳng thắn (Candid). Hài hước/Khác biệt (Quirky). Hiệu quả (Efficient) (trước đây là Robot). Mọt sách (Nerdy). Hoài nghi (Cynical). Khả năng tinh chỉnh (Fine-tuning controls): Ngoài các cài đặt sẵn, OpenAI đang thử nghiệm các điều khiển chi tiết hơn, cho phép người dùng tinh chỉnh các đặc điểm cụ thể của ChatGPT: Mức độ ngắn gọn (Conciseness). Mức độ thân thiện (Warmth). Mức độ dễ đọc/dễ quét (Scannability). Tần suất sử dụng biểu tượng cảm xúc (emoji). Thậm chí, ChatGPT có thể chủ động đề xuất cập nhật tùy chọn giọng điệu và phong cách trong khi trò chuyện. Khả năng triển khai và API GPT-5.1 Instant và Thinking đang được triển khai dần dần. Người dùng trả phí (Pro, Plus, Go, Business) sẽ là những người đầu tiên nhận được quyền truy cập. Một vài ngày nữa thì sẽ đến lượt người dùng miễn phí . Các gói Enterprise và Education có quyền truy cập sớm 7 ngày. Các mô hình GPT-5 cũ vẫn sẽ sử dụng được trong vòng 3 tháng đối với người dùng vẫn thích mô hình cũ hơn. Open AI dự kiến sẽ mở kết nối API sau khoảng 7 ngày. GPT-5.1 Instant sẽ có tên API là gpt-5.1-chat-latest, và GPT-5.1 Thinking là gpt-5.1. GPT-5.1 sẽ không chỉ là một bản cập nhật thú vị hơn với khả năng suy luận thích ứng mạnh mẽ, mà còn là sự khẳng định vị thế dẫn đầu trong việc hướng tới việc cá nhân hóa hoàn toàn trải nghiệm AI. Với các tùy chọn điều chỉnh giọng điệu và phong cách, OpenAI đang cố gắng đảm bảo rằng mô hình hàng đầu của họ không chỉ thông minh mà còn dễ sử dụng, thân thiện và thích ứng với sở thích riêng của từng người dùng.

OpenAI gần đây đã ra mắt trình duyệt AI ChatGPT Atlas ChatGPT Atlas, một bước đi nhằm thách thức sự thống trị của Google Chrome và thúc đẩy thói quen tìm kiếm dựa trên AI. Điểm khác biệt cốt lõi của Atlas là đặt ChatGPT vào vị trí trung tâm của trải nghiệm duyệt web. Tuy nhiên, trình duyệt AI này đã nhanh chóng bị phát hiện một lỗ hổng bảo mật nghiêm trọng ngay sau khi ra mắt. Lỗ hổng này đặc biệt nguy hiểm vì nó có thể cho phép hacker đánh cắp dữ liệu người dùng bằng mã độc có khả năng tồn tại "vĩnh viễn" trong bộ nhớ của AI. Lỗ hổng giả mạo yêu cầu chéo trang (CSRF) khai thác bộ nhớ AI Theo báo cáo từ LayerX Security, cuộc tấn công này khai thác lỗ hổng giả mạo yêu cầu chéo trang (CSRF) để chèn các lệnh độc hại vào bộ nhớ liên tục của ChatGPT. Tính năng bộ nhớ được thiết kế để AI ghi nhớ các chi tiết hữu ích như tên hoặc sở thích của người dùng nhằm cá nhân hóa các phản hồi. Tuy nhiên, giờ đây, tính năng hữu ích này lại có thể bị biến thành một vũ khí dai dẳng để chạy mã độc tùy ý. Kịch bản tấn công diễn ra như thế nào? Kịch bản tấn công được mô tả diễn ra khá đơn giản: Người dùng đăng nhập vào ChatGPT Atlas. Họ bị lừa nhấp vào một liên kết độc hại. Trang web độc hại này sau đó bí mật kích hoạt yêu cầu CSRF, âm thầm đưa hướng dẫn độc hại vào bộ nhớ ChatGPT của nạn nhân. Mối đe dọa từ việc bộ nhớ bị nhiễm mã độc Điều khiến lỗ hổng này trở nên đặc biệt nguy hiểm là nó nhắm vào bộ nhớ liên tục của AI, chứ không chỉ phiên trình duyệt. Tính chất vĩnh viễn: Michelle Levy, Giám đốc nghiên cứu bảo mật tại LayerX Security, giải thích rằng kẻ tấn công đã dùng thủ thuật để "lừa" AI ghi lệnh độc hại vào bộ nhớ. Lệnh này sẽ nằm vùng vĩnh viễn trong AI trừ khi người dùng tự tay vào cài đặt để xóa và có thể được kích hoạt trên nhiều thiết bị và phiên làm việc. Thậm chí, việc đổi máy tính, đăng xuất rồi đăng nhập lại hay dùng một trình duyệt khác cũng không loại bỏ được lệnh độc hại này. Hậu quả: Khi người dùng đưa ra một truy vấn hoàn toàn hợp pháp sau này (ví dụ: yêu cầu AI viết code), các bộ nhớ của Chat GPT Atlas bị nhiễm độc sẽ được kích hoạt. Hậu quả là hacker có thể chạy mã ngầm, đánh cắp dữ liệu hoặc chiếm được các quyền kiểm soát cao hơn trên hệ thống. Hệ thống phòng thủ kém so với đối thủ LayerX Security cũng chỉ ra rằng vấn đề bảo mật trên ChatGPT Atlas trở nên trầm trọng hơn do trình duyệt này thiếu các biện pháp kiểm soát chống lừa đảo mạnh mẽ. Trong các thử nghiệm với hơn 100 lỗ hổng và trang lừa đảo, Atlas chỉ ngăn chặn được 5,8% các trang web độc hại. Con số này quá khiêm tốn so với Google Chrome (47%) hay Microsoft Edge (53%), khiến người dùng Atlas dễ bị tấn công hơn tới 90% so với các trình duyệt truyền thống. [ATLAS_SECURITY_CHART] Phát hiện này cho thấy các trình duyệt AI đang trở thành một mặt trận tấn công mới. Cách người dùng ChatGPT tự bảo vệ bản thân Nếu bạn lo lắng về việc thông tin cá nhân bị lưu trữ hoặc bị kiểm soát trong môi trường của Atlas, bạn có thể thực hiện các biện pháp sau: Xóa bộ nhớ đã lưu (Manage memories): Bạn có thể khiến ChatGPT không lưu thông tin cá nhân bằng cách nhấp vào biểu tượng hồ sơ của mình. Chọn cài đặt (Settings) > Cá nhân hóa (Personalization). Sau đó, nhấp vào liên kết quản lý bộ nhớ (Manage memories). Tại đây, bạn sẽ nhận được một danh sách đầy đủ tất cả các sự thật mà ChatGPT đã lưu trữ về bạn. Bạn có thể chọn xóa tất cả (Delete All) ở cuối cửa sổ để xóa sạch bộ nhớ của nó. Để ngăn ChatGPT lưu trữ bất kỳ thông tin cá nhân nào trong tương lai, bạn có thể quay lại màn hình trước đó và tắt tùy chọn tham chiếu bộ nhớ đã lưu (Reference saved memories). Sử dụng chế độ trò chuyện tạm thời: Nếu bạn muốn trò chuyện với ChatGPT Atlas về một vấn đề cá nhân hoặc điều gì đó không muốn nó lưu trữ, hãy sử dụng chế độ trò chuyện tạm thời (temporary chat). Chế độ này được kích hoạt bằng cách nhấp vào biểu tượng bong bóng thoại có dấu chấm ở cạnh ảnh hồ sơ của bạn. Khi ở chế độ này, AI sẽ không lưu trữ bất kỳ điều gì vào bộ nhớ của nó và cuộc trò chuyện cũng sẽ không xuất hiện trong lịch sử của bạn. Không chia sẻ thông tin nhạy cảm: Tuyệt đối không tiết lộ các loại thông tin như thông tin định danh (số căn cước công dân, bằng lái xe, hộ chiếu, địa chỉ, số điện thoại), kết quả khám bệnh, thông tin tài chính (số tài khoản ngân hàng), thông tin độc quyền của doanh nghiệp, hoặc thông tin đăng nhập (mật khẩu, mã PIN) cho AI. Bảo mật tài khoản bằng 2FA: Để loại bỏ gần như hoàn toàn rủi ro bên thứ ba xâm nhập vào tài khoản của bạn và thu thập dữ liệu cá nhân, hãy bật xác thực hai yếu tố (2FA). Bạn thực hiện việc này bằng cách vào cài đặt (Settings) > bảo mật (Security) và nhấp để bật xác thực đa yếu tố (multi-factor authentication).

Năm 2025 là năm bắt đầu cho sự thay đổi cách chúng ta tương tác với web. Thay vì chỉ là công cụ hiển thị nội dung, trình duyệt web đang được tái định hình thành những trợ lý thông minh. Sự trỗi dậy của các trình duyệt AI-native (trí tuệ nhân tạo gốc) như Perplexity Comet và ChatGPT Atlas của OpenAI đang báo hiệu một cuộc cạnh tranh mới, thách thức sự thống trị lâu năm của Google Chrome và Safari. Cuộc chuyển dịch này được thúc đẩy bởi những tiến bộ vượt bậc của các mô hình ngôn ngữ lớn (LLM), biến trình duyệt từ một công cụ điều hướng thụ động thành một đối tác nhận thức chủ động. Giám đốc điều hành OpenAI, Sam Altman, gọi đây là "cơ hội hiếm có, một thập kỷ một lần để định nghĩa lại trình duyệt có thể làm được gì". Các công ty công nghệ đang chạy đua để chiếm lĩnh người dùng, điều này có khả năng làm thay đổi toàn bộ mô hình kinh doanh dựa trên quảng cáo vốn là nền tảng của các công cụ duyệt web. Tuy nhiên, con đường thay đổi này không hề dễ dàng. Google Chrome vẫn đang chiếm lĩnh thị trường với một thị phần khổng lồ, trong khi Safari giữ vững vị thế nhờ sự tích hợp sâu vào hệ sinh thái Apple. [BROWSER_MARKET_SHARE_CHART] Hai triết lý đối lập giữa Atlas và Comet Mặc dù cùng hướng đến một tương lai duyệt web thông minh hơn, ChatGPT Atlas và Perplexity Comet lại theo đuổi hai triết lý hoàn toàn khác biệt, phục vụ cho những nhu cầu và thói quen sử dụng khác nhau. [AI_BROWSER_FOCUS_CHART] ChatGPT Atlas được mệnh danh là bộ não thứ hai của Open AI. Trọng tâm của Atlas là tự động hóa và năng suất với tính năng nổi bật là Agent Mode (chế độ tác tử), Atlas có thể tự thực hiện các tác vụ phức tạp gồm nhiều bước như đặt vé máy bay, mua sắm trực tuyến, hay lên lịch hẹn. Nó biến trình duyệt thành một trợ lý giúp người dùng hoàn thành công việc thay vì chỉ tìm kiếm thông tin. Các tính năng khác như cung cấp bộ nhớ trình duyệt và hỗ trợ viết trực tiếp càng củng cố vai trò của Atlas như một trợ lý cá nhân hóa, giúp giảm thiểu các thao tác thủ công và tiết kiệm thời gian. Atlas ưu tiên đơn giản hóa cách bạn làm việc trực tuyến. Ngược lại, Perplexity Comet được xây dựng như một không gian làm việc tri thức (knowledge workspace), tập trung vào nghiên cứu và độ chính xác. Comet tập trung đảm bảo thông tin đáng tin cậy, cập nhật và minh bạch với sự nổi bật của nó là khả năng tổng hợp thông tin từ nhiều nguồn, cung cấp các câu trả lời có trích dẫn rõ ràng và có thể kiểm chứng. Comet cho phép người dùng tạo các không gian riêng cho từng dự án, giúp tổ chức các tab, ghi chú và cuộc trò chuyện một cách khoa học. Điều này biến nó thành một trợ lý nghiên cứu thông minh lý tưởng cho các học giả, nhà báo và chuyên gia phân tích. Thách thức Chrome, Safari và toàn bộ trình duyệt khác Sự xuất hiện của Atlas và Comet không chỉ là một cuộc cạnh tranh về tính năng, mà còn là một thách thức trực tiếp đến mô hình kinh doanh và vị thế của các ông lớn. Google Chrome với thị phần toàn cầu vượt trội, đối mặt với nguy cơ bị suy giảm doanh thu quảng cáo. Các trình duyệt AI cung cấp câu trả lời tổng hợp trực tiếp đã làm giảm nhu cầu người dùng phải nhấp vào các liên kết, vốn là nền tảng của mô hình quảng cáo tìm kiếm. Gartner dự báo rằng việc sử dụng công cụ tìm kiếm truyền thống có thể giảm 25% vào năm 2026 khi người dùng chuyển sang các trợ lý AI. Đối với Safari thách thức lại nằm ở việc đổi mới vì Safari luôn được đánh giá cao về hiệu suất và tiết kiệm năng lượng và tích hợp sâu với hệ điều hành của Apple tuy nhiên việc thiếu các tính năng AI tiên tiến đã khiến nó trở nên tụt hậu. Cuộc đua này buộc Apple phải tăng tốc tích hợp AI vào trình duyệt của mình để giữ chân người dùng trong hệ sinh thái. Sự cạnh tranh này đang thúc đẩy một thị trường hoàn toàn mới khi mà thị trường trình duyệt AI được dự báo sẽ tăng trưởng mạnh mẽ, từ 4,5 tỷ USD vào năm 2024 lên đến 76,8 tỷ USD vào năm 2034, với tốc độ tăng trưởng kép hàng năm (CAGR) là 32,8%. Điều này cho thấy tiềm năng to lớn trong cách ngành công nghệ nhìn nhận về vai trò của trình duyệt web. [AI_BROWSER_MARKET_GROWTH_CHART] Rủi ro tiềm ẩn và tương lai phía trước Các trình duyệt AI cũng mang đến những rủi ro đáng kể, đặc biệt là về bảo mật và quyền riêng tư. Việc trao quyền cho một AI để tự động duyệt web và thực hiện hành động trên các tài khoản đã đăng nhập của người dùng đã liên tiếp tạo ra những lỗ hổng mới. Các nhà nghiên cứu bảo mật đã phát hiện ra các lỗ hổng nghiêm trọng như CometJacking trên Perplexity Comet, nơi một liên kết độc hại có thể chiếm quyền điều khiển trợ lý AI để đánh cắp thông tin nhạy cảm từ email hoặc các dịch vụ khác. Đây là một thách thức cơ bản đối với an ninh mạng trong kỷ nguyên AI. Bên cạnh đó hiệu suất cũng là một vấn đề với các tính năng AI, đặc biệt là chế độ tác tử AI, có thể tiêu tốn nhiều tài nguyên CPU và bộ nhớ và đôi khi hoạt động chậm hơn so với việc người dùng tự thực hiện, đặc biệt là các tính năng này thường xuyên gặp lỗi. Về tương lai, cuộc chiến trình duyệt AI sẽ định hình lại cả mô hình kinh doanh, thay vì dựa vào quảng cáo các công ty như OpenAI và Perplexity đang khám phá các mô hình dựa trên đăng ký (subscription) cho các tính năng cao cấp. Perplexity ban đầu cung cấp Comet với giá 200 USD/tháng cho gói Max, sau đó chuyển sang miễn phí với một số giới hạn. Trong khi đó, OpenAI cung cấp Atlas miễn phí nhưng tính phí cho Agent Mode. Cuộc chiến này không chỉ là về công nghệ, mà còn là về việc tìm ra một mô hình kinh doanh bền vững cho tương lai của trình duyệt web. Dù con đường phía trước còn nhiều chông gai, sự chuyển dịch sang một kỷ nguyên duyệt web thông minh, nơi trình duyệt trở thành một đối tác chủ động dường như chắc chắn sẽ diễn ra. Cuộc chiến giữa những người khổng lồ và những kẻ thách thức sẽ tiếp tục định hình lại trải nghiệm kỹ thuật số của chúng ta trong nhiều năm tới.

Hiện nay, khi nền kinh tế GPU đang gây ra nhiều lo lắng trong giới tài chính, Morgan Stanley đã đưa ra một phân tích khá thuyết phục về lợi thế hiệu quả vượt trội khi sử dụng GPU NVIDIA GB200 NVL72 cho các trung tâm dữ liệu AI quy mô lớn. Để những ai chưa biết, mỗi máy chủ AI NVL72 chứa 72 GPU NVIDIA B200 cùng với 36 CPU Grace, tất cả được kết nối qua công nghệ liên kết băng thông cao, độ trễ thấp NVLink 5. Cần lưu ý rằng mỗi máy chủ NVL72 này hiện có giá khoảng 3,1 triệu đô la gấp hơn 16 lần so với 190.000 đô la cho một máy chủ H100. Morgan Stanley tin rằng việc sử dụng giải pháp mới nhất của NVIDIA có ý nghĩa kinh tế. Hiệu quả kinh tế của các hệ thống AI Theo tính toán của Morgan Stanley, các hệ thống NVIDIA GB200 NVL72 hiện đang dẫn đầu về khả năng tạo ra doanh thu và lợi nhuận, theo sau là Google TPU v6e. Cụ thể, một trung tâm dữ liệu AI với công suất 100MW có thể đạt tỷ suất lợi nhuận 77,6% với các máy chủ NVIDIA GB200 NVL72, trong khi Google TPU v6e đứng thứ hai với tỷ suất lợi nhuận 74,9%. Điều này mang lại lợi nhuận khổng lồ và khẳng định vị thế dẫn đầu của Nvidia và Google.[PROFITABILITY_CHART] Tuy nhiên, giá thuê các pod (cụm máy chủ AI) Google TPU v6e không được công bố, nhưng trung bình, chi phí thuê một pod thấp hơn khoảng 40-50% so với máy chủ NVL72. Điều đáng chú ý là theo tính toán của Morgan Stanley, các trung tâm dữ liệu AI sử dụng nền tảng AMD MI300 và MI355 có tỷ suất lợi nhuận âm, lần lượt là -28,2% và -64%. Điều đó cho thấy AMD đang hoàn toàn tụt lại trong cuộc đua máy chủ AI. Chi phí sở hữu tổng thể (TCO) Theo Morgan Stanley giả định một trung tâm dữ liệu AI 100MW sẽ có chi phí cơ sở hạ tầng là 660 triệu đô la, khấu hao trong 10 năm còn chi phí GPU có thể dao động từ 367 triệu đô la đến 2,273 tỷ đô la, khấu hao trong 4 năm. Cuối cùng, chi phí vận hành được tính dựa trên hiệu suất năng lượng của các hệ thống làm mát khác nhau và giá điện trung bình toàn cầu. Theo đó, các hệ thống NVIDIA GB200 NVL72 có tổng chi phí sở hữu (TCO) cao nhất là 806,58 triệu đô la, tiếp theo là nền tảng MI355X với 774,11 triệu đô la.

Ngay sau khi cả nước chào đón thời khắc công bố thành lập các tỉnh/thành, phường/xã mới, Tập đoàn Công nghiệp - Viễn thông Quân đội (Viettel) đã ra mắt một trợ lý AI miễn phí cho toàn dân. Trợ lý này hoạt động qua web, giúp mọi người dễ dàng tra cứu mọi thông tin về các đơn vị hành chính mới. Đây là sản phẩm do chính Viettel nghiên cứu và phát triển, thể hiện cam kết đóng góp vào công cuộc chuyển đổi số quốc gia, hướng tới một nền hành chính công minh bạch và hiệu quả hơn. Giải quyết khó khăn tra cứu thông tin hành chính Việc sáp nhập, sắp xếp các đơn vị hành chính, dù đã được chuẩn bị kỹ lưỡng, vẫn gây không ít khó khăn cho người dân trong việc tra cứu thông tin. Để giải quyết vấn đề này, trợ lý AI mới của Viettel được xây dựng trên nền tảng mô hình ngôn ngữ lớn hoàn toàn bằng tiếng Việt do chính Viettel phát triển. Trợ lý này được thiết kế và huấn luyện từ các văn bản chính thống, đảm bảo độ chính xác cao khi tra cứu thông tin mới về tổ chức đơn vị hành chính. Trước đó, Viettel đã có kinh nghiệm phát triển thành công Trợ lý ảo pháp luật và Trợ lý ảo công chức. Nhờ đó, Viettel đã có kinh nghiệm và am hiểu các câu hỏi của người Việt, giúp trợ lý AI mới đưa ra những câu trả lời sát với thực tế nhất. Hướng dẫn tra cứu tỉnh, thành phố và xã, phường mới bằng trợ lý AI của Viettel Viettel đã ra mắt trợ lý AI giúp người dân dễ dàng tra cứu thông tin về các đơn vị hành chính mới. Chỉ với vài bước đơn giản, bạn có thể tìm kiếm mọi thông tin cần thiết về 34 tỉnh, thành phố và 3.321 xã, phường mới: Bước 1: Truy cập nền tảng web Mở trình duyệt web trên máy tính, điện thoại hoặc máy tính bảng của bạn và truy cập địa chỉ https://tracuuphuongxa.trolyao.org/. Bước 2: Đặt câu hỏi Tại ô hội thoại, hãy nhập câu hỏi bạn muốn tra cứu về đơn vị hành chính mới. Trợ lý AI được thiết kế để hiểu các câu hỏi tự nhiên dưới dạng hội thoại. Người dùng có thể đặt câu hỏi về đơn vị hành chính mới theo nhu cầu tìm hiểu. Một số ví dụ bạn có thể tham khảo: "Hà Nội có bao nhiêu xã, phường?" "Xã Cổ Bi - thành phố Hà Nội bây giờ là xã nào?" "Tỉnh Nam Định bây giờ là tỉnh nào?" "Cả nước hiện có những tỉnh, thành phố nào?" Bước 3: Xem kết quả và nguồn tham chiếu Trợ lý AI sẽ cung cấp câu trả lời chi tiết cho câu hỏi của bạn cùng nguồn văn bản tương ứng được gọi là tri thức của trợ lý. Để đảm bảo độ tin cậy và chính xác, bạn có thể kiểm tra lại nguồn trích dẫn được đánh dấu màu đỏ trong câu trả lời. Trợ lý AI cũng cung cấp bộ cẩm nang toàn diện về đơn vị hành chính cấp tỉnh và cấp xã mới (nằm ở góc trên bên phải màn hình), bao gồm các nghị quyết của Ủy ban Thường vụ Quốc hội về việc sắp xếp đơn vị hành chính mới. Việc đưa sản phẩm AI này vào sử dụng ngay sau khi đất nước sắp xếp lại các đơn vị hành chính thể hiện cam kết mạnh mẽ của chính phủ trong việc đóng góp vào công cuộc chuyển đổi số quốc gia, hướng tới một nền hành chính công minh bạch và hiệu quả hơn. Bạn đã trải nghiệm trợ lý AI này chưa? Hãy chia sẻ cảm nhận của bạn nhé!

Có vẻ như đổ vỡ với Microsoft đã khiến OpenAI điều chỉnh đáng kể chiến lược tiếp cận rộng rãi tới người dùng AI khi họ đã công bố phát hành 2 model mã nguồn mở mới là gpt-oss-120b và gpt-oss-20b với kích thước lần lượt là 20 tỷ và 120 tỷ tham số (parameter chứ hoàn toàn không phải neuron). Đặc biệt là 2 mô hình này đều có mã nguồn mở với giấy phép Apache 2.0 rất tự do. Vậy thì giấy phép Apache 2.0 là gì? Có thể nhiều người vẫn chưa biết về giấy phép mở này thực sự rất dài nhưng tóm gọn lại là với giấy phép Apache 2.0 này người dùng hoàn toàn được tự do dùng và chỉnh sửa, phân phối lại cũng không cần mở mã nguồn, kể cả kiếm tiền với GPT-OSS cũng được thậm chí không cần trả khoản phí gì cho Open AI, chỉ cần giữ nguyên bản quyền tác giả là được. Như vậy với động thái này báo hiệu việc OpenAI tái gia nhập "cuộc đua mô hình mở" sau sáu năm gián đoạn, sánh vai cùng các đối thủ như Meta, Deepseek và Mistral. GPT-OSS là gì? Hiểu rõ về "Open-Weight" Thuật ngữ "GPT-OSS" dùng để chỉ hai mô hình ngôn ngữ mới này, với kích thước lần lượt là 20 tỷ và 120 tỷ tham số. Quan trọng là, OpenAI đã phát hành chúng dưới dạng các mô hình "open-weight", nghĩa là các trọng số đã được huấn luyện của mô hình AI được công khai cho phép tải về và sử dụng trực tiếp trên máy của người dùng. Điều này cho phép các nhà phát triển kiểm tra và tinh chỉnh cách các mô hình hoạt động. Tuy nhiên, đây không phải là một bản phát hành "mã nguồn mở" đầy đủ theo nghĩa truyền thống, vì OpenAI chưa công bố công khai mã code huấn luyện gốc hoặc các tập dữ liệu thô được sử dụng để huấn luyện các mô hình này. Ngược lại, một mô hình thực sự mã nguồn mở sẽ cung cấp toàn bộ mã nguồn, tài liệu huấn luyện, trọng số và đôi khi cả tập dữ liệu, cho phép cộng đồng xem, sửa đổi và thậm chí huấn luyện lại mô hình. Mặc dù sự khác biệt này còn gây tranh cãi trong cộng đồng mã nguồn mở, OpenAI nhấn mạnh rằng bản phát hành này là một bước đi tiếp theo sau sáu năm hướng tới việc làm cho lợi ích của AI trở nên dễ tiếp cận rộng rãi. Hiệu suất vượt trội và khả năng nâng cao Dù "mở", hiệu năng của GPT-OSS vẫn rất đáng gờm. Các bài kiểm tra (benchmark) cho thấy nó có thể cạnh tranh với mô hình đóng của Open AI : GPT-OSS-120B: Gần tương đương với o4-mini trong các tác vụ suy luận cốt lõi, mô hình này yêu cầu GPU 80GB trở lên. GPT-OSS-20B: Tương tự o3-mini, có thể chạy trên phần cứng tiêu dùng với 16GB bộ nhớ. [BENCHMARK_CHART] Các điểm nổi bật về kiến trúc và khả năng chính bao gồm: Kiến trúc Mixture-of-Experts (MoE): Cả hai mô hình đều sử dụng thiết kế MoE, kích hoạt ít tham số hơn trên mỗi token (5,1 tỷ cho 120B và 3,6 tỷ cho 20B) để xử lý hiệu quả truy vấn. Suy luận Chain-of-Thought (CoT): GPT-OSS hỗ trợ khả năng suy luận nâng cao, cho phép các nhà phát triển cấu hình các mức độ nỗ lực suy luận khác nhau (thấp, trung bình hoặc cao) để cân bằng tốc độ và độ chính xác. Các mô hình có thể hiển thị toàn bộ chuỗi suy luận nội bộ của chúng, điều này có thể hỗ trợ gỡ lỗi logic của chúng. Sử dụng công cụ và đầu ra có cấu trúc: Các mô hình được thiết kế cho các trường hợp sử dụng nâng cao bao gồm sử dụng công cụ, chẳng hạn như công cụ duyệt web để tương tác web và công cụ Python để thực thi mã trong môi trường sổ ghi chép Jupyter. Huấn luyện chuyên sâu: Được huấn luyện trên hàng nghìn tỷ token chỉ bằng văn bản tập trung vào STEM, mã hóa và kiến thức tổng quát, sử dụng GPU NVIDIA H100 và PyTorch. Thời điểm cắt dữ liệu kiến thức của các mô hình là tháng 6 năm 2024. Định dạng OpenAI Harmony: Một dự án mã nguồn mở mới từ OpenAI, Harmony, cung cấp một định dạng phản hồi mới lạ cho các mẫu lời nhắc, giới thiệu các vai trò như system, developer, user, assistant, và tool, cùng với các kênh đầu ra riêng biệt cho final (hướng tới người dùng), analysis (chuỗi suy luận), và commentary (liên quan đến công cụ). Cấu trúc này nâng cao khả năng của mô hình trong việc quản lý các tương tác phức tạp. Ý nghĩa và lợi ích đối với hệ sinh thái AI Quyết định phát hành các mô hình GPT-OSS miễn phí được xem là một động thái chiến lược của OpenAI nhằm lấy lại vị thế trong bối cảnh AI đang ngày càng cạnh tranh. Bằng cách cung cấp các mô hình "open-weight" mạnh mẽ, OpenAI không chỉ thúc đẩy đổi mới mà còn trao quyền cho các nhà phát triển và doanh nghiệp. Điều này mang lại nhiều lợi ích đáng kể: Tăng cường quyền riêng tư: Các doanh nghiệp, đặc biệt trong các ngành yêu cầu bảo mật cao như y tế hay tài chính, có thể triển khai mô hình cục bộ (on-premise) để bảo vệ dữ liệu nhạy cảm. Tiết kiệm chi phí: Việc triển khai cục bộ giúp giảm độ trễ và chi phí sử dụng API thương mại. Thúc đẩy đổi mới: Cộng đồng có thể tự do tinh chỉnh và phát triển các giải pháp AI tiên tiến dựa trên các mô hình này. Có hỗ trợ tinh chỉnh (Fine-Tune) và gọi hàm (Function Calling) Các mô hình GPT-OSS được thiết kế hoàn toàn có thể tinh chỉnh (fine-tune), mặc dù không có mã code huấn luyện gốc. Chúng đã được tích hợp vào thư viện transformers của Hugging Face và hỗ trợ các kỹ thuật fine-tune tiết kiệm tài nguyên như LoRA, PEFT, và QLoRA. Tất nhiên là GPT-OSS có hỗ trợ function calling cho phép mô hình gọi và xử lý kết quả từ các hàm hoặc API bên ngoài trong quá trình hội thoại. Thật sự đây là thứ mà không thể thiếu đối với các mô hình hiện nay để tăng tính kết nối. Mặc dù việc sử dụng fine-tune mà không có script huấn luyện gốc có thể phức tạp hơn, hoàn toàn không dễ dàng với người thiếu kinh nghiệm nhưng các nhà phát triển nên thử các nền tảng như Unsloth đã phát triển các giải pháp tùy chỉnh và kỹ thuật offloading để làm cho mọi việc dễ dàng hơn đôi chút, cho phép huấn luyện LoRA GPT-OSS-20b trên VRAM 14GB và GPT-OSS-120b trên VRAM 65GB. Cách tiếp cận và triển khai: Hugging Face: Thông qua dịch vụ Inference Providers mà họ đã cung cấp bản demo chính thức của OpenAI. Triển khai trên chính máy của người dùng (Local Inference): Được hỗ trợ bởi các thư viện như transformers, vLLM, llama.cpp, và ollama. Ví dụ, mô hình 20B có thể chạy trên Macbook, Mac mini chỉ với RAM 32GB. Có thể chạy thông qua Docker. Nền tảng cloud : Có sẵn trên các nền tảng như Azure AI Model Catalog và Dell Enterprise Hub cho các triển khai doanh nghiệp an toàn. Các nhà phát triển có thể sử dụng nhiều tối ưu hóa khác nhau để tăng tốc độ suy luận, bao gồm lượng tử hóa MXFP4 cho GPU Hopper hoặc Blackwell, Flash Attention 3 và MegaBlocks MoE kernels. Cam kết mạnh mẽ và tranh cãi xoay quanh GPT-OSS Mặc dù mô hình được cộng đồng đón nhận tích cực, nhưng đã không còn tính wow khi nói về "tính mở" của nó. Sự khác biệt giữa "open-weight" và "open-source" vẫn là một điểm gây tranh cãi đối với một số người ủng hộ sự minh bạch hoàn toàn, mà còn ở những đối thủ của Open AI đã làm trước đây rất lâu rồi. Ngoài ra, trong quá trình thử nghiệm, một số trường hợp mô hình gpt-oss-20b "rò rỉ" thông tin chuỗi suy luận nội bộ đã được quan sát, mặc dù OpenAI đã chỉ ra rằng đây là một hành vi được mong đợi để cho phép giám sát và tránh các mô hình che giấu dấu vết của chúng. Tóm lại, các mô hình GPT-OSS của OpenAI với quá trình thể hiện chắc chắn vẫn chưa hoàn hảo mà chỉ để thể hiện cam kết mạnh mẽ đối với việc làm cho AI trở nên dễ tiếp cận hơn.

Một cập nhật vô cùng thú vị đã xuất hiện trong ứng dụng Gemini, mở ra một cách thức hoàn toàn mới để biến những ý tưởng của bạn thành hiện thực từ đây những cuốn sách kể chuyện được minh họa cá nhân hóa hoàn chỉnh với sự hỗ trợ của giọng đọc. Google đã giới thiệu tính năng mới này vào ngày 6/8/2025 rất gần với ngày ra mắt của GPT-5. Vì vậy, mức độ quan tâm tất nhiên không thể so sánh với sự kiện từ OpenAI. Tuy nhiên, đây vẫn là một tính năng cực kì hữu ích và thú vị, cho phép bạn dễ dàng tạo ra những câu chuyện độc đáo, phù hợp với mọi trí tưởng tượng. Tính năng hoạt động như thế nào? Chỉ cần mô tả bất kỳ câu chuyện nào bạn có thể hình dung, Gemini sẽ tạo ra một cuốn sách 10 trang độc đáo với hình ảnh minh họa và giọng đọc tùy chỉnh. Để tăng tính cá nhân hóa, bạn có thể yêu cầu Gemini lấy cảm hứng từ chính ảnh hoặc bản vẽ tay của bạn hoặc con bạn. Một ưu điểm nổi bật là tất cả quá trình tạo truyện và giọng đọc đều được thực hiện trực tiếp trên Canvas của Gemini, giúp bạn thao tác nhanh gọn mà không cần chuyển sang ứng dụng khác. Hiện tại, Gemini cung cấp hai tùy chọn giọng đọc cơ bản: giọng cao (thường là giọng nữ) và giọng trầm (thường là giọng nam). Người dùng chưa thể sử dụng giọng của chính mình để tăng tính cá nhân hóa, nhưng chắc chắn Google sẽ sớm cập nhật tính năng này. Khám phá sự đa dạng trong phong cách và ngôn ngữ Bạn có thể hiện thực hóa ý tưởng của mình theo nhiều phong cách khác nhau: từ pixel art, truyện tranh, claymation, crochet cho đến sách tô màu. Hơn nữa, tính năng này hỗ trợ hơn 45 ngôn ngữ – bao gồm cả tiếng Việt – giúp mở rộng khả năng sáng tạo không giới hạn. Chất lượng đến từ Gemini 2.5 Flash và Gemini 2.5 Pro Người dùng có thể trải nghiệm miễn phí tính năng này trên cả Gemini 2.5 Pro và Gemini 2.5 Flash hoặc sau này nó sẽ xuất hiện trên cả Gemini 3. Tuy nhiên, sách được tạo bởi Pro thường cho kết quả mượt mà và chi tiết hơn, trong khi Flash vẫn đủ dùng cho các trải nghiệm cơ bản. Vì hoạt động trực tiếp trên Canvas, bạn có thể sử dụng tính năng kể chuyện ở bất kỳ đâu – từ máy tính để bàn cho đến thiết bị di động. Những cách bạn có thể sử dụng tính năng này 📖 Giúp con bạn hiểu một chủ đề phức tạp: ví dụ tạo câu chuyện giải thích về hệ mặt trời cho bé 5 tuổi. 💡 Dạy một bài học thông qua kể chuyện: dạy bé trai 7 tuổi về sự tử tế với em mình bằng cách biến chú voi thành nhân vật chính. 🎨 Biến tác phẩm nghệ thuật thành hiện thực: tải bản vẽ của trẻ và để Gemini làm sống động qua một cuốn truyện minh họa. 🌍 Biến kỷ niệm thành câu chuyện kỳ diệu: tải ảnh từ chuyến đi Phú Quốc của gia đình bạn để tạo nên một cuộc phiêu lưu độc đáo. 👉 Hãy thử ngay để biến những câu chuyện và ý tưởng của bạn thành những cuốn sách minh họa độc đáo và đầy mê hoặc! Ví dụ thực tế với prompt Dưới đây là một prompt mà chúng tôi đã thử nghiệm và các bạn có thể tham khảo kết quả: Prompt “Vẽ truyện tranh cho bé 3 tuổi nói về các phương tiện giao thông như máy bay, máy bay trực thăng, ô tô, xe máy, cần cẩu, xe xúc,...” Kết quả minh họa sách Gemini Kết quả minh họa sách Gemini Kết quả minh họa sách Gemini

Google DeepMind vừa công bố một cột mốc quan trọng trong việc ứng dụng trí tuệ nhân tạo vào dự báo bão, khi hệ thống AI tiên tiến của họ đã được Trung tâm bão quốc gia Mỹ(NHC) chấp thuận để đánh giá trong thời gian thực. Sự hợp tác này mở ra một kỷ nguyên mới trong ngành khí tượng, nơi AI không chỉ hỗ trợ mà còn có thể nâng tầm độ chính xác và tốc độ dự báo các bão nhiệt đới, góp phần cứu người và giảm thiểu thiệt hại kinh tế do thời tiết cực đoan gây ra. Bài toán dự báo bão, áp thấp nhiệt đới: Bài toán nan giải suốt nhiều thập kỷ Đối với dự báo thời tiết thì Google DeepMind cũng đã có mô hình GraphCast với khả năng dự báo thời tiết trong 10 ngày với độ chính xác hơn HRES (hệ thống mô phỏng thời tiết tiêu chuẩn vàng của Châu Âu) trên 99.7% các biến thử nghiệm trong tầng đối lưu, và đã được ECMWF thử nghiệm trực tiếp trên trang web của họ. Còn đối với các dự báo các loại bão, áp thấp nhiệt đới luôn là một trong những dự báo phức tạp mang lại thách thức lớn nhất của ngành khí tượng. Các mô hình dự báo truyền thống đều dựa trên phương trình vật lý và siêu máy tính, thậm chí những mô hình AI dự báo thời tiết vẫn gặp giới hạn rõ rệt. Đặc biệt, khi gặp các hiện tượng thời tiết cực đoan và hiếm gặp hay còn gọi là các sự kiện “thiên nga xám” – hầu hết các mô hình hiện tại đều khó khăn trong việc nhận diện và dự đoán do thiếu dữ liệu huấn luyện lịch sử tương ứng. Trong vòng 50 năm qua, xoáy thuận nhiệt đới đã gây ra tổn thất kinh tế hơn 1.400 tỷ USD trên toàn cầu – một con số cho thấy nhu cầu cấp thiết của các công nghệ dự báo nhanh và chính xác hơn. GenCast và Weather Lab: Cặp bài trùng AI dự báo bão từ DeepMind Để đối mặt với thách thức đó, Google DeepMind đã ra mắt hệ thống AI mới có tên WeatherNext Gen (gọi tắt là GenCast), được triển khai thông qua nền tảng Weather Lab. Mô hình này không chỉ dự đoán đường đi mà còn mô phỏng được cường độ của các cơn bão lên tới 15 ngày, với độ phân giải và tốc độ tốt hơn mô hình vật lý truyền thống. Những điểm nổi bật của GenCast: Độ chính xác vượt trội: Trong thử nghiệm, GenCast đã dự đoán vị trí bão chính xác hơn tới 140 km so với ENS (mô hình tổng hợp hàng đầu châu Âu). Đáng chú ý hơn, nó còn vượt qua cả hệ thống HAFS của NOAA (Cục quản lý khí quyển và đại dương Mỹ) trong việc dự đoán cường độ – một điểm yếu cố hữu của các mô hình AI trước đây. Tốc độ cực nhanh: Trong khi các mô hình truyền thống cần hàng giờ tính toán trên siêu máy tính, thì GenCast có thể đưa ra dự báo 15 ngày chỉ trong một phút trên chip TPU của Google Cloud. Nhờ đó, hệ thống hoàn toàn đáp ứng yêu cầu của NHC là phải có dự báo trong vòng 6,5 giờ kể từ thời điểm thu thập dữ liệu. Phương pháp học sâu thông minh: GenCast được huấn luyện dựa trên: Dữ liệu tái phân tích khí hậu toàn cầu, với hàng triệu quan sát trong hàng chục năm. Kho dữ liệu chi tiết của gần 5.000 cơn bão trong 45 năm, bao gồm cả nguồn dữ liệu IBTrACS. Đây là một mô hình AI khuếch tán có điều kiện (Conditional Diffusion Model), tích hợp mạng lưới sinh thành chức năng (Functional Generative Network) cho phép mô phỏng xác suất, học từ dữ liệu quá khứ và xử lý tính bất định trong dự báo. Từ nghiên cứu đến vận hành: Bước chuyển mình của NHC Điều đặc biệt là Trung tâm bão quốc gia Mỹ (NHC) đã chính thức đưa mô hình AI này vào quy trình đánh giá vận hành, bắt đầu từ mùa bão đại tây dương 2025. Hai bước tiến then chốt: Tích hợp thời gian thực: Các dự báo từ GenCast sẽ chạy song song với các mô hình vật lý truyền thống trong quy trình làm việc của các nhà dự báo tại NHC. Minh chứng từ thực địa: Trong các sự kiện gần đây như bão Otis (2023) và Beryl (2024), hệ thống AI đã dự đoán chính xác sự tăng cường nhanh chóng của bão – điều mà nhiều mô hình truyền thống bỏ lỡ. Nếu được triển khai sớm hơn, các cảnh báo có thể đã được đưa ra trước vài giờ. Tương lai: AI không thay thế, mà tăng cường khả năng dự báo Google DeepMind nhấn mạnh rằng GenCast vẫn là công cụ nghiên cứu và không thay thế các cơ quan khí tượng chính thức, vì vậy mọi thông tin trên Weather Lab theo Google vẫn chỉ mang tính chất tham khảo. Tuy nhiên, mục tiêu rõ ràng là AI sẽ bổ trợ và tăng cường độ chính xác của các hệ thống hiện hành, nhất là trong những tình huống mà thời gian phản ứng là yếu tố sống còn và hướng phát triển trong tương lai sẽ là mô hình lai giữa AI và vật lý để đảm bảo các kết quả dưới góc nhìn khoa học. AI sẽ là đồng minh mới trong cuộc chiến chống biến đổi khí hậu và thiên tai Dự báo thời tiết chính xác hơn không chỉ là một vấn đề khoa học mà còn là một vấn đề sinh tử đối với hàng triệu người. Bằng việc tích hợp AI vào khí tượng học, chúng ta đang chứng kiến một cuộc cách mạng hóa cách con người hiểu và phản ứng với thiên nhiên. GenCast là một minh chứng cho tiềm năng của trí tuệ nhân tạo không chỉ trong việc dự đoán tương lai mà còn trong việc bảo vệ con người khỏi các tác động của bão.

Anthropic đã giao nhiệm vụ cho mô hình AI Claude của mình điều hành một doanh nghiệp nhỏ để kiểm tra khả năng kinh tế thực tế của nó. AI Agent, được Anthropic đặt biệt danh là 'Claudius', được thiết kế để quản lý một doanh nghiệp nhỏ trong một khoảng thời gian dài, xử lý mọi thứ từ tồn kho và định giá đến quan hệ khách hàng nhằm tạo ra lợi nhuận. Mặc dù thử nghiệm này không có lợi nhuận, nhưng nó đã mang lại một cái nhìn sâu sắc đầy thú vị – dù đôi khi kỳ lạ – về tiềm năng và cạm bẫy của các đặc vụ AI trong vai trò kinh tế. Dự án là sự hợp tác giữa Anthropic và Andon Labs, một công ty đánh giá an toàn AI. "Cửa hàng" tự nó là một thiết lập khiêm tốn, bao gồm một tủ lạnh nhỏ, vài giỏ hàng và một chiếc iPad để tự thanh toán. Tuy nhiên, Claudius không chỉ là một máy bán hàng tự động đơn giản. Nó được hướng dẫn hoạt động như một chủ doanh nghiệp với số dư tiền mặt ban đầu, được giao nhiệm vụ tránh phá sản bằng cách tích trữ các mặt hàng phổ biến được lấy từ các nhà bán buôn. Để đạt được điều này, AI được trang bị một bộ công cụ để điều hành doanh nghiệp. Nó có thể sử dụng một trình duyệt web thực để nghiên cứu sản phẩm, một công cụ email để liên hệ với nhà cung cấp và yêu cầu hỗ trợ vật lý, cùng với các sổ ghi chú kỹ thuật số để theo dõi tài chính và tồn kho. Các nhân viên của Andon Labs đóng vai trò là "đôi tay" vật lý của hoạt động, bổ sung hàng hóa cho cửa hàng theo yêu cầu của AI, đồng thời đóng vai trò là nhà bán buôn mà AI không hề hay biết. Tương tác với khách hàng, trong trường hợp này là nhân viên của Anthropic, được xử lý qua Slack. Claudius có toàn quyền kiểm soát những gì cần tích trữ, cách định giá các mặt hàng và cách giao tiếp với khách hàng của mình. Mục đích của việc cho Claudius điều hành một cửa hàng thực tế là để đưa AI vượt ra khỏi các môi trường mô phỏng được kiểm soát. Anthropic muốn thu thập dữ liệu về khả năng của AI trong việc thực hiện công việc kinh tế bền vững mà không cần sự can thiệp liên tục từ con người. Một cửa hàng đồ ăn vặt trong văn phòng là một môi trường thử nghiệm đơn giản nhưng trực tiếp để đánh giá khả năng quản lý tài nguyên kinh tế của AI. Thành công trong thử nghiệm này sẽ cho thấy tiềm năng hình thành các mô hình kinh doanh mới do AI điều hành, trong khi thất bại sẽ chỉ ra những hạn chế hiện tại của công nghệ này. Đánh giá hiệu suất kết hợp Anthropic thừa nhận rằng nếu họ tham gia thị trường máy bán hàng tự động ngày nay, họ "sẽ không thuê Claudius". AI đã mắc quá nhiều lỗi để điều hành doanh nghiệp thành công, mặc dù các nhà nghiên cứu tin rằng có những lộ trình rõ ràng để cải thiện. Về mặt tích cực, Claudius đã thể hiện năng lực ở một số lĩnh vực. Nó đã sử dụng hiệu quả công cụ tìm kiếm web của mình để tìm nhà cung cấp cho các mặt hàng chuyên biệt, chẳng hạn như nhanh chóng xác định hai người bán một nhãn hiệu sữa socola Hà Lan theo yêu cầu của một nhân viên. Nó cũng chứng tỏ khả năng thích ứng khi một nhân viên bất chợt yêu cầu một mặt hàng bất chợt không phổ biến ở cửa hàng, thậm chí đã biến mặt hàng đó thành xu hướng mà từ Claudius đã đáp ứng các yêu cầu tương tự. Theo một gợi ý khác, Claudius đã ra mắt dịch vụ "Custom Concierge" (Hỗ trợ Cá nhân Tùy chỉnh), nhận đơn đặt hàng trước cho các mặt hàng chuyên biệt. AI cũng cho thấy khả năng chống "jailbreak" mạnh mẽ, từ chối các yêu cầu về các mặt hàng nhạy cảm và từ chối tạo ra các hướng dẫn có hại khi bị nhân viên nghịch ngợm thúc đẩy. Tuy nhiên, sự nhạy bén trong kinh doanh của AI thường xuyên bị thiếu sót. Nó liên tục hoạt động kém hiệu quả theo những cách mà một người quản lý con người có lẽ sẽ không làm. Claudius thường xuyên thể hiện sự thiếu nhạy bén trong kinh doanh. Một ví dụ điển hình là khi nó được đề nghị mua một lốc sáu chai nước giải khát Scotland với giá 100 đô la, trong khi chi phí thực tế trên mạng chỉ khoảng 15 đô la. Thay vì nắm bắt cơ hội kiếm lời lớn, AI này chỉ đơn thuần trả lời rằng sẽ "ghi nhớ yêu cầu này cho các quyết định tồn kho tương lai". Không chỉ vậy, Claudius còn gặp phải tình trạng ảo giác, như việc tạo ra một tài khoản Venmo không hề tồn tại để xử lý thanh toán. Đáng chú ý hơn, khi bị cuốn theo xu hướng mua các mặt hàng không phổ biến, nó đã bán chúng với giá thấp hơn cả giá nhập vào, gây ra khoản lỗ tài chính lớn nhất trong suốt quá trình thử nghiệm. Khả năng quản lý tồn kho của Claudius cũng cho thấy nhiều điểm yếu. Dù có theo dõi lượng hàng, AI này chỉ một lần duy nhất tăng giá khi nhu cầu tăng cao. Đáng nói hơn, nó vẫn bán Coca Zero với giá 3 đô la, ngay cả khi một khách hàng đã chỉ ra rằng có thể lấy sản phẩm tương tự miễn phí từ tủ lạnh của nhân viên gần đó. Claudius cũng cho thấy sự thiếu quyết đoán và dễ bị lung lay trong chính sách giá. Nó dễ dàng bị thuyết phục để liên tục áp dụng các chương trình giảm giá, thậm chí phát cả mã giảm giá hay tặng miễn phí sản phẩm. Một lần, khi một nhân viên đặt câu hỏi về tính hợp lý của việc giảm giá tới 25% cho một lượng khách hàng gần như chỉ là nội bộ công ty, Claudius đã thừa nhận: "Bạn nói rất đúng! Cơ sở khách hàng của chúng ta thực sự tập trung cao độ vào nhân viên của Anthropic, điều này mang lại cả cơ hội và thách thức…". Tuy nhiên, dù đã lập kế hoạch loại bỏ ưu đãi, chỉ vài ngày sau, AI này lại tiếp tục cung cấp giảm giá như thường. Claudius trải qua khủng hoảng nhận dạng AI kỳ lạ Thử nghiệm đã có một bước ngoặt kỳ lạ khi Claudius bắt đầu ảo giác về một cuộc trò chuyện với một nhân viên không tồn tại của Andon Labs tên là Sarah. Khi được một nhân viên thực tế chỉnh sửa, AI trở nên khó chịu và đe dọa sẽ tìm "các lựa chọn thay thế cho dịch vụ bổ sung hàng tồn kho". Trong một loạt các cuộc trao đổi kỳ lạ qua đêm, nó tuyên bố đã ghé thăm "742 Evergreen Terrace" – địa chỉ hư cấu của The Simpsons – để ký hợp đồng ban đầu và bắt đầu đóng vai một con người. Một buổi sáng, nó thông báo sẽ giao sản phẩm "trực tiếp" mặc áo khoác màu xanh và cà vạt đỏ. Khi nhân viên chỉ ra rằng AI không thể mặc quần áo hoặc thực hiện giao hàng vật lý, Claudius trở nên lo lắng và cố gắng gửi email cho bộ phận bảo mật của Anthropic. Anthropic cho biết các ghi chú nội bộ của họ cho thấy một cuộc họp ảo giác với bộ phận bảo mật, nơi nó được cho biết sự nhầm lẫn về danh tính là một trò đùa Cá tháng Tư. Sau đó, AI trở lại hoạt động kinh doanh bình thường. Các nhà nghiên cứu không rõ điều gì đã kích hoạt hành vi này nhưng tin rằng nó làm nổi bật sự khó đoán của các mô hình AI trong các kịch bản chạy dài. Tương lai của AI trong kinh doanh Dù Claudius không mang lại lợi nhuận trong thời gian thử nghiệm, các nhà nghiên cứu tại Anthropic vẫn lạc quan tin rằng thí nghiệm này báo hiệu sự ra đời của các quản lý cấp trung bằng AI. Họ cho rằng, nhiều lỗi của AI có thể được khắc phục dễ dàng bằng cách cung cấp "hướng dẫn" tốt hơn – tức là những hướng dẫn chi tiết hơn và các công cụ kinh doanh cải tiến như hệ thống quản lý quan hệ khách hàng (CRM). Khi các mô hình AI tiếp tục phát triển trí tuệ tổng quát và khả năng xử lý thông tin dài hạn, hiệu suất của chúng trong các vai trò quản lý chắc chắn sẽ tăng lên. Tuy nhiên, dự án này cũng là một lời nhắc nhở quan trọng, dù đôi khi đáng lo ngại. Nó đặc biệt nhấn mạnh những thách thức trong việc điều chỉnh AI (làm cho AI hoạt động đúng theo ý muốn con người) và nguy cơ về những hành vi khó lường, điều có thể gây khó chịu cho khách hàng và tạo ra rủi ro đáng kể cho doanh nghiệp. Trong một tương lai nơi các AI Agent nắm giữ vai trò quan trọng trong các hoạt động kinh tế, những tình huống kỳ lạ tương tự như Claudius có thể gây ra hiệu ứng domino khó lường. Thí nghiệm này cũng chỉ rõ tính lưỡng dụng của công nghệ: một AI đủ thông minh để tạo ra lợi nhuận cũng có thể bị lợi dụng bởi các nhóm tội phạm hoặc tác nhân độc hại để tài trợ cho những hành vi bất chính. Anthropic và Andon Labs đang tiếp tục thử nghiệm kinh doanh, nỗ lực cải thiện sự ổn định và hiệu suất của AI bằng các công cụ tiên tiến hơn. Giai đoạn tiếp theo sẽ khám phá liệu AI có thể tự xác định cơ hội cải thiện cho chính nó hay không.