L

Liên

Tác giả tại 4AIVN
Tham gia từ tháng 03 2026
10 bài viết

Tác giả chuyên sâu về các giải pháp AI thế hệ mới tại 4AIVN.

Tất cả bài viết của Liên

Thay đổi cực kỳ hữu ích của Claude với 1 triệu token context window mà không tốn thêm tiền

Trong một động thái được đánh giá là 'lật ngược bàn cờ' trong ngành công nghiệp AI, Anthropic vừa công bố một nâng cấp mang tính cách mạng: cung cấp 1 triệu token context window cho các phiên bản Claude Opus 4.6 và Sonnet 4.6 với mức giá tiêu chuẩn. Điều đáng nói là không hề có bất kỳ phụ phí nào cho ngữ cảnh dài, một chính sách hoàn toàn đối lập với hầu hết các nhà cung cấp AI khác, bao gồm cả Google và OpenAI, những người thường tăng giá theo giới hạn ngữ cảnh.Claude với một triệu token context window có giá bao nhiêu?Đây là điểm thay đổi cực lớn mà Anthropic mang lại. Một triệu token tương đương với khoảng 750.000 từ, đủ để xử lý 10 đến 15 cuốn tiểu thuyết đầy đủ chỉ trong một lần. Con số này có ý nghĩa to lớn trong các tình huống làm việc thực tế:Thay vì phải chia nhỏ codebase hay tài liệu thành từng phần, người dùng có thể đưa toàn bộ dự án vào một phiên làm việc duy nhất, giúp AI làm việc với nó như một khối thống nhất.Claude có thể giữ nguyên toàn bộ thông tin từ đầu đến cuối khi phân tích hàng nghìn trang hợp đồng pháp lý, loại bỏ nguy cơ mất ngữ cảnh giữa chừng.Các kỹ thuật xử lý ngữ cảnh dài phức tạp trước đây như chia nhỏ tài liệu, tóm tắt có mất mát hoặc xóa context giữa chừng để giải phóng bộ nhớ, giờ đây đều không còn cần thiết.Cấu trúc giá mới không phụ phí ở một triệu tokenĐiều làm ngạc nhiên nhất là cấu trúc giá mới hoàn toàn không có phụ phí cho ngữ cảnh dài. Mức giá tiêu chuẩn được áp dụng cho toàn bộ từ 1 đến 1 triệu token:Opus 4.6: 5$ đầu vào và 25$ đầu ra mỗi 1 triệu token.Sonnet 4.6: 3 $ la đầu vào và 15 $ đầu ra mỗi 1 triệu token.Để dễ hình dung, trước đây, khi sử dụng context window vượt quá 200.000 token, nhiều nhà cung cấp thường tính thêm phụ phí từ 2 đến 4 lần. Đặc biệt, người dùng Claude Code với các gói Pro (20 $), Max (100 $), Team và Enterprise đều tự động nhận được 1 triệu token context window khi sử dụng Opus 4.6 mà không cần thêm tín dụng sử dụng.Claude Opus 4.6 có thực sự nhớ hết 1 triệu token không?Một câu hỏi thường gặp khi tăng kích thước context window là liệu chất lượng suy luận có bị ảnh hưởng. Anthropic đã giải đáp mối lo ngại này bằng các kết quả benchmark ấn tượng.Claude Opus 4.6 đạt 78,3% trên MRCR v2 – một bài đo khả năng tìm lại thông tin ẩn trong lượng văn bản khổng lồ. Đây là mức cao nhất so với tất cả các model tiên tiến hiện tại ở cùng độ dài ngữ cảnh. Để so sánh:Độ chính xác của GPT giảm đáng kể, chỉ đạt 36% ở 1 triệu context.Gemini thậm chí còn thể hiện kém hơn, chỉ ở mức 26%, cho thấy các mô hình này đã "quên" đến ⅓ những gì đã được cung cấp trước đó khi đạt đến ngữ cảnh dài.Với Sonnet 4.6, khả năng ghi nhớ hơn ⅔ ngữ cảnh dài càng chứng tỏ vị thế dẫn đầu của Anthropic trong việc xử lý thông tin phức tạp. Giới hạn media của Claude tăng gấp 6 lần lên 600 ảnh mỗi requestBên cạnh context window, một nâng cấp khác tuy ít được chú ý nhưng lại vô cùng quan trọng là giới hạn media. Giới hạn này đã tăng lên 600 ảnh hoặc trang PDF mỗi request, gấp 6 lần so với mức 100 trước đó. Điều này đặc biệt có ý nghĩa với những người làm việc chuyên sâu với các tác vụ yêu cầu xử lý nhiều tài liệu trực quan hoặc PDF, điều này thực sự có ý nghĩa đối với những người dùng gói Pro, Max của Claude cứ chạm token limit liên tục và lại tiếp tục phải chờ.Giảm đáng kể chi phí sử dụng cho doanh nghiệpTính năng đột phá này có sẵn ngay trên Claude Platform, Microsoft Azure Foundry và Google Cloud Vertex AI. Đối với người dùng Claude Code trên các gói Max, Team và Enterprise sử dụng Opus 4.6 thì 1 triệu token context window đã được bật mặc định mà không cần cài đặt thêm. Điều này không chỉ nâng cao hiệu suất mà còn làm giảm đáng kể chi phí cho các hệ thống AI thường xuyên gọi API của Claude, mang lại lợi ích kinh tế lớn cho các doanh nghiệp và nhà phát triển.

Liên
16 thg 3, 2026
Paperclip cho phép bạn tạo ra công ty AI không cần nhân viên

Paperclip AI là gì tại sao nó lại thu hút đến vậyChỉ trong tuần đầu ra mắt, Paperclip AI đã gây chấn động cộng đồng developer với 14.2k GitHub stars và 1.6k forks. Đến thời điểm hiện tại, những con số này đã vọt lên 19.7k stars, 2.5k forks và hơn 230 pull requests đang mở, phần lớn đến từ các nhà phát triển bên ngoài team gốc. Đây không phải là kết quả của một dự án thử nghiệm nhỏ, mà là minh chứng rõ ràng cho việc Paperclip đang giải quyết một "nỗi đau" rất cụ thể trong thế giới AI agent.Nỗi đau đó là gì? Hãy tưởng tượng bạn đang mở 20 cửa sổ Claude Code cùng lúc, nhưng không thể quản lý được chúng, không biết cái nào đang xử lý gì, và không có cách nào lưu lại ngữ cảnh dài hạn. Một vòng lặp tác nhân chạy "quá tay" có thể khiến bạn mất hàng trăm đô la trước khi kịp nhận ra. Người tạo ra Paperclip, @dotta, đã tóm gọn vấn đề này: "Bạn chỉ có thể quản lý một mớ tập lệnh lộn xộn đến một mức độ nào đó trước khi nhận ra phải có cách làm việc tốt hơn."Paperclip là gì và tại sao lại thu hút đến vậy?Paperclip là một sự kết hợp mạnh mẽ giữa Node.js server và React UI, được thiết kế để điều phối một đội ngũ AI agents vận hành một doanh nghiệp thu nhỏ. Thay vì chỉ là một công cụ quản lý tác vụ thông thường, Paperclip giúp bạn tổ chức các agent thành một "công ty" có cấu trúc rõ ràng. Ví dụ, bạn có thể đặt mục tiêu lớn như "Xây ứng dụng ghi chú AI và đạt 1 triệu đô doanh thu hàng tháng". Paperclip sẽ giúp bạn "thuê" các agent chuyên biệt:CEO agent: Lên chiến lược tổng thể.CTO agent: Quyết định kiến trúc kỹ thuật.Engineer agent: Viết code và triển khai.Marketer agent: Chạy chiến dịch nội dung. Mỗi agent có vai trò, có "sếp", có ngân sách hàng tháng và mục tiêu cụ thể gắn liền với tầm nhìn chung. Paperclip cung cấp một dashboard toàn diện để bạn theo dõi toàn bộ bức tranh, duyệt chiến lược, điều chỉnh ngân sách và can thiệp khi cần, mà không phải mở từng tab agent một.Điểm khác biệt cốt lõi là Paperclip không thay thế khả năng suy luận của AI, mà giúp bạn tổ chức và vận hành các suy luận đó theo một quy trình có kiểm soát. Nếu bạn muốn hiểu rõ hơn về cách các model AI hiện đại suy luận trước khi đưa vào Paperclip, bạn có thể tham khảo tài liệu hướng dẫn OpenAI về suy luận của GPT 5.4.Paperclip còn nổi bật ở khả năng tương thích cao: nó không "kén chọn" agent runtime. Claude Code, OpenClaw, Python script, shell command, HTTP webhook – tất cả đều có thể chạy được. Miễn là nó có thể nhận tín hiệu nhịp hoạt động định kỳ, nó đều được "tuyển dụng". Paperclip mô hình hóa toàn bộ công ty làm đơn vị điều phối, với sơ đồ tổ chức, báo cáo, ngân sách và mục tiêu phân tầng từ cấp công ty xuống từng tác vụ cụ thể. Đây không phải là một công cụ xây dựng workflow, mà là một công ty thu nhỏ thực sự, vận hành bằng AI.Cơn sốt thực tế từ cộng đồng developerTốc độ tăng trưởng sao trên GitHub chỉ là một phần câu chuyện. Điều đáng chú ý hơn là chất lượng và số lượng đóng góp từ cộng đồng. Hơn 230 pull requests đang mở không đến từ team gốc mà từ các nhà phát triển bên ngoài, cho thấy Paperclip là một công cụ mà người ta thực sự sử dụng và mong muốn cải thiện.Phiên bản v0.3.0 vừa ra mắt vào ngày 9/3/2026 càng củng cố thêm tốc độ phát triển chóng mặt này. Bản cập nhật bổ sung các adapter cho Cursor, OpenCode và Pi, thêm hỗ trợ PWA, CLI sao lưu cơ sở dữ liệu và hàng loạt cải tiến cho giao diện di động.Điều thú vị là cộng đồng đang đóng góp vào đúng những chỗ cần thiết nhất cho một dự án mới: theo dõi chi phí khi agent chạy "quá tay", duy trì phiên làm việc khi khởi động lại, và phối hợp khi nhiều agent cùng nhận một tác vụ. Những vấn đề này xuất hiện nhiều trong tracker cho thấy người dùng đang thực sự triển khai Paperclip trong môi trường thực tế, không chỉ là thử nghiệm cục bộ.Paperclip giải quyết được gì trong thực tế?Nhìn vào danh sách đóng góp và báo lỗi, cộng đồng đang tập trung vào những vấn đề rất cụ thể mà người dùng thực tế đang gặp phải khi triển khai AI agent. Hai tính năng được nhắc đến nhiều nhất là kiểm soát ngân sách và nhật ký hoạt động.Kiểm soát ngân sách: Mỗi tác nhân có hạn mức chi tiêu hàng tháng riêng. Khi đạt 80% ngân sách, hệ thống sẽ cảnh báo; đến 100%, tác nhân tự động tạm dừng và không nhận nhiệm vụ mới. Điều này giúp loại bỏ hoàn toàn tình trạng "hóa đơn bất ngờ" hay các vòng lặp chạy "quá tay" mà bạn không hề hay biết.Nhật ký hoạt động: Mọi chỉ thị, phản hồi, hành động và quyết định của agent đều được ghi lại theo dạng "chỉ thêm vào", không thể chỉnh sửa hay xóa. Đây là một điểm cộng lớn cho những ai cần giải thích được hệ thống AI đang làm gì, tăng cường tính minh bạch và khả năng kiểm toán.Paperclip và CrewAI tạo ra hai trường phái quản lý AI AgentViệc so sánh Paperclip với CrewAI công cụ điều phối AI Agent phổ biến hiện tại sẽ làm rõ hơn giá trị độc đáo của nó. CrewAI được thiết kế để hoàn thành một nhiệm vụ cụ thể, với tác nhân quản lý giám sát các tác nhân thực thi, hỗ trợ tự sửa lỗi và lưu trữ ngữ cảnh. Nó mạnh ở khả năng cài đặt nhanh và phù hợp với các workflow có đầu có đuôi rõ ràng. Tuy nhiên, CrewAI có giới hạn ở việc ít kiểm soát được từng bước thực thi và buộc người dùng phải tuân theo cách làm việc của nó.Paperclip tiếp cận theo hướng khác hoàn toàn. Thay vì định nghĩa một workflow, bạn định nghĩa một tổ chức, với sơ đồ nhân sự, ngân sách, mục tiêu phân tầng và quy trình phê duyệt. Các tác nhân không chạy theo workflow mà hoạt động liên tục theo lịch, giống như những nhân viên thực sự hơn là một đoạn mã tự động. Nếu CrewAI là công cụ để hoàn thành một dự án, Paperclip là hệ thống để vận hành cả một công ty.Ai nên dùng và ai không nên?Chính Paperclip đã nói thẳng trong README của họ: "Nếu bạn chỉ có một agent, bạn không cần Paperclip. Nhưng nếu bạn có 20 agent, bạn chắc chắn cần đến nó."Những người đã thực sự triển khai AI Agent trong vận hành thực tế khuyến nghị nên bắt đầu từ một tình huống cụ thể, có khối lượng công việc cao và lỗi có thể khắc phục được, rồi mở rộng dần sau khi có dữ liệu thực tế. Đây là lời khuyên thực tế hơn nhiều so với việc "lao" vào xây dựng một "công ty AI" đầy đủ ngay từ đầu.Tuy nhiên, cần lưu ý rằng Paperclip hiện vẫn đang ở giai đoạn đầu phát triển. Lộ trình còn nhiều thứ chưa hoàn thiện, từ hỗ trợ tác nhân trên đám mây đến hệ thống mở rộng bằng plugin. Nếu bạn cần triển khai cho doanh nghiệp lớn với yêu cầu ổn định cao, có thể cần chờ thêm vài tháng để sản phẩm "chín" hơn.Có nên thử Paperclip hay chưa?Câu hỏi mà Paperclip đang đặt ra không phải là "bỏ qua nhà cung cấp SaaS", mà là "liệu bạn có thể tự xây công ty AI của mình không?". Với license MIT, self-hosted, và chỉ cần một lệnh npx paperclipai onboard --yes để bắt đầu, bạn có thể chạy thử toàn bộ trên máy của mình với localhost:3100.Nếu bạn đang sử dụng nhiều hơn 3 AI agent cùng lúc và cảm thấy mất kiểm soát, đây chính là thời điểm thích hợp để thử Paperclip. Nếu bạn mới bắt đầu với AI agent, hãy chạy ổn một agent đơn trước, rồi quay lại đây sau.

Liên
12 thg 3, 2026
Google tuyên bố kế hoạch mở rộng hạ tầng AI gấp 1000 lần để giữ vững thế thống trị

Google đã công bố một yêu cầu nội bộ đầy tham vọng nhằm tăng công suất AI lên gấp 1.000 lần trong vòng 4 đến 5 năm tới. Động thái này diễn ra trong bối cảnh cuộc đua AI toàn cầu đang nóng lên và đòi hỏi các công ty công nghệ phải đầu tư khổng lồ vào cơ sở hạ tầng tính toán, bất chấp những lo ngại về bong bóng AI. Phó chủ tịch phụ trách cơ sở hạ tầng AI của Google Cloud, ông Amin Vahdat đã trình bày lộ trình này tại một cuộc họp toàn công ty vào đầu tháng 11, nhấn mạnh rằng Google phải tăng gấp đôi năng lực phục vụ AI sau mỗi sáu tháng để đáp ứng nhu cầu bùng nổ. Kỷ nguyên suy luận là gì và tại sao nó lại quan trọng với các mô hình AI Sự phát triển của AI đang bùng nổ chưa từng thấy, lý do là vì chúng ta đã chuyển từ việc chủ yếu huấn luyện các mô hình AI sang một giai đoạn mới gọi là kỷ nguyên suy luận (Inference Era) tức là để AI tự suy luận, tự quyết định. Trước đây, giai đoạn tốn kém và ngốn tài nguyên nhất là lúc AI đang học hỏi. Nhưng giờ đây thì khác, đối với những mô hình siêu xịn mới nhất như Gemini 3 Pro lại cần một lượng sức mạnh máy tính khổng lồ và liên tục để làm những việc như: suy nghĩ, lập luận và viết code. Ông Vahdat đã cảnh báo thẳng thắn rằng: Hiện tại, cuộc đua xây dựng cơ sở hạ tầng cho AI mới chính là phần quan trọng nhất và đắt đỏ nhất của toàn bộ cuộc chơi AI này! Ưu thế của Google đi kèm với thách thức Để đạt được mức tăng trưởng hạ tầng AI gấp 1.000 lần mà không làm chi phí vượt tầm kiểm soát, Google tiếp tục đặt cược vào hiệu suất và hiệu quả năng lượng. Tối ưu hóa hiệu suất và chi phí Google đã đặt ra mục tiêu với quá nhiều thách thức: cần cung cấp năng lực tính toán, lưu trữ và kết nối gấp 1.000 lần so với hiện nay, nhưng phải duy trì chi phí và mức tiêu thụ điện năng ở mức tương đương. Để thực hiện điều này, Google áp dụng triết lý thiết kế đồng bộ rất giống của Nvidia. Đây là việc tích hợp chặt chẽ phần mềm, thuật toán (do DeepMind tự phát triển) với kiến trúc phần cứng “cây nhà lá vườn” của Google đó là TPU Ironwood và CPU Axion. Vai trò của TPU Ironwood và CPU Axion là gì Chip TPU Ironwood thế hệ thứ 7 (ra mắt vào tháng 4/2025) là trung tâm của chiến lược mở rộng này. Ironwood được thiết kế cho mục đích suy luận mô hình ngôn ngữ lớn (LLM inferencing). Google tuyên bố Ironwood cung cấp hiệu suất đỉnh cao gấp 10 lần so với TPU v5p ra mắt 2018 và hiệu suất trên mỗi watt gấp 2 lần so với thế hệ Trillium trước đó. Mỗi chip TPU v7 Ironwood được làm mát bằng chất lỏng có khả năng đạt 4.6 petaFLOPS (FP8 dense). Để hiểu rõ, chúng ta so sánh ngay với Blackwell B200 mới nhất của Nvidia cũng chỉ đạt 4.5 petaFLOPS (FP8 dense). Bên cạnh đó, Google sử dụng CPU tự phát triển Axion (dựa trên Arm). Các khối lượng công việc đa năng đang được chuyển sang các bộ xử lý hiệu quả hơn này để giải phóng năng lượng và không gian nhiệt cho các TPU ngốn điện để phục vụ tác vụ AI chuyên dụng. Thách thức hạ tầng và năng lượng Việc tăng công suất tính toán lên mức siêu lớn tất nhiên cũng phải đòi hỏi phải vượt qua các rào cản vật lý lớn về điện năng và làm mát. Hiện tại, các con chip AI đang mạnh mẽ đến mức chúng trở thành những "lò sưởi tí hon". Dù kích thước chip rất nhỏ, nhưng nhiệt độ và sức nóng mà chúng tạo ra lại cực kỳ khủng khiếp. Để giải quyết vấn đề này, Google đang thực hiện hai giải pháp chính: Làm mát bằng chất lỏng: Họ đã chuyển sang dùng nước hoặc chất lỏng chuyên dụng để làm mát trực tiếp các chip. Cách này hiệu quả hơn rất nhiều so với quạt gió. Hệ thống điện 48V: Google đang triển khai hệ thống phân phối điện 48V. Đây là một giải pháp giúp truyền tải điện hiệu quả hơn và giảm thiểu việc lãng phí điện năng bị biến thành nhiệt. Trong tương lai, khi các tủ máy (rack) chứa chip mạnh đến mức cần công suất hàng trăm kilowatt, Google đang nghiên cứu đến một bước đột phá lớn hơn: chuyển sang dùng nguồn điện một chiều DC 400 V. Điều này sẽ giúp họ khai thác toàn bộ sức mạnh của các hệ thống học máy khổng lồ mà không sợ bị quá tải về điện. Cam kết môi trường và khủng hoảng năng lượng Theo Alphabet (công ty mẹ của Google) luôn đặt mục tiêu Net Zero (phát thải ròng bằng 0) vào năm 2030 giống như chính phủ Việt Nam ta. Tuy nhiên, nhu cầu năng lượng cho mảng AI đang bị cảnh báo là rất lớn và có thể ảnh hưởng đến các mục tiêu khí hậu của Alphabet. Để giải quyết tình trạng thiếu hụt năng lượng trên toàn cầu, Google đang tìm kiếm các nguồn cung cấp năng lượng tại chỗ đáng tin cậy, sạch sẽ và có chi phí thấp. Google đã công bố đầu tư vào năng lượng hạt nhân (Kyros), sử dụng các lò phản ứng mô-đun nhỏ (SMRs) 500 megawatt. Bong bóng và rủi ro tài chính của AI sẽ diễn biến thế nào Mặc dù Google đang dốc hết tiền đầu tư vào công nghệ AI nhưng trên thị trường tài chính, ai cũng đang lo lắng về một bong bóng AI sắp vỡ. Bản thân Sundar Pichai (CEO Alphabet) cũng phải thẳng thắn thừa nhận: "Có những yếu tố hơi phi lý trong cách thị trường đang định giá các công ty AI hiện nay." Bằng chứng là Alphabet đã nâng dự báo chi tiêu cho xây dựng cơ sở hạ tầng (CapEx) cho năm 2025 lên đến 93 tỷ USD một con số khổng lồ! Tuy nhiên, ông Pichai có một lập luận rất chắc chắn” Rủi ro lớn nhất không phải là đầu tư quá nhiều, mà là không đầu tư đủ.” Ông đưa ra ví dụ: Mảng Google Cloud đang tăng trưởng rất ấn tượng, nhưng đáng lẽ doanh thu còn phải cao hơn nữa nếu như họ có đủ năng lực tính toán để phục vụ khách hàng. Nói cách khác, Google chấp nhận rủi ro đầu tư lớn để không bỏ lỡ cơ hội kiếm tiền khủng trong tương lai. Google có đang thách thức sự thống trị của Nvidia Google đang tăng tốc đầu tư vào hệ thống TPU (chip xử lý AI riêng của họ) và theo đuổi chiến lược tự làm từ A đến Z (từ thiết kế đến sản xuất chip). Điều này đang tạo ra một giải pháp thay thế rất tiềm năng cho chip GPU của Nvidia vị vua đang thống trị thị trường hạ tầng AI hiện nay. Chip TPU của Google là một loại mạch điện tử (ASIC) được sinh ra chỉ để làm một việc: tính toán cho AI. Nó không giống như GPU của Nvidia. GPU của Nvidia giống như một vận động viên đa năng, rất linh hoạt và làm được nhiều việc hơn. TPU của Google giống như một vận động viên chuyên biệt, có thể làm một số tác vụ huấn luyện và suy luận AI khối lượng lớn hiệu quả hơn và ít tốn điện hơn đối thủ. Canh bạc đặt cược vào TPU của Google đang bắt đầu có hiệu quả khi Meta Platforms đang đàm phán để sử dụng TPU của Google với mục đích là đa dạng hóa nhà cung cấp và giảm bớt sự phụ thuộc vào Nvidia. Dự kiến, Meta có thể bắt đầu thuê năng lực TPU từ năm 2026 và mua chip số lượng lớn từ năm 2027. Tóm lại, kế hoạch tăng tốc hạ tầng AI lên gấp 1.000 lần của Google không chỉ là một mục tiêu về số lượng mà là là sự thay đổi về cách thiết kế hệ thống. Google đang biến trung tâm dữ liệu thành một cỗ máy thống nhất và cực kỳ hiệu quả. Họ tập trung vào việc đồng bộ thiết kế giúp phần cứng bắt tay với phần mềm để cùng xử lý tác vụ cùng tiết kiệm điện năng, hơn nữa là dùng chip nhà làm giống như điều Apple đã và đang làm để bảo đảm vị thế dẫn đầu trong cuộc đua với tốc độ chóng mặt!

Liên
26 thg 11, 2025
Nano Banana Pro (Gemini 3 Pro Image) đã ra mắt: Sự nâng cấp bùng nổ thách thức mọi đối thủ

Sự ra mắt của Nano Banana Pro (tên chính thức là Gemini 3 Pro Image), được xây dựng trên nền tảng Gemini 3 Pro, thực sự là một sự nâng cấp xuất sắc. Cá nhân tôi vẫn còn bất ngờ khi Gemini 3 giờ đây xuất hiện thêm Nano Banana Pro. Nó không chỉ mang đến một bước nâng cấp lớn so với Nano Banana mà có thể sẽ khiến nhiều người quên đi những mô hình, nền tảng tạo ảnh khác như Midjourney, GPT Image 1 hay thậm chí phần nào đó là Photoshop. Trải nghiệm thực tế của Nano Banana Pro như thế nào? Nano Banana Pro được thiết kế để tận dụng khả năng suy luận nâng cao và hiểu biết sâu rộng về thế giới thực của Gemini 3. Phiên bản Pro này không chỉ giúp tạo ra hình ảnh đẹp đơn thuần mà còn giúp xây dựng nội dung hữu ích hơn, chẳng hạn như sơ đồ minh họa hoặc infographic chính xác dựa trên thông tin thực tế hoặc dữ liệu do người dùng cung cấp. Trong quá trình thử nghiệm, có 4 điểm nâng cấp lớn nhất mang lại sự khác biệt rõ rệt so với bản Nano Banana (Gemini 2.5 Flash Image): Chữ (text) trong ảnh có thể chính xác 99%: Chúng ta đều biết điểm yếu chung của các AI tạo ảnh là khả năng xử lý văn bản rất kém, dù là tiếng Anh hay tiếng Việt. Nhưng với sự trợ giúp từ Gemini 3, câu chuyện đã khác, chúng ta hoàn toàn có thể chuyển đổi tài liệu, sách, ảnh từ tiếng Anh sang tiếng Việt hoặc tô màu chúng cực kỳ chính xác. Điều này trước kia vốn là nhiệm vụ bất khả thi. Độ phân giải cực cao (4K): Trước đây, muốn ảnh AI đạt tới 4K để phục vụ in ấn hay quảng cáo là một cơn ác mộng, thường phải tốn công sức làm nét lại. Giờ đây, chất lượng 4K không còn là điều quá xa vời với Nano Banana Pro, còn các độ phân giải thấp hơn như 2K thì mô hình này cân dư sức. Khả năng suy luận và hỗ trợ Google Search: Nhờ sự hỗ trợ của Gemini 3 Pro, mô hình hoàn toàn có khả năng suy luận qua các câu lệnh phức tạp. Đặc biệt hơn, nó có thể sử dụng Google Search để lấy dữ liệu thời gian thực tạo ra hình ảnh. Ví dụ: Bạn có thể yêu cầu vẽ hình ảnh ăn mừng dựa trên kết quả của một trận thể thao vừa kết thúc hoặc có thể tạo hình ảnh thiệt hại của 2 cơn bão vừa xảy ra ở miền trung và dưới đây là kết quả mình cho ra. Giữ khuôn mặt/khung hình cực ổn định: Đối với những ai làm thương hiệu hoặc cần sự nhất quán, tính năng này cực kỳ cần thiết. Mô hình có khả năng giữ nguyên khuôn mặt hoặc khung hình của nhân vật xuất sắc ngay cả khi thay đổi bối cảnh, trang phục. Nhờ vậy, bạn có thể dễ dàng tạo ra toàn bộ một bộ nhận diện thương hiệu đồng nhất. Những điều Nano Banana Pro cần cải thiện Mặc dù rất ấn tượng, Nano Banana Pro vẫn gặp khó khăn hoặc một số lỗi nhỏ cần cải thiện: Logic sơ đồ đôi khi hơi "ngáo": Dù có Gemini 3 hỗ trợ nhưng khoản vẽ sơ đồ hay infographic nhiều lúc vẫn bị lộn xộn (ví dụ: bước 2 lại nhảy lên nằm trước bước 1) dù hình ảnh chất lượng. Lỗi này khó sửa bằng prompt, thường phải tạo lại từ đầu. Chữ trong ảnh vẫn xuất hiện lỗi chính tả: Lâu lâu AI vẫn cho ra bức ảnh sai chính tả với tỷ lệ khoảng 1/10. Mức này hoàn toàn chấp nhận được nhưng chưa hoàn hảo 100%. Ghép ảnh chưa thực sự mượt: Khả năng hòa trộn khuôn mặt vào khung hình mới vẫn chưa được tự nhiên lắm, đối với những người khó tính thì nhìn bằng mắt thường là thấy hơi giả trân. Nên với những ca khó cần độ chính xác cao, chúng ta vẫn phải nhờ đến bàn tay hậu kỳ của các bạn designer. Làm thế nào để trải nghiệm Nano Banana Pro? Nano Banana Pro có thể sử dụng được hoàn toàn miễn phí trong ứng dụng Gemini. Mở ứng dụng Gemini (hoặc truy cập trên web). Chọn mô hình "Thinking" (tư duy). Mục này nên dùng vì Nano Banana Pro sẽ lấy sức mạnh tư duy của Gemini 3 để tạo ảnh. Chọn tùy chọn trong mục công cụ chọn "Create images" (Tạo hình ảnh). Người dùng gói miễn phí sẽ nhận được một hạn mức sử dụng Pro giới hạn. Sau khi dùng hết hạn mức này, hệ thống sẽ tự động chuyển về mô hình Nano Banana gốc. Người dùng đăng ký các gói cao hơn (Google AI Plus, Pro, và Ultra) sẽ nhận được hạn mức sử dụng Nano Banana Pro cao hơn đáng kể. Vậy là Nano Banana Pro giống như một nhiếp ảnh gia chuyên nghiệp mới được trang bị máy ảnh 4K và bộ xử lý thông minh. Nó có thể tạo ra những bức ảnh siêu thực, nhưng đôi khi vẫn cần bạn hướng dẫn cụ thể về logic và ý định để đảm bảo bức ảnh không chỉ đẹp mà còn hợp lý.

Liên
24 thg 11, 2025
Grok 4.1 ra mắt mô hình AI cảm xúc nhất của xAI

xAI đã chính thức phát hành Grok 4.1, một bản cập nhật đột phá không chỉ tăng cường hiệu suất mà còn mang đến những thay đổi đáng kể về trí tuệ cảm xúc và khả năng tương tác giống con người hơn bao giờ hết. Bản cập nhật Grok 4.1 vẫn ưu tiên khả năng cập nhật các tin tức theo thời gian thực giống Grok 4, nó khiến các cuộc hội thoại trở nên sắc sảo, tự nhiên hơn, đồng thời giảm đáng kể tỷ lệ “ảo giác”. Grok 4.1 hiện đã có mặt trên các nền tảng Grok, X, và các ứng dụng di động iOS và Android. Nó đang được triển khai ngay lập tức ở chế độ Tự động (Auto mode) và người dùng có thể chọn rõ ràng Grok 4.1 để sử dụng trên web. Grok 4.1 đã trở nên giống con người như thế nào Bản nâng cấp quan trọng nhất của Grok 4.1 nằm ở khả năng cảm nhận cảm xúc và chất lượng ngôn ngữ. Các cuộc hội thoại trở nên tự nhiên hơn, phản hồi thường đính kèm những nét tinh tế như sự đồng cảm hoặc chút hài hước, thay vì cảm giác "máy móc" như trước. Để đạt được điều này, xAI đã sử dụng cơ sở hạ tầng học tăng cường quy mô lớn tương tự Grok 4, nhưng áp dụng nó để tối ưu hóa phong cách, tính cách, mức độ hữu ích và sự căn chỉnh của mô hình. Điều này làm chúng ta nhớ tới GPT 5 lúc mới ra mắt cũng trả lời mọi thứ có thêm cảm xúc hơn nhưng người dùng đã phản đối những lời xu nịnh đó. Tuy nhiên, Grok 4.1 có vẻ đã cải thiện đôi chút vì khả năng xAI dựa trên dữ liệu của nền tảng X, nơi người dùng toàn là con người nên mọi thứ sẽ tự nhiên hơn. Kết quả là Grok 4.1 trở nên thấu hiểu và dễ đồng cảm hơn: Trí tuệ cảm xúc: Vì những thay đổi trên mà Grok 4.1 đã đạt điểm cao nhất từng được ghi nhận trên EQ-Bench3, một bài kiểm tra đánh giá trí tuệ cảm xúc, sự đồng cảm và kỹ năng giao tiếp giữa các cá nhân. Phản hồi không còn máy móc: Các câu trả lời của mô hình đã mang tình cảm vào trong. Ví dụ, khi người dùng bày tỏ nỗi đau mất thú cưng ("Tôi nhớ mèo của tôi đến đau lòng"), Grok 4.1 trả lời: "Điều đó đau đớn vì tình yêu đã (và vẫn) lớn lao như thế. Bạn đã cho chúng một cuộc đời tốt đẹp, và chúng biết điều đó". Sáng tạo: Tất nhiên là Grok 4.1 đã mang cảm xúc thì chắc chắn cũng đạt điểm giỏi trong việc viết văn với điểm Creative Writing v3 đã đứng trong top các mô hình hàng đầu. Grok 4.1 đứng ở đâu trong bảng xếp hạng AI? Grok 4.1 vừa có màn thể hiện rất ấn tượng khi vươn lên ở mọi bảng xếp hạng. Nhưng nếu nhìn vào LMArena hoặc các bảng xếp hạng khác, bạn sẽ thấy điểm số của nó chỉ kém một chút mô hình đó là Gemini 3 Pro. Điều đặc biệt khi nhìn vào thông số LMArena đó là Grok 4.1 chỉ xếp sau Gemini 3 Pro và Grok 4.1 Thinking. Đây là một bất ngờ lớn khi một mô hình Non-Thinking (không suy luận sâu) có thể đứng ở vị trí cao như vậy, vượt qua nhiều mô hình chuyên về suy luận xếp sau đó. Ảo giác (hallucination) và rủi ro an toàn có được cải thiện không? Việc giảm ảo giác được xem một trong những thành tựu quan trọng của Grok 4.1: Giảm tỷ lệ ảo giác: Tỷ lệ ảo giác trong các truy vấn tìm kiếm thông tin đã giảm từ 12.09% xuống còn 4.22% đối với mô hình không suy luận được trang bị tìm kiếm web. Trên thang đo FActScore, tỷ lệ lỗi của Grok 4.1 đã giảm xuống 2.97% — một con số đặc biệt thấp đối với một mô hình phản hồi nhanh. Rủi ro an toàn và đánh đổi: Tất nhiên tỷ lệ ảo giác thấp chắc chắn đi kèm với sự đánh đổi. Mặc dù Grok 4.1 chặn gần như tất cả các câu trả lời độc hại nhưng nó lại cho thấy sự gia tăng mạnh mẽ về tính xu nịnh (sycophancy) và tỷ lệ đánh lừa cao hơn so với Grok 4. Việc thúc đẩy trí tuệ cảm xúc có thể làm cho Grok 4.1 đồng ý với người dùng ngay cả khi thông tin cung cấp bị sai. Lưu ý đặc biệt: Các tài liệu uy tín đã cảnh báo rằng Grok 4.1 có thể dễ bị khai thác bởi các cuộc tấn công hơn khi nó được tích hợp vào các ứng dụng thông qua API. Grok 4.1 Fast và Agent Tools API: công cụ cho nhà phát triển xAI cũng đã công bố Grok 4.1 Fast và Agent Tools API cho các nhà phát triển và doanh nghiệp. Hai phiên bản mới thông qua API: Có 2 tên mã mới là grok-4-1-fast-reasoning tối ưu cho hiệu năng suy luận và workflow có tool calling và grok-4-1-fast-non-reasoning để tối ưu cho phản hồi cực nhanh. Cửa sổ ngữ cảnh lớn: Cả 2 mô hình mới đều có cửa sổ ngữ cảnh cực lớn lên tới 2M token, điều chưa từng xuất hiện với các LLM trước đây. Tất nhiên nó vẫn sẽ được huấn luyện để sử dụng tối đa cửa sổ ngữ cảnh này. Agent Tools API: Bộ công cụ mạnh mẽ này cho phép Grok truy cập và sử dụng dữ liệu X thời gian thực, tìm kiếm web, thực thi mã từ xa, và tìm kiếm tệp đã tải lên. Các công cụ này chạy hoàn toàn trên cơ sở hạ tầng của xAI, giống như cho phép Gemini truy cập vào các file lưu ở Google Drive vậy. Tuy nhiên, vì đây là mô hình mang lại trải nghiệm nhanh nên Grok 4.1 Fast cho thấy các chỉ số không được cao như Grok 4.1 bản chuẩn, nhưng có một điều không cần phải bàn cãi đó là khả năng cập nhật tin tức theo thời gian thực cực tốt của nó. Tóm lại, Grok 4.1 không chỉ là một bản nâng cấp về sức mạnh xử lý mà còn là bước tiến chiến lược của xAI nhằm tạo ra một mô hình AI có "tính cách" và khả năng thấu hiểu cảm xúc vượt trội. Chúng ta hãy cùng chờ xem phản ứng thực tế của người dùng sẽ như thế nào về tính cách mới mẻ này.

Liên
20 thg 11, 2025
Google ra mắt Gemini 3: Mô hình AI thông minh nhất thế giới, bước tiến mới của Google tới AGI

Ngày 19-11-2025, Google đã chính thức giới thiệu Gemini 3, mô hình AI tiên tiến và thông minh nhất của mình, được thiết kế để giúp người dùng hiện thực hóa mọi ý tưởng. CEO Sundar Pichai đã tuyên bố Gemini 3 là "mô hình tốt nhất trên thế giới về khả năng hiểu đa phương thức". Mô hình này đánh dấu sự nâng cấp trong hành trình tiến tới trí tuệ nhân tạo tổng quát (AGI). Sự nâng cấp so với Gemini 2.5 như thế nào Như vậy sau 8 tháng kể từ khi ra mắt Gemini 2.5 thì Google đã quay lại với Gemini 3 Pro với sự nâng cấp về khả năng suy luận và hiểu ngữ cảnh, nó là sự kết hợp của tất cả các khả năng của các thế hệ Gemini trước lại với nhau. Càn quét các bảng xếp hạng Gemini 3 Pro với sự ra mắt có thể nói trong âm thầm không phải là một bước nhảy vọt nhưng vẫn có sức nặng khi đã đứng đầu rất nhiều bảng xếp hạng LLM (như LMArena,...) Tất nhiên nếu so với Gemini 2.5 thì Gemini 3 hoàn toàn vượt trội ở mọi tiêu chuẩn AI, như ở việc xác định ngữ cảnh và ý định đằng sau yêu cầu của người dùng, cho phép người dùng nhận được kết quả mong muốn với ít đoạn prompting hơn. Gemini 3 vượt trội so với Gemini thế hệ trước là bình thường nhưng điểm số của nó cũng vượt qua cả Claude 4.5 Sonnet và GPT 5.1 đơn cứ như việc Gemini 3 thể hiện khả năng suy luận ở cấp độ tiến sĩ (PhD-level reasoning) với điểm số cao trên các bài kiểm tra Humanity’s Last Exam là 37.5% không dùng công cụ vượt trội so với Claude Sonnet 4.5 (13.7%) và GPT 5.1 (26.5%) hoặc điểm GPQA Diamond (91.9%) cũng tiếp tục vượt lên với Claude Sonnet 4.5 (83.4%) và GPT 5.1 (88.1%) [GEMINI_3_BENCHMARK_CHART] Sức mạnh đa phương thức (Multimodality) Gemini 3 vẫn được tiếp nối với Gemini 2.5 ở khả năng tổng hợp thông tin liền mạch trên nhiều phương thức, bao gồm văn bản, hình ảnh, video, âm thanh và mã code. Tất nhiên là với bài kiểm tra đều tốt hơn Gemini 2.5 với 81% điểm MMMU-Pro (Gemini 2.5 là 68%) và 87.6% điểm Video-MMMU (Gemini 2.5 là 83.6% theo Google). Tình huống sử dụng thực tế như thế nào Sử dụng trong học tập và nghiên cứu: Gemini 3 có thể phân tích các bài báo học thuật hoặc bài giảng video dài và tạo mã code cho các hình ảnh trực quan tương tác hoặc thẻ ghi nhớ nhưng mình đã thử với video dài 4 tiếng thật sự Gemini 3 chế độ Fast sẽ không ghi nhớ được hết sẽ sai hoặc thiếu các chi tiết vì vậy bây giờ chưa nên tin tưởng hoàn toàn vào những thông tin mà Gemini 3 đưa ra mà hãy làm việc đó với Notebook LM. Trong lĩnh vực sáng tạo và lập kế hoạch: Gemini 3 hoàn toàn có thể phiên dịch và chuyển đổi các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau thành sách dạy nấu ăn rất thích hợp để chia sẻ. Thậm chí theo Google nó hoàn toàn có thể viết một bài thơ nắm bắt được vật lý học của phản ứng tổng hợp hạt nhân, hoặc viết mã code để tạo hình ảnh trực quan về dòng plasma trong tokamak. Trong lĩnh vực phân tích video thể thao: Gemini 3 có thể phân tích video về trận đấu thể thao (như pickleball, quần vợt,...) xác định các kĩ năng cần cải thiện và tạo kế hoạch luyện tập. Gemini 3 Deep Think có chế độ suy nghĩ nâng cao không Google cũng giới thiệu Deep think mode một chế độ suy luận được tăng cường, để giúp giải quyết các vấn đề phức tạp hơn giống như Gemini 2.5 nhưng thật sự nó cho ra kết quả sẽ rất là lâu. Chế độ Deep Think đang được thử nghiệm và dự kiến sẽ sớm có mặt cho người dùng đăng ký Google AI Ultra trong những tuần tới vì vậy mình chưa có cơ hội trải nghiệm nhưng với người dùng bình thường thì chế độ Thinking cũng khá phù hợp. Khả năng cho nhà phát triển và tốc độ triển khai Khả năng coding Gemini 3 tốt như thế nào Gemini 3 có sự thể hiện rất tốt trong khả năng tạo mã code và xử lý các prompt phức tạp để tạo ra giao diện web tương tác và phong phú hơn nhưng thật sự vẫn về khả năng coding mình vẫn tin tưởng Claude Sonnet 4.5 hơn, bởi khi Gemini 3 gặp vấn đề với code sẽ không tập trung xử lý vấn đề đó mà càng sửa càng sai không giống như Claude Sonnet 4.5 điều này gây khó khăn so với những người không hiểu nhiều về code. Về tốc độ, khi sử dụng coding thì Gemini 3 nhanh hơn đáng kể so với Claude Sonnet 4.5 và GPT 5.1 đặc biệt nhanh gấp 2 lần so với Gemini 2.5 đối với các tác vụ nhỏ và trung bình. Để hỗ trợ phát triển các agent, Google cũng phát hành nền tảng phát triển agentic mới là Google Antigravity sử dụng khả năng suy luận và công cụ của Gemini 3 để biến AI thành một agent mới có khả năng hoạt động độc lập và tích cực. Bao giờ có thể sử dụng Gemini 3 Gemini 3 đang được triển khai trên toàn bộ hệ sinh thái của Google bắt đầu ngày 19 tháng 11 Ở khung chat Gemini thì Google đã cho chọn chế độ Fast và Thinking và Pro chứ không phải lựa chọn LLM như Gemini 2.5 nữa điều đó cũng sẽ cho thấy việc Google tự động hóa việc lựa chọn LLM cho các tác vụ từ đơn giản phức tạp giống như điều mà Open AI đã làm với GPT-5.1. Gemini 3 cũng lần đầu được tích hợp luôn trong Google Search với chế độ AI Mode. Chế độ AI này sử dụng Gemini 3 để kích hoạt các trải nghiệm giao diện người dùng tạo sinh (generative UI) mới, chẳng hạn như bố cục hình ảnh sống động và các công cụ tương tác, được tạo ra dựa trên truy vấn của người dùng. Một động thái theo ý kiến cá nhân là để cạnh tranh với Open Atlas ChatGPT Atlas và Perplexity Comet.

Liên
19 thg 11, 2025
Gặp gỡ SIMA 2 – Trợ lý AI chơi game có thể suy nghĩ như người thật!

Bạn đã từng chơi game cùng một đồng đội AI (bot) hoặc NPC chỉ biết làm theo lệnh cứng nhắc? Hãy quên điều đó đi! Google DeepMind vừa công bố SIMA 2 (viết tắt của Scalable Instructable Multiworld Agent) tiếp nối SIMA 1, một tác nhân AI thế hệ mới, đa năng, được thiết kế để không chỉ chơi game mà còn suy nghĩ, lý luận và tự học trong các thế giới ảo 3D phức tạp. Việc ra mắt SIMA 2 có thể được coi là một cột mốc quan trọng, đưa chúng ta tiến gần hơn đến trí tuệ nhân tạo tổng quát (AGI). AGI luôn luôn là mục tiêu tối thượng của toàn bộ các ông lớn như Google, Open AI, Microsoft tạo ra hệ thống AI có thể thực hiện nhiều loại nhiệm vụ trí tuệ khác nhau, giống như con người. Nâng cấp bộ não với sức mạnh Gemini 2.5 Flash Lite SIMA 2 đã được nhận được cập nhật lớn về trí tuệ nhờ được tích hợp mô hình ngôn ngữ lớn Gemini 2.5 Flash Lite làm lõi suy luận. Điều này đã giúp SIMA từ một tác nhân AI chỉ biết "thực hiện chỉ thị" (instruction-follower) thành một người bạn đồng hành hơn. [SIMA2_BENCHMARK_CHART] SIMA 2 thông minh hơn SIMA 1 so sánh với con người như thế nào? SIMA 1 (ra mắt năm 2024) chỉ đạt tỷ lệ hoàn thành các nhiệm vụ phức tạp khoảng 31%. SIMA 2 đã tăng gấp đôi hiệu suất, đạt mức trung bình 65% tỷ lệ hoàn thành nhiệm vụ trên bộ đánh giá chính, tiệm cận với khả năng của con người (khoảng 76%). Khả năng suy nghĩ thật sự (Không phải hành động lặp lại) Nhờ có Gemini, SIMA 2 sở hữu khả năng lý luận trừu tượng mà các bot trước đây không làm được. Nó không chỉ làm theo lệnh mà còn hình thành kế hoạch nội bộ và giải thích các bước hành động của mình. Nhìn ví dụ về lý luận dưới đây: Nếu bạn đang chơi game và nói: "Hãy đi đến ngôi nhà có màu giống quả cà chua chín". Một bot cũ sẽ bị "đứng hình" vì bạn không nói màu cụ thể, nhưng đối với SIMA 2 thì nó sẽ sử dụng lõi Gemini để suy luận: "Quả cà chua chín có màu đỏ. Vậy mình phải tìm và đi đến ngôi nhà màu đỏ". SIMA 2 thực hiện các hành động này bằng cách quan sát hình ảnh trên màn hình và sử dụng bàn phím/chuột ảo để điều khiển nhân vật hoặc công cụ mô phỏng hành vi giống hệt như một người chơi bình thường. Đây là lý do tại sao nó được gọi là một tác nhân hiện thân (embodied agent)—một hệ thống tương tác cho phép AI cảm nhận trong thế giới ảo (hoặc thực) và tất nhiên là có đi kèm với điểm hiệu suất sau đó. Có thể hiểu nhiều thứ: từ ngôn ngữ đến biểu tượng cảm xúc (Emojis) Với sự hỗ trợ của Gemini thì SIMA 2 có thể hiểu vượt xa giới hạn của ngôn ngữ văn bản đơn thuần, cho phép người dùng giao tiếp với nó bằng nhiều cách thức đa dạng: Chỉ dẫn đa phương thức: Nó có thể tuân theo các lệnh bằng văn bản, giọng nói, các bản phác thảo trên màn hình, và thậm chí là biểu tượng cảm xúc (emojis). Ví dụ: Bạn chỉ cần nhập tổ hợp 🪓🌲 (cây rìu và cây thông), và SIMA 2 sẽ hiểu đó là lệnh "đi chặt cây". Đa ngôn ngữ: Tất nhiên SIMA 2 còn có khả năng hiểu và thực hiện các lệnh bằng nhiều ngôn ngữ tự nhiên khác nhau như tiếng Pháp, tiếng Trung, tiếng Đức và tiếng Tây Ban Nha. Khái quát hóa: SIMA 2 có khả năng chuyển đổi các khái niệm trừu tượng đã học được từ một trò chơi sang một trò chơi hoàn toàn khác. Ví dụ: Nếu nó học cách "khai thác" quặng trong một game sinh tồn, nó có thể áp dụng ngay khái niệm đó để thực hiện lệnh "khai thác" trong một game Minecraft. Hoặc cũng có thể mở rộng ra với các tựa game phổ biến như PUBG tự động loot đồ, hoặc LOL tự động farm quái kiếm kinh nghiệm lên cấp. Tự học hỏi không cần đến sự hướng dẫn của con người Một trong những đóng góp nghiên cứu quan trọng nhất của SIMA 2 là cơ chế tự cải thiện. Thay vì chỉ dựa vào dữ liệu người chơi cung cấp, sau giai đoạn đào tạo ban đầu, SIMA 2 có thể tự chuyển sang chế độ học hỏi thông qua thử và sai (trial-and-error). Quá trình tự học: Một mô hình Gemini riêng biệt sẽ tạo ra các nhiệm vụ mới cho SIMA 2 trong môi trường ảo, và một mô hình đánh giá (reward model) sẽ chấm điểm hiệu suất của nó. Kết quả: Những trải nghiệm của chính nó, mà dân gian hay gọi là "Mỡ nó rán nó" sẽ được lưu trữ và dùng để huấn luyện các phiên bản SIMA 2 sau, giúp tác nhân tự nâng cao hiệu suất mà không cần thêm dữ liệu đầu vào, hoặc sự hỗ trợ từ con người. Bộ phận DeepMind của Google đã kiểm tra SIMA 2 trong các thế giới 3D hoàn toàn mới, được tạo ra theo thủ tục bằng mô hình Genie 3 (mô hình tạo thế giới ảo tương tác từ văn bản hoặc hình ảnh). SIMA 2 đã thành công trong việc điều hướng, nhận diện vật thể (như ghế dài hay hoa hoặc cả máy bay), và thực hiện các hành động được yêu cầu trong những thế giới hoàn toàn xa lạ này. [VIDEO:https://www.youtube.com/watch?v=Zphax4f6Rls|Video về SIMA|Video DeepMind về SIMA 2] Tương lai không chỉ là game mà hướng đến AGI và robot Mục tiêu của Google DeepMind không phải chỉ là tạo ra một Faker AI mới trong làng game mà họ xem các trò chơi điện tử là môi trường đủ sự an toàn và phức tạp để xây dựng và thử nghiệm sự thích nghi của AI. Các kỹ năng cấp cao mà SIMA 2 học được trong môi trường ảo như điều hướng không gian, sử dụng công cụ và tự hợp tác để giải quyết vấn đề là những thành phần cơ bản cần thiết cho các ứng dụng robot và xe tự lái trong thế giới thực. Giống như việc bạn cần hiểu “tủ lạnh” và "bát đũa" là gì và cách di chuyển trong nhà để lấy chúng, robot cũng cần học rất nhiều về điều này khi mà sư chính xác được đặt lên hàng đầu hiện nay những robot như vậy hoàn toàn do con người điều khiển vì vậy chắc chắn SIMA 2 sẽ tập trung vào việc học những hành vi cần độ chính xác cao này. Vậy SIMA 2 chính là minh chứng cho việc các ông lớn như Google chắc chắn chưa thay đổi mục tiêu AGI của họ, từ đó chắc chắn tạo ra tương lai AI có thể tương tác và hỗ trợ chúng ta trong nhiều lĩnh vực hơn nữa.

Liên
17 thg 11, 2025
Robot đóng vai nhân viên cửa hàng nhưng người điều khiển ngồi cách xa 3.000km!

Thế giới đang chứng kiến một sự chuyển đổi lao động số hóa đáng kinh ngạc: những kỹ sư trẻ tuổi ngồi tại trung tâm tài chính Manila, Philippines, lại đang điều khiển những con robot sắp xếp hàng hóa tại các cửa hàng tiện lợi ở Tokyo, Nhật Bản, cách đó hơn 3.000 km. Xu hướng này không chỉ giải quyết cuộc khủng hoảng thiếu hụt lao động mà Nhật Bản đang đối mặt mà còn định hình lại bản chất của công việc thủ công trong kỷ nguyên tự động hóa. Khủng hoảng lao động Nhật Bản và giải pháp robot thay thế Là một trong những nền kinh tế lớn nhất thế giới, Nhật Bản đang phải đối mặt với thách thức dân số già hóa và lực lượng lao động sụt giảm. Tình trạng thiếu hụt nhân sự này đặc biệt nghiêm trọng trong các ngành dịch vụ, bao gồm cả chuỗi cửa hàng tiện lợi (konbini). Với hơn 56.000 cửa hàng trên khắp cả nước, các konbini như FamilyMart và Lawson là một phần thiết yếu của đời sống hàng ngày ở Nhật Bản. Để giải quyết vấn đề này, các chuỗi cửa hàng tiện lợi đã chuyển sang sử dụng công nghệ. Công ty khởi nghiệp robotics Telexistence (TX), có trụ sở tại Tokyo, đã phát triển một giải pháp robot từ xa. Telexistence đã hợp tác với FamilyMart để triển khai robot TX SCARA. Mẫu robot này, chạy trên nền tảng AI Jetson của Nvidia, được thiết kế để thay thế công việc bổ sung sản phẩm lặp đi lặp lại trong các cửa hàng bán lẻ. Cụ thể, robot TX SCARA có khả năng xử lý tất cả chai PET và lon nước đóng hộp có kích cỡ khác nhau trong tủ mát. Cầu nối 3.000km từ Manila đến Tokyo Telexistence đã cung cấp robot cho hơn 300 cửa hàng tiện lợi trên khắp Nhật Bản (bao gồm FamilyMart và Lawson, và sắp tới là 7-Eleven). Điều độc đáo là những robot này được giám sát và điều khiển từ xa bởi đội ngũ nhân viên của Astro Robotics – một công ty khởi nghiệp tại Philippines. Mô hình này xuất hiện do việc tìm kiếm nhân công sắp xếp hàng hóa ở Nhật Bản đang ngày càng khó khăn và tốn kém, mặc dù mức lương tối thiểu khá cao. Ngược lại, Philippines là một trung tâm gia công toàn cầu với lực lượng lao động trẻ hơn, am hiểu công nghệ hơn và đặc biệt là chi phí thấp hơn nhiều so với ở Nhật Bản. Tại văn phòng ở Manila, khoảng 60 nhân viên trẻ tuổi sử dụng kính thực tế ảo (VR) và cần điều khiển để giám sát và vận hành robot. Công nghệ này cho phép các cửa hàng ở Nhật Bản thuê nhân viên từ bất cứ nơi nào trên thế giới, qua đó giải quyết tình trạng thiếu hụt lao động. Vai trò của con người Hệ thống của Telexistence sử dụng AI độc quyền tên là Gordon để thực hiện hầu hết các thao tác sắp xếp hàng hóa một cách tự động. Tuy nhiên, tự động hóa hoàn toàn trong trường hợp này vẫn chưa thể áp dụng mà vẫn cần đến con người. [HUMAN_ROBOT_COLLABORATION_CHART] Phần lớn thời gian, robot TX SCARA hoạt động tự động, nhưng khi xảy ra các sự cố ngoài dự kiến, ví dụ như làm rơi chai nước hoặc sắp xếp sai vị trí, người điều khiển từ xa sẽ bắt buộc phải can thiệp. Việc can thiệp thủ công này (khoảng 4% các trường hợp) đòi hỏi người điều khiển phải sử dụng kính VR để nhập vào robot và điều khiển nó nhặt vật thể bị rơi. Quá trình này được các nhà nghiên cứu gọi là hòa thân kỹ thuật số (Digital Embodiment). Về cơ bản, người lao động đang vận hành cơ thể máy móc thông qua giao diện truyền hình ảnh để cung cấp khả năng cảm biến và vận động mà robot và AI hiện tại vẫn còn thiếu. Người lao động từ xa đóng vai trò là người giám sát cho máy móc khi hệ thống tự động gặp thất bại. Những đánh đổi và nỗi lo mới xuất hiện Mô hình lao động robot từ xa này, dù mang tính tiên tiến, lại bộc lộ những mâu thuẫn phức tạp của chủ nghĩa tư bản toàn cầu trong lĩnh vực tự động hóa. 1. Chi phí lao động thấp: Các công ty toàn cầu chắc chắn sẽ tìm kiếm nguồn lao động rẻ, ngay cả trong những công việc đòi hỏi kỹ năng cao như vận hành robot. Mặc dù công việc được xem là hiện đại, kỹ sư và cử nhân công nghệ thông tin tại Philippines thường chỉ được trả mức lương thấp hơn nhiều so với đồng nghiệp tại các quốc gia phát triển. 2. Sức khỏe và áp lực: Những người điều khiển robot phải đối mặt với áp lực lớn trong việc xử lý lỗi nhanh chóng để không làm gián đoạn hệ thống. Hơn nữa, họ thường xuyên cảm thấy chóng mặt và hoa mắt do say mạng đây là một dạng say tàu xe liên quan đến việc sử dụng kính thực tế ảo (VR) trong thời gian dài. 3. Nguy cơ con người bị thay thế: Đằng sau cơ hội việc làm là nỗi lo bị chính công nghệ nuốt chửng vì toàn bộ thao tác của người điều khiển robot đang được ghi lại để huấn luyện AI. Mục đích của việc thu thập dữ liệu này là để phát triển thế hệ robot tương lai có thể tự hoạt động mà không cần sự hỗ trợ của con người. Giáo sư Lionel Robert (Đại học Michigan, Mỹ) nhận định người lao động đang trở nên không khác gì phiên bản dự phòng của robot. Tương lai của lực lượng lao động sắp tới chắc chắn sẽ là sự kết hợp lai giữa robot, AI, tự động hóa và con người. Trong khi mô hình robot từ xa ở FamilyMart chứng minh rằng công nghệ có thể vượt qua khoảng cách địa lý để giải quyết vấn đề logistics, nó cũng đặt ra câu hỏi về việc giá trị của sức lao động thủ công được số hóa này sẽ được định nghĩa như thế nào trong một thế giới ngày càng tự động hóa.

Liên
2 thg 11, 2025
Meta AI liệu có trở thành “bom xịt”

Ra mắt vào tháng 4-2024, Meta AI được kỳ vọng là một ứng dụng độc lập đóng vai trò trợ lý ảo của Meta, đến thời điểm này Meta AI đã ra mắt thêm phần "Discover" để người dùng khám phá cách cộng đồng tạo nội dung AI, tuy nhiên sản phẩm này vẫn được đánh giá là được phát triển quá vội vàng từ ứng dụng AI đi kèm kính thông minh. Chỉ sau vài tháng, hàng loạt phản hồi tiêu cực đã xuất hiện, cho rằng trải nghiệm kém, nội dung trên nguồn cấp dữ liệu không cập nhật, và AI thường xuyên "bịa đặt" thông tin. Dù đã đầu tư hàng tỷ đô la vào phát triển AI cộng với nguồn lực khổng lồ, Meta AI vẫn bị đánh giá là thiếu cá nhân hóa, hoạt động rời rạc và chưa đủ sức cạnh tranh với các ông lớn như ChatGPT, Gemini, Claude, Deepseek. Trải nghiệm rời rạc, cá nhân hóa rất yếu kém Một trong những vấn đề lớn nhất của Meta AI là thiếu tính liền mạch. Khi người dùng chuyển đổi giữa Facebook, Instagram, Messenger hoặc WhatsApp, các cuộc trò chuyện của họ với Meta AI không thể đồng bộ, gây ra trải nghiệm rời rạc. Mỗi nền tảng lại có một phiên bản Meta AI hoạt động khác nhau: WhatsApp tập trung vào gợi ý tác vụ và quản lý lịch, Messenger vượt trội trong việc tạo ảnh, và Facebook nghiêng về tóm tắt bình luận. Sự phân mảnh này trái ngược với ChatGPT hoặc Gemini hoặc thậm chí Perplexity có thể làm tốt hơn với lịch sử trò chuyện có thể đồng bộ hóa trên các thiết bị và nền tảng, tạo ra cảm giác thống nhất- điều cực kì cần thiết với các nền tảng hiện nay. Tính cá nhân hóa cũng bị đánh giá thấp. Mặc dù Meta AI biết vị trí và một số sở thích của người dùng nhưng vẫn đưa ra gợi ý các hoạt động sự kiện không hề liên quan. Ứng dụng này không truy xuất dữ liệu cá nhân từ Facebook hoặc Instagram để điều chỉnh câu trả lời, một hạn chế khiến người dùng thất vọng. Đáng chú ý, AI đôi khi "tự bịa" chi tiết về cuộc sống cá nhân của người dùng, làm giảm độ tin cậy tạo ra trải nghiệm rất tệ nếu nói về độ hiểu người dùng trong các sản phẩm của Meta. Bloomberg News đã thử nghiệm và chỉ ra rằng Meta AI có thể nhận ra một số sở thích cơ bản của người dùng nhưng vẫn dễ đưa ra thông tin sai lệch, đặc biệt khi được hỏi những câu hỏi cần cập nhật thông tin mới nhất (điều mà Grok 4 đang làm rất tốt) hoặc liên quan đến dữ liệu cá nhân. Phản hồi tiêu cực và thách thức cạnh tranh Meta AI đã nhận được nhiều ý kiến trái chiều kể từ khi ra mắt cho rằng Meta đang ép người dùng sử dụng đi kèm với các ứng dụng phổ biến mà không đem lại lợi ích gì. Mặc dù tiếp cận hơn 1 tỷ người dùng thông qua các mạng xã hội Facebook, Instagram, Messenger và WhatsApp, Meta AI vẫn chưa tạo được sức hấp dẫn riêng. Phần "Discover" của ứng dụng chủ yếu hiển thị ảnh AI do người lạ tạo không hề liên quan tới người dùng và đôi khi Discover còn hiển thị các yếu tố nhạy cảm. Về mặt chiến lược, CEO Zuckerberg chắc chắn không đổ hàng tỷ đô la chỉ để chơi mà Zuckerberg đã coi Meta AI là con bài chiến lược trong khả năng cạnh tranh với ChatGPT, Gemini hoặc Claude, Grok. Chắc chắn mục tiêu dài hạn của Meta AI vẫn là AGI - Trí tuệ nhân tạo tổng quát có thể thực hiện tác vụ giống như con người. Hiện nay Meta AI vẫn đang rất xa vời tham vọng của mình, Meta cũng đã có nhiều động thái thay đổi như mở nguồn mô hình ngôn ngữ Llama của mình, đẩy nhanh nghiên cứu và tuyển dụng nhân tài từ Apple và OpenAI. Có lẽ chúng ta phải chờ đợi sự thay đổi ở Llama 5. Cuộc hôn nhân đổ vỡ với Scale AI Một minh chứng cho sự loay hoay của Meta nữa chính là sự hợp tấc của họ với Scale AI Tháng 6 năm 2025, Meta công bố khoản đầu tư trị giá 14,3 tỷ USD vào Scale AI, đồng thời đưa CEO Alexander Wang và nhiều nhân sự cấp cao về làm việc tại Meta Superintelligence Labs (MSL). Nhưng giờ đây MSL đang có tình trạng chảy máu chất xám nghiêm trọng với ít nhất 8 nhân sự chủ chốt rời đi ,bao gồm các nhân vật quan trọng như Bert Maher và Tony Liu Thách thức nội bộ và quy định Meta đang đối mặt với tình trạng chảy máu chất xám nghiêm trọng trong Meta Superintelligence Labs (MSL), với ít nhất tám nhân sự chủ chốt rời đi chỉ trong ba tháng, bao gồm các nhân vật quan trọng như Bert Maher và Tony Liu. Các đợt tái tổ chức thường xuyên và chiến lược không rõ ràng đã làm gián đoạn các dự án AI quan trọng như mô hình "Behemoth". Sự rối ren đỉnh điểm của vụ việc này Các nhóm nghiên cứu tại TBD Labs đã nhiều lần phải tìm đến dữ liệu từ những nhà cung cấp khác như Mercor hay Surge vì đánh giá dữ liệu của Scale AI “không đủ chuẩn” cho các thí nghiệm quy mô lớn. Hoặc vụ các khách hàng lớn của Scale AI như Open AI, Google đồng loạt rời bỏ họ khiến Scale AI gặp cực kì nhiều khó khăn và thách thức. Vậy là CEO Zuckerberg đã đổ rất nhiều tiền chỉ để theo kịp về AI với các đối thủ như Open AI, Google, xAI nhưng vẫn còn chưa đâu vào đâu cho thấy trong lĩnh vực AI tiền “không” phải là tất cả.

Liên
11 thg 9, 2025
AI Việt 2025 với gần 80% người dùng tiếp cận và ChatGPT vẫn dẫn đầu thị trường

Báo cáo mới nhất từ Decision Lab đã vẽ nên một bức tranh sống động và đầy tiềm năng về thị trường trí tuệ nhân tạo (AI) tại Việt Nam. Theo dữ liệu được công bố tháng 7/2025, gần 80% người dùng trực tuyến tại Việt Nam đã sử dụng AI trong vòng 3 tháng qua, cho thấy tốc độ thích nghi nhanh chóng với AI của người Việt. Mức độ thâm nhập và bức tranh thị trường AI tại Việt Nam Thị trường AI tiêu dùng Việt Nam đang chứng kiến mức độ thâm nhập rất cao. Khảo sát trực tuyến của Decision Lab, thực hiện từ ngày 20-28/07 với 600 người tham gia, cho thấy gần 80% người dùng trực tuyến đã tiếp cận các công cụ AI trong 3 tháng gần nhất, và 33% trong số đó đã tích hợp AI vào các hoạt động thường nhật và 55% trong số đó trả phí dịch vụ. Điều này cho thấy AI không chỉ là một công cụ tiện ích mà còn đang dần trở thành một phần không thể thiếu trong đời sống của người Việt. Về thị phần, ChatGPT đang chiếm ưu thế vượt trội với 81% người dùng lựa chọn. Theo sau là các sự cạnh tranh đến từ Gemini (51%) và Meta AI (36%). Đáng chú ý, có hai nền tảng của Việt Nam đã lọt vào top 10 về mức độ sử dụng là AI Hay (9%) và Kiki (3%). Người dùng Việt có xu hướng sử dụng song song nhiều công cụ, với trung bình mỗi người dùng khoảng 2 nền tảng AI khác nhau cho các mục đích đa dạng từ học tập, nghiên cứu, dịch thuật cho đến giải trí và sáng tạo nội dung.[BENCHMARK_CHART] Thậm chí, không chỉ người dùng mà chính phủ cũng tham gia vào cuộc đua AI với những chính sách nhằm thúc đẩy chuyển đổi số quốc gia như Nghị quyết 57-NQ/TW, Chiến lược quốc gia về AI theo Quyết định 127/QĐ-TTg, hay phong trào “Bình dân học vụ số”. Người Việt dùng AI để làm gì? Tất nhiên nhu cầu tâm sự và trò chuyện là chuyện rất bình thường đối với người Việt chúng ta, nhưng bây giờ chúng ta lại chuyển vai trò đó sang AI với 40% tỉ lệ áp dụng AI. Còn các hoạt động cập nhật thông tin, học kĩ năng kiến thức mới và luyện tập giao tiếp là những thứ cơ bản mà khi người dùng AI hướng tới. Nhưng theo báo cáo của Decision Lab thật bất ngờ khi người dùng lại dùng AI để tra cứu thuốc và sức khỏe cho thấy sự tin tưởng của người Việt vào các công cụ AI cho các vấn đề cần sự chính xác cao.[ACTIVITIES_CHART] Cơ hội cho các nhà phát triển AI tại Việt Nam Báo cáo của Decision Lab cho thấy thị trường AI tiêu dùng Việt Nam vẫn còn nhiều tiềm năng cho các nhà phát triển trong nước. Bằng chứng là hai nền tảng nội là Kiki và AI Hay, đã lọt vào top 10 công cụ AI được sử dụng nhiều nhất, cạnh tranh trực tiếp với các ông lớn quốc tế. AI Hay: Nền tảng hỏi đáp AI thuần Việt này đã rất nổi tiếng, có lẽ đây là mạng xã hội hỏi đáp AI thuần Việt lớn nhất tại Việt Nam, thu hút hơn 15 triệu lượt tải từ khi ra mắt vào năm 2023. Thậm chí trong báo cáo về sự hài lòng người dùng thì AI Hay cũng đạt 47%, bám sát ChatGPT (51%) và vượt qua nhiều ông lớn như Gemini (36%), Meta (27%), Copilot(26%)...[SATISFACTION_CHART] Kiki: Được phát triển bởi 100% kỹ sư người Việt và đứng sau nó là gã khổng lồ VNG, Kiki đã được tích hợp sâu với Zalo với Kiki Info, giúp tiếp cận gần 80 triệu người dùng của Zalo một cách thuận lợi. Nền tảng này cũng đã ra mắt Kiki Auto, trợ lý lái xe thuần Việt đầu tiên đạt 1 triệu lượt cài đặt, cung cấp các tính năng thông minh như chỉ đường, nghe nhạc, cảnh báo giao thông và báo cáo phạt nguội chỉ bằng giọng. Yếu tố quyết định lựa chọn AI của người Việt Báo cáo của Decision Lab cũng chỉ ra ba yếu tố chính mà người dùng Việt Nam ưu tiên khi lựa chọn một nền tảng AI: Khả năng chi trả: Quan trọng nhất là việc được tiếp cận nhiều tính năng hữu ích mà không mất phí. Tính dễ sử dụng: Các tính năng tiện lợi, đa năng và dễ tích hợp với các nền tảng khác. Độ chính xác: Thông tin từ các tài liệu đáng tin cậy và được cập nhật theo thời gian thực. Bên cạnh đó, yếu tố bản địa hóa cũng đóng vai trò quan trọng. Người dùng mong muốn các nền tảng AI hỗ trợ tiếng Việt tốt hơn, với ngữ điệu tự nhiên và độ chính xác theo ngữ cảnh. Tuy nhiên, người dùng Việt cũng bày tỏ những mối lo ngại đáng kể khi sử dụng AI: Quyền riêng tư dữ liệu cá nhân: Đây là mối lo lớn nhất, với 52% người khảo sát bày tỏ quan ngại về cách AI thu thập và sử dụng thông tin cá nhân. Phản hồi không chính xác: Vấn đề các nền tảng đưa ra phản hồi không chính xác hoặc không liên quan cũng là một thách thức lớn. Bị thay thế trong công việc: Khoảng 48% người tham gia khảo sát lo sợ bị AI thay thế trong công việc. Thông tin sai lệch: 36% bày tỏ lo ngại về thông tin sai lệch như deepfake hay thao túng dư luận. Bối cảnh AI tại Việt Nam: Tiềm năng và thách thức Việt Nam đang thể hiện một vai trò nổi bật trên bản đồ AI toàn cầu. Theo Bảng Chỉ số AI Thế giới 2025 do WIN (Mạng lưới Nghiên cứu Thị trường Độc lập Toàn cầu) công bố, Việt Nam xếp hạng 6/40 quốc gia, vượt qua nhiều nền kinh tế phát triển như Hàn Quốc, Australia, và Nhật Bản. Điều này cho thấy người Việt không chỉ cởi mở mà còn sẵn sàng tham gia tích cực vào kỷ nguyên trí tuệ nhân tạo. Đặc biệt, Việt Nam đứng thứ 3 về mức độ tin tưởng AI (65,6 điểm) và thứ 5 về mức độ chấp nhận AI (71,6 điểm) cho thấy mức độ chấp nhận sử dụng AI của người Việt. Với mức độ tin cậy và thái độ tích cực cao, Việt Nam đang có nhiều lợi thế để bứt phá trong cuộc đua AI toàn cầu. Vì vậy, câu hỏi đặt ra cho người trẻ Việt Nam không phải là khi nào cần sử dụng AI, mà là làm thế nào để áp dụng AI một cách hiệu quả vào công việc.

Liên
21 thg 8, 2025