Sora 2 của OpenAI gây ấn tượng mạnh ở khả năng tái tạo môi trường: bóng, phản chiếu và chuyển động nước đều xử lý hợp lý. Tuy nhiên khi liên quan đến tương tác phức tạp của con người hoặc vũ khí, mô hình vẫn tỏ ra thiếu ổn định và hay sinh ra những kết quả kỳ quặc.
OpenAI mô tả Sora 2 có thể tạo "những cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể và phông nền chi tiết giữ được tính nhất quán theo thời gian." Điều đó phần nào đúng — nhưng "nhất quán" trong trường hợp này vẫn mang nghĩa tương đối.
Kết quả ban đầu nhìn rất ấn tượng: tông màu vàng mềm, máy quay quay mượt và các phản chiếu thuyết phục. Rồi sự hỗn loạn xuất hiện: các cây gậy phát sáng (gợi lightsaber) chập chờn, uốn cong rồi biến dạng; cơ thể chiến binh mất thăng bằng, chân tay xuyên nhau như những đa giác ma trong game cũ; biên đạo chuyển thành vũ đạo siêu thực thay vì chiến đấu điện ảnh.
OpenAI thừa nhận Sora 2 "gặp khó khăn với những pha chiến đấu người-một-cách liên tục và hợp lý về mặt vật lý hoặc biên đạo vũ khí," điều này hiện rõ khi vũ khí bắt đầu chuyển động.
Dù vậy, thế giới xung quanh trông đủ thật để phần nào tha thứ. Cảnh vẫn có cảm giác điện ảnh, dù hành động chưa đạt.
Sora 2 tỏ ra mạnh ở đây: chim vỗ cánh và mổ nước rất thuyết phục, ánh sáng lấp lánh trên mặt nước, phản chiếu thay đổi theo vị trí động vật. Kết cấu lông, lông vũ và bùn lăn trông gần với chất lượng phim tài liệu thiên nhiên.
Nhưng vẫn có điểm kỳ quặc: một con sư tử dường như đặt lệch và uống từ bùn thay vì nước — chi tiết nhỏ nhưng cho thấy mô hình thỉnh thoảng mất theo dõi tương tác vật-thể.
Ánh sáng, phản chiếu kim loại, và hiệu ứng lens flare làm tăng tính điện ảnh, chuyển động có sức nặng và căng thẳng khi drone bám theo. Đây là trường hợp Sora 2 hoạt động trơn tru: phức tạp, mạch lạc và đáng tin.
Trên Reddit, một người dùng tóm gọn: "Sora 2 hoặc cho bạn Pixar, hoặc cảm giác mơ nóng, không có giữa." Mô hình đôi khi biến dạng đồ vật, đổi màu giữa cảnh, hoặc hiểu sai prompt theo những cách vừa vô lý vừa thú vị — ví dụ prompt hai con thú nhồi bông đi cạnh nhau một lần cho ra sinh vật nửa gấu bông nửa khinh khí cầu.
Với người làm nghề cần độ tin cậy, tính hỗn loạn này là vấn đề. Nhưng với người sáng tạo muốn thử nghiệm, nó là kho tàng: Sora 2 giống một cộng tác viên giàu trí tưởng tượng hơn là một cỗ máy đoán trước được.
Quan sát từ cộng đồng cho thấy các hành động đơn giản của con người (đi, nhìn, vẫy tay) hiện khá thuyết phục, còn chuỗi hành động phức tạp (chiến đấu, ôm, chơi nhạc cụ) nhanh chóng sụp đổ. Điều này gợi ý hệ mô phỏng vật lý của OpenAI vẫn xử lý cơ thể người như các cụm chuyển động độc lập hơn là một khối thống nhất.
Điều khiến Sora 2 thú vị không chỉ là tiến bộ kỹ thuật mà còn là thay đổi văn hoá: làm video giờ dễ tiếp cận hơn, nhưng cũng làm mờ ranh giới tác giả sáng tạo. Khi mô hình "tưởng tượng" sai một phần cảnh, đó là thất bại hay một cách diễn giải mới?
Trong trận đấu ở Central Park, vũ khí méo mó phá hỏng thực tế nhưng lại mang đến chất mơ mộng, gần với phim nghệ thuật hơn so với hành động Hollywood. Có lẽ bài học sâu hơn là: làm phim bằng AI là một cuộc thương lượng, không phải toàn quyền kiểm soát.
Nguồn: Notebookcheck
Tổng quan
Sora 2 nổi bật ở chỗ xử lý được mối quan hệ nhân quả trong môi trường: bóng đổ thay đổi hợp lý, nước gợn khi có vật di chuyển gần đó, phản chiếu xuất hiện trên kính và vũng nước theo cách tự nhiên chứ không lộn xộn.OpenAI mô tả Sora 2 có thể tạo "những cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể và phông nền chi tiết giữ được tính nhất quán theo thời gian." Điều đó phần nào đúng — nhưng "nhất quán" trong trường hợp này vẫn mang nghĩa tương đối.
Thử nghiệm ở Central Park
Bài kiểm tra đầu tiên đặt mục tiêu tham vọng: một buổi chiều yên bình ở Central Park, du khách dạo dưới nắng vàng, bỗng xuất hiện hai nhân vật trong áo choàng đấu nhau bằng vũ khí phát sáng, máy quay xoay vòng liên tục, lá mùa thu bay bay.Kết quả ban đầu nhìn rất ấn tượng: tông màu vàng mềm, máy quay quay mượt và các phản chiếu thuyết phục. Rồi sự hỗn loạn xuất hiện: các cây gậy phát sáng (gợi lightsaber) chập chờn, uốn cong rồi biến dạng; cơ thể chiến binh mất thăng bằng, chân tay xuyên nhau như những đa giác ma trong game cũ; biên đạo chuyển thành vũ đạo siêu thực thay vì chiến đấu điện ảnh.
OpenAI thừa nhận Sora 2 "gặp khó khăn với những pha chiến đấu người-một-cách liên tục và hợp lý về mặt vật lý hoặc biên đạo vũ khí," điều này hiện rõ khi vũ khí bắt đầu chuyển động.
Dù vậy, thế giới xung quanh trông đủ thật để phần nào tha thứ. Cảnh vẫn có cảm giác điện ảnh, dù hành động chưa đạt.
Kịch bản được tinh chỉnh thành công
Khi tác giả gửi lại một prompt chi tiết hơn — nhấn mạnh không có va chạm hay chấn thương, yêu cầu biên đạo tinh tế, máy quay một cảnh liên tục — Sora 2 lần này đáp ứng tốt. Các chuyển động trông có trọng tâm, mượt mà và đủ giống người; cú kết thúc chảy rất tự nhiên tới mức dễ quên đó là hình ảnh do AI tạo.Thử nghiệm động vật hoang dã
Một thử nghiệm khác yêu cầu cảnh hoang dã: chim và sư tử uống nước tự nhiên ở ao, mọi động vật phải di chuyển đúng thực tế, cảnh siêu thực.Sora 2 tỏ ra mạnh ở đây: chim vỗ cánh và mổ nước rất thuyết phục, ánh sáng lấp lánh trên mặt nước, phản chiếu thay đổi theo vị trí động vật. Kết cấu lông, lông vũ và bùn lăn trông gần với chất lượng phim tài liệu thiên nhiên.
Nhưng vẫn có điểm kỳ quặc: một con sư tử dường như đặt lệch và uống từ bùn thay vì nước — chi tiết nhỏ nhưng cho thấy mô hình thỉnh thoảng mất theo dõi tương tác vật-thể.
Thành phố tương lai và cảnh rượt đuổi
Khi thử thách bằng một cảnh đô thị tương lai lúc bình minh — một courier chạy trên mái, drone truy đuổi, ánh sáng mặt trời phản chiếu trên tòa nhà kính, lens flare và motion blur — kết quả thật sự ấn tượng.Ánh sáng, phản chiếu kim loại, và hiệu ứng lens flare làm tăng tính điện ảnh, chuyển động có sức nặng và căng thẳng khi drone bám theo. Đây là trường hợp Sora 2 hoạt động trơn tru: phức tạp, mạch lạc và đáng tin.
Nhận xét chung: nhất quán nhưng không ổn định
Chung quy lại, Sora 2 "consistently inconsistent" — đôi khi nó làm mọi thứ hoàn hảo, đôi khi tạo ra những thứ kỳ quặc khiến bạn phải bật cười. Sự không đoán trước này vừa là lỗi vừa là điểm hấp dẫn.Trên Reddit, một người dùng tóm gọn: "Sora 2 hoặc cho bạn Pixar, hoặc cảm giác mơ nóng, không có giữa." Mô hình đôi khi biến dạng đồ vật, đổi màu giữa cảnh, hoặc hiểu sai prompt theo những cách vừa vô lý vừa thú vị — ví dụ prompt hai con thú nhồi bông đi cạnh nhau một lần cho ra sinh vật nửa gấu bông nửa khinh khí cầu.
Với người làm nghề cần độ tin cậy, tính hỗn loạn này là vấn đề. Nhưng với người sáng tạo muốn thử nghiệm, nó là kho tàng: Sora 2 giống một cộng tác viên giàu trí tưởng tượng hơn là một cỗ máy đoán trước được.
Điểm mạnh, giới hạn và ý nghĩa văn hoá
Khi Sora 2 hoạt động tốt, cảm giác như phép màu — nhưng thực ra đó là máy móc dựa trên xác suất và học mẫu hình ảnh. Nó phát huy khi được cho bối cảnh rõ ràng — hướng ánh sáng, chuyển động máy quay, tông — còn với yêu cầu chính xác về biên đạo hay thao tác tinh vi thì dễ trượt.Quan sát từ cộng đồng cho thấy các hành động đơn giản của con người (đi, nhìn, vẫy tay) hiện khá thuyết phục, còn chuỗi hành động phức tạp (chiến đấu, ôm, chơi nhạc cụ) nhanh chóng sụp đổ. Điều này gợi ý hệ mô phỏng vật lý của OpenAI vẫn xử lý cơ thể người như các cụm chuyển động độc lập hơn là một khối thống nhất.
Điều khiến Sora 2 thú vị không chỉ là tiến bộ kỹ thuật mà còn là thay đổi văn hoá: làm video giờ dễ tiếp cận hơn, nhưng cũng làm mờ ranh giới tác giả sáng tạo. Khi mô hình "tưởng tượng" sai một phần cảnh, đó là thất bại hay một cách diễn giải mới?
Trong trận đấu ở Central Park, vũ khí méo mó phá hỏng thực tế nhưng lại mang đến chất mơ mộng, gần với phim nghệ thuật hơn so với hành động Hollywood. Có lẽ bài học sâu hơn là: làm phim bằng AI là một cuộc thương lượng, không phải toàn quyền kiểm soát.
Kết
OpenAI nhận thức được cả sự hào hứng lẫn lo ngại xung quanh Sora 2 và đang tiếp tục hoàn thiện. Với khả năng tái tạo môi trường chân thực nhưng giới hạn ở tương tác tinh vi, Sora 2 hiện phù hợp nhất cho những người sáng tạo muốn khám phá ý tưởng hình ảnh mới hơn là những dự án đòi hỏi độ chính xác kỹ thuật tuyệt đối.Nguồn: Notebookcheck
Bài viết liên quan
