Reddit khởi kiện SerApi, OxyLabs, AWMProxy và Perplexity, cáo buộc họ thu thập dữ liệu từ kết quả tìm kiếm và sử dụng nội dung mà không trả tiền. Công ty đòi bồi thường tài chính và xin lệnh cấm vĩnh viễn nhằm ngăn các bên bán tài liệu Reddit thu thập trái phép.
Reddit đã đệ đơn kiện nhắm vào bốn công ty — SerApi, OxyLabs, AWMProxy và Perplexity — với cáo buộc là họ thu thập dữ liệu từ kết quả tìm kiếm của Reddit và sử dụng nội dung đó mà không có giấy phép trả tiền.
Vụ kiện mới này được đưa ra sau các hành động pháp lý trước đó của Reddit, trong đó có tranh chấp với startup AI Anthropic vì cáo buộc đã sử dụng nội dung Reddit để huấn luyện chatbot Claude.
Kể từ năm 2023, Reddit đã bắt đầu tính phí các công ty muốn truy cập bài viết và nội dung khác với mục tiêu kiếm tiền từ dữ liệu có thể được dùng để huấn luyện AI. Công ty cũng đã ký thỏa thuận cấp phép với những tên tuổi như Google và OpenAI, đồng thời phát triển cả một hệ thống trả lời bằng AI riêng để tận dụng kiến thức trong bài đăng của người dùng.
Theo Reddit, việc thu thập nội dung thông qua kết quả tìm kiếm là cách né tránh các khoản thanh toán và thỏa thuận cấp phép này. Vì vậy, họ đang yêu cầu bồi thường tài chính và một lệnh cấm vĩnh viễn nhằm ngăn các công ty tiếp tục bán các tài liệu Reddit đã thu thập trái phép.
Một số công ty trong vụ kiện như SerApi, OxyLabs và AWMProxy không phải là tên tuổi quen thuộc với công chúng, nhưng họ đều có mô hình kinh doanh tập trung vào việc thu thập dữ liệu từ kết quả tìm kiếm rồi bán lại. Việc đưa Perplexity vào vụ kiện có vẻ hợp lý hơn vì công ty AI này cần dữ liệu để huấn luyện mô hình và từng bị cáo buộc sao chép nội dung mà không trả phí cấp phép, kể cả việc phớt lờ chuẩn robots.txt — cơ chế để trang web báo là họ không muốn bị thu thập nội dung.
Theo đơn kiện mà Reddit cung cấp, trước đó họ đã gửi thư yêu cầu ngừng và chấm dứt (cease-and-desist) tới Perplexity, yêu cầu dừng việc thu thập bài viết khi không có giấy phép. Perplexity trả lời rằng họ không sử dụng dữ liệu Reddit, nhưng vẫn tiếp tục trích dẫn nền tảng này trong các câu trả lời của chatbot.
Để chứng minh, Reddit đã tạo một bài thử nghiệm chỉ có thể bị lập chỉ mục bởi công cụ tìm kiếm của Google và không xuất hiện ở đâu khác trên Internet. Chỉ trong vài giờ, các truy vấn đến công cụ trả lời của Perplexity đã tái tạo đúng nội dung bài thử nghiệm, từ đó Reddit kết luận rằng cách duy nhất Perplexity có thể thu được và sử dụng nội dung đó là thông qua việc thu thập từ kết quả tìm kiếm Google rồi nhanh chóng đưa dữ liệu vào hệ thống trả lời của mình.
Perplexity cho biết họ chưa nhận được vụ kiện chính thức và khẳng định sẽ đấu tranh cho quyền truy cập công khai và công bằng vào tri thức. Công ty nhấn mạnh họ giữ nguyên tắc trách nhiệm khi cung cấp câu trả lời chính xác bằng AI và phản đối mọi đe dọa nhằm hạn chế tính mở và lợi ích công cộng.
Vụ kiện này phù hợp với thái độ mạnh mẽ của Reddit trong việc bảo vệ dữ liệu: từ giới hạn tốc độ (rate-limiting) các bot và trình thu thập web lạ vào năm 2024, đến hạn chế quyền truy cập của Wayback Machine thuộc Internet Archive vào trang của họ vào tháng 8/2025. Reddit cũng đang thúc đẩy định nghĩa mới về cách các trang web bị thu thập bằng cách áp dụng tiêu chuẩn Really Simple Licensing, bổ sung điều khoản cấp phép vào robots.txt.
Nguồn: https://www.engadget.com/social-med...content-without-paying-205136436.html?src=rss
Reddit đã đệ đơn kiện nhắm vào bốn công ty — SerApi, OxyLabs, AWMProxy và Perplexity — với cáo buộc là họ thu thập dữ liệu từ kết quả tìm kiếm của Reddit và sử dụng nội dung đó mà không có giấy phép trả tiền.
Vụ kiện mới này được đưa ra sau các hành động pháp lý trước đó của Reddit, trong đó có tranh chấp với startup AI Anthropic vì cáo buộc đã sử dụng nội dung Reddit để huấn luyện chatbot Claude.
Kể từ năm 2023, Reddit đã bắt đầu tính phí các công ty muốn truy cập bài viết và nội dung khác với mục tiêu kiếm tiền từ dữ liệu có thể được dùng để huấn luyện AI. Công ty cũng đã ký thỏa thuận cấp phép với những tên tuổi như Google và OpenAI, đồng thời phát triển cả một hệ thống trả lời bằng AI riêng để tận dụng kiến thức trong bài đăng của người dùng.
Theo Reddit, việc thu thập nội dung thông qua kết quả tìm kiếm là cách né tránh các khoản thanh toán và thỏa thuận cấp phép này. Vì vậy, họ đang yêu cầu bồi thường tài chính và một lệnh cấm vĩnh viễn nhằm ngăn các công ty tiếp tục bán các tài liệu Reddit đã thu thập trái phép.
Một số công ty trong vụ kiện như SerApi, OxyLabs và AWMProxy không phải là tên tuổi quen thuộc với công chúng, nhưng họ đều có mô hình kinh doanh tập trung vào việc thu thập dữ liệu từ kết quả tìm kiếm rồi bán lại. Việc đưa Perplexity vào vụ kiện có vẻ hợp lý hơn vì công ty AI này cần dữ liệu để huấn luyện mô hình và từng bị cáo buộc sao chép nội dung mà không trả phí cấp phép, kể cả việc phớt lờ chuẩn robots.txt — cơ chế để trang web báo là họ không muốn bị thu thập nội dung.
Theo đơn kiện mà Reddit cung cấp, trước đó họ đã gửi thư yêu cầu ngừng và chấm dứt (cease-and-desist) tới Perplexity, yêu cầu dừng việc thu thập bài viết khi không có giấy phép. Perplexity trả lời rằng họ không sử dụng dữ liệu Reddit, nhưng vẫn tiếp tục trích dẫn nền tảng này trong các câu trả lời của chatbot.
Để chứng minh, Reddit đã tạo một bài thử nghiệm chỉ có thể bị lập chỉ mục bởi công cụ tìm kiếm của Google và không xuất hiện ở đâu khác trên Internet. Chỉ trong vài giờ, các truy vấn đến công cụ trả lời của Perplexity đã tái tạo đúng nội dung bài thử nghiệm, từ đó Reddit kết luận rằng cách duy nhất Perplexity có thể thu được và sử dụng nội dung đó là thông qua việc thu thập từ kết quả tìm kiếm Google rồi nhanh chóng đưa dữ liệu vào hệ thống trả lời của mình.
Perplexity cho biết họ chưa nhận được vụ kiện chính thức và khẳng định sẽ đấu tranh cho quyền truy cập công khai và công bằng vào tri thức. Công ty nhấn mạnh họ giữ nguyên tắc trách nhiệm khi cung cấp câu trả lời chính xác bằng AI và phản đối mọi đe dọa nhằm hạn chế tính mở và lợi ích công cộng.
Vụ kiện này phù hợp với thái độ mạnh mẽ của Reddit trong việc bảo vệ dữ liệu: từ giới hạn tốc độ (rate-limiting) các bot và trình thu thập web lạ vào năm 2024, đến hạn chế quyền truy cập của Wayback Machine thuộc Internet Archive vào trang của họ vào tháng 8/2025. Reddit cũng đang thúc đẩy định nghĩa mới về cách các trang web bị thu thập bằng cách áp dụng tiêu chuẩn Really Simple Licensing, bổ sung điều khoản cấp phép vào robots.txt.
Nguồn: https://www.engadget.com/social-med...content-without-paying-205136436.html?src=rss
Bài viết liên quan
