Meta, công ty mẹ của Facebook, đang triển khai công cụ thu thập dữ liệu trên các trang web công khai nhằm huấn luyện các mô hình trí tuệ nhân tạo (AI) của mình.
Công cụ này, được biết đến với tên gọi Meta External Agent, hoạt động tương tự GPTBot của OpenAI, thu thập nội dung từ các website, bài báo và mạng xã hội.
Cách Meta thu thập dữ liệu
Theo báo cáo, Meta đã tích lũy lượng dữ liệu lớn từ các nền tảng của mình như Facebook và Instagram. Tuy nhiên, để duy trì và nâng cấp các mô hình AI như LLaMA 3.1, công ty này cần mở rộng kho dữ liệu. Do đó, họ đã triển khai thêm Bot để thu thập dữ liệu từ các nguồn công khai trên internet.
Cách Meta thu thập dữ liệu công khai từ cái nguồn Internet
Mục tiêu của việc thu thập dữ liệu
Việc thu thập dữ liệu công khai từ internet giúp Meta cải thiện hiệu suất của các mô hình AI, đặc biệt là trong lĩnh vực AI tạo sinh. Các dữ liệu này đóng vai trò quan trọng trong việc phát triển những công nghệ AI tiên tiến, như chatbot thông minh hay các công cụ tương tác người dùng.
Phản ứng từ công chúng và các chuyên gia
Tuy nhiên, sự xuất hiện của Meta External Agent đã gây ra nhiều tranh luận. Một số trang web đã bắt đầu chặn bot này vì lo ngại về quyền riêng tư và bảo mật. Mặc dù vậy, phần lớn các website vẫn cho phép bot hoạt động.
Phản ứng của chuyên gia và người dùng khi Meta External Agent xuất hiện
Meta và cuộc chạy đua AI
Trong bối cảnh thị trường AI ngày càng cạnh tranh, Meta không ngừng đổ vốn đầu tư cho các dự án AI của mình. Chỉ riêng trong năm nay, Meta dự kiến sẽ chi hàng chục tỷ USD vào hạ tầng và công nghệ liên quan đến AI, trong đó có các siêu máy tính và hệ thống xử lý dữ liệu tiên tiến.
Việc Meta sử dụng bot để thu thập dữ liệu công khai đánh dấu một bước tiến quan trọng trong cuộc đua phát triển AI. Tuy nhiên, đây cũng là vấn đề cần được thảo luận kỹ lưỡng để đảm bảo tính minh bạch và quyền lợi người dùng.