Meta giấu nhẹm dữ liệu được sử dụng để đào tạo mô hình AI mới của mình

Meta không tiết lộ các nguồn dữ liệu cụ thể đào tạo cho mô hình AI Llama 2. Ảnh: @AFP.

Meta đã phát hành một mô hình AI khổng lồ mới có tên là Llama 2 vào ngày 18/7. Nhưng công ty không tiết lộ nguồn dữ liệu nào được sử dụng để đào tạo cho mô hình này. Điều đó thật bất thường, bởi ngành công nghiệp AI thường chia sẻ nhiều chi tiết về bộ dữ liệu đào tạo AI của mình.

Hiện tại, một trận chiến lớn đang diễn ra về AI và vấn đề bản quyền. Các nhà xuất bản muốn được trả tiền, nếu tác phẩm của họ đã được sử dụng để đào tạo các mô hình ngôn ngữ lớn. Nhưng thực tế thì các công ty công nghệ lớn không muốn trả tiền. Một cách để tránh vấn đề này là không cho bất kỳ ai biết dữ liệu bạn đã sử dụng để đào tạo mô hình AI của mình. Và Meta dường như đang thử chiến thuật đó.

Vào ngày 18/7, trong một thông báo bom tấn trùng với hội nghị Microsoft Inspire diễn ra, Meta đã công bố mô hình AI mới của mình, LLaMA 2. Hiện tại, mô hình AI mới này không chỉ sẵn có, mà còn ở dạng nguồn mở sẵn có miễn phí cho mục đích thương mại, không giống như mô hình LLaMA đầu tiên, chỉ được cấp phép cho mục đích nghiên cứu.

LLaMA 2 có một số kích thước mô hình, bao gồm 7, 13 và 70 tỷ tham số. Meta tuyên bố rằng, mô hình mới này được đào tạo trên một tập dữ liệu khổng lồ lớn hơn 40% so với tập dữ liệu được sử dụng cho LLaMA 1. Độ dài ngữ cảnh cũng đã được mở rộng lên hai nghìn tỷ mã thông báo, gấp đôi độ dài ngữ cảnh của LLaMA 1.

LLaMA 2 không chỉ được đào tạo trên nhiều dữ liệu hơn, với nhiều tham số hơn, mà mô hình này còn hoạt động tốt hơn so với mô hình tiền nhiệm của nó, theo báo cáo mô hình do công ty Meta cung cấp.

Nhưng bài báo công bố nghiên cứu mô hình LLaMA 2 này lại chia sẻ rất ít về nguồn dữ liệu nào đã được sử dụng. Phía Meta không tiết lộ các nguồn cụ thể của dữ liệu nào được lấy để đào tạo cho mô hình AI, mà họ chỉ lưu rằng dữ liệu đó lấy từ web, chủ yếu bằng tiếng Anh, không phải từ các sản phẩm hoặc dịch vụ của chính công ty, và nhấn mạnh rằng dữ liệu có tính chất thực tế mạnh mẽ.

Các chuyên gia nhận định, rõ ràng điều này là bất thường. Bởi cho đến nay, ngành công nghiệp AI đã cởi mở công bố công khai về nguồn dữ liệu đào tạo được sử dụng cho các mô hình AI. Có một lý do cho điều này vì công nghệ mạnh mẽ này phải được hiểu rõ, và kết quả đầu ra của nó phải dễ giải thích, và có thể theo dõi nhất có thể, để nếu có sự cố xảy ra, khi được đóng góp, phản hồi, các nhà nghiên cứu nền tảng AI có thể quay lại và sửa chữa mọi thứ. Hay nói cách khác, dữ liệu đào tạo là chìa khóa để các mô hình AI này hoạt động viên mãn hơn.

Khi Meta phát hành phiên bản đầu tiên của mô hình LLaMA vào tháng 2, bài báo nghiên cứu công bố dự án đã liệt kê tất cả dữ liệu đào tạo của nó trong một bảng và qua các đoạn văn chi tiết. Nó bao gồm một loạt sách và bộ dữ liệu Common Crawl, là một bản sao khổng lồ của internet, được tích lũy từ năm 2008 và được lưu trữ trên công nghệ đám mây của Amazon, sẵn sàng tải xuống bất cứ lúc nào. Tập dữ liệu đó chiếm hơn 2/3 thông tin mà Meta sử dụng để huấn luyện mô hình LLaMA bản đầu tiên.

Vậy điều gì đã thay đổi trong năm tháng qua?

Các nhà xuất bản, tác giả và những người sáng tạo khác đột nhiên nhận ra rằng, tác phẩm của họ đang được sử dụng để đào tạo tất cả các mô hình AI này. Và họ đặt nghi vấn rằng, các công ty có xin phép họ không? Rõ ràng, phần lớn các tác giả này đều phản hồi là “Không”. Và khi được hỏi liệu các công ty Công nghệ lớn có nên chấm dứt điều này không? Họ trả lời là: “Có lẽ”.

Hiện tại, một loạt vụ kiện đang thách thức quyền sử dụng thông tin này của các công ty công nghệ để đào tạo mô hình AI. Lời phàn nàn của Sarah Silverman có lẽ đang là nổi tiếng nhất cho đến nay, khi cô Silverman cáo buộc rằng, OpenAI và Meta đã dùng những cuốn sách mà cô có tham gia viết ra, có bản quyền rõ ràng, để làm nội dung huấn luyện hai mô hình ngôn ngữ lớn GPT và LLaMa.

Các yếu tố rủi ro mới

Các công ty công nghệ lớn biết đây cũng là một rủi ro đi kèm. Điển hình là chuyện Microsoft, công ty ủng hộ OpenAI dẫn đầu ngành, gần đây đã thêm yếu tố rủi ro khác vào hồ sơ Ủy ban Chứng khoán và Giao dịch Hoa Kỳ hàng quý của mình: “Thuật toán AI hoặc phương pháp đào tạo lấy từ các dữ liệu nguồn có thể có sai sót”, Microsoft mô tả trong hồ sơ. “Do những thách thức này và các thách thức khác liên quan đến công nghệ đổi mới, việc triển khai các hệ thống AI của chúng tôi có thể khiến chúng tôi bị tổn hại về thương hiệu hoặc uy tín do cạnh tranh, dính líu tới hành động pháp lý, trách nhiệm pháp lý, bao gồm liên quan đến cả luật đề xuất mới điều chỉnh AI tại các khu vực tài phán như Liên minh Châu Âu (EU), các ứng dụng mới về bảo vệ dữ liệu, quyền riêng tư, quyền sở hữu trí tuệ và các luật khác hiện có”.

Google, một nhà lãnh đạo AI khác, không thích trả tiền cho nội dung trực tuyến vì điều này sẽ làm suy yếu mô hình kinh doanh có lợi nhuận cao của họ. Luật sư hàng đầu của công ty, Halimah DeLaine Prado, cho biết luật pháp Mỹ ủng hộ việc sử dụng thông tin công khai để tạo ra những cách sử dụng có lợi mới, và vị luật sư này khẳng định, lập luận này có thể chiếm ưu thế tại tòa án.

Meta giấu nhẹm dữ liệu được sử dụng để đào tạo mô hình AI mới của mình - Meta 2
Được đào tạo dựa trên sự kết hợp của dữ liệu có sẵn công khai, Meta tuyên bố rằng hiệu suất của Llama 2 cải thiện đáng kể so với thế hệ mô hình Llama trước đó. Ảnh: @AFP.

Trở lại vấn đề chính, tại sao Meta không muốn tiết lộ dữ liệu nguồn nào được sử dụng. Chia sẻ về vấn đề này, Sharon Zhou, Giám đốc điều hành của công ty khởi nghiệp Lamini AI, đã đưa ra một lý thuyết rằng, rõ ràng Meta đang tránh những hậu quả pháp lý. Ở đây, công ty muốn giữ kín khả năng sao chép dữ liệu để đào tạo mô hình Llama 2 cho riêng mình.

Khi Sharon Zhou đã hỏi Meta về điều này và một phát ngôn viên của Meta đã chia sẻ tuyên bố như sau: “Bằng cách cung cấp các mô hình AI một cách công khai, chúng có thể mang lại lợi ích cho tất cả mọi người. Cung cấp cho các doanh nghiệp, công ty mới thành lập, doanh nhân và nhà nghiên cứu quyền truy cập vào các công cụ được phát triển ở quy mô khó tự xây dựng, được hỗ trợ bởi sức mạnh điện toán mà họ có thể không truy cập được. Điều này sẽ mở ra một thế giới cơ hội để họ thử nghiệm, đổi mới theo những cách thú vị, và cuối cùng được hưởng lợi về mặt kinh tế và xã hội…”.

Phát ngôn viên của Meta còn khẳng định: “Chúng tôi tin rằng, các nhà phát triển sẽ có nhiều việc phải làm hơn nữa, khi chúng tôi phát hành các mô hình AI của mình, và sẽ bắt đầu với các phiên bản được tinh chỉnh trước trong đó công ty vẫn sử dụng các tài nguyên một cách có trách nhiệm. Chúng tôi sẽ có các quy trình đánh giá quyền riêng tư nội bộ để đảm bảo việc sử dụng dữ liệu có trách nhiệm trong việc xây dựng các sản phẩm của chúng tôi. Chúng tôi tận tâm phát triển các sản phẩm AI của mình một cách có trách nhiệm và có đạo đức, đảm bảo các chính sách của chúng tôi phản ánh tính phù hợp, đúng đắn với các bối cảnh đa dạng, cũng như đáp ứng các kỳ vọng xã hội đang phát triển”.

Theo Businessinsider/Venturebeat

Có thể bạn quan tâm
Lazada công bố 10 sản phẩm chăm sóc sắc đẹp đạt giải LazBeauty Awards 2023

Ngày 18/7, Lazada công bố 10 sản phẩm chăm sóc sắc đẹp giành chiến thắng tại Việt Nam trong khuôn khổ giải thưởng LazBeauty Awards 2023.

Người dân vùng bão Talim nếu khó có thể kiếm trợ giúp khẩn cấp qua Zalo

Dự báo mới nhất cho thấy, tuy bão Talim đang suy yếu nhưng ngày và đêm 18/7 vẫn là đỉnh điểm mưa dông, gió giật. Nhằm giúp người dân vùng bão kết nối và nhận được sự trợ giúp kịp thời, Zalo đã khởi động lại tính năng “Tìm kiếm trợ giúp trong bão lũ”.

iPhone 15 sẽ có 6 màu sắc tươi mới

Mỗi thế hệ iPhone mới gần đây đều được Apple mang đến các lựa chọn màu sắc mới. Giờ đây, ba tùy chọn màu mới được cho là sẽ đến với iPhone 15, bổ sung vào ba màu của iPhone 14.

Threads liệu có đủ sức đọ với Twitter?

Threads đang có sự tăng trưởng mạnh mẽ, nhưng nhiều chuyên gia nhận định nó sẽ phải đối mặt với các thách thức trong việc duy trì người dùng hoạt động hàng ngày.

Nhiều tỉnh thành cho tra cứu điểm thi THPT 2023 trên Zalo

Từ ngày 18-7, thí sinh ở tỉnh Tây Ninh và Bình Định có thể tra cứu điểm thi THPT Quốc gia 2023 qua mini app trên Zalo. Ngoài ra, phụ huynh và thí sinh tại Bến Tre, Kiên Giang, Đà Nẵng, Phú Yên, Hà Giang,… cũng có thể xem điểm trên các trang Zalo Official Account (Zalo OA) của tỉnh.

Tạm biệt phông chữ mặc định Calibri trên Microsoft Office sau 15 năm

Kể từ tuần này, Calibri không còn là phông chữ mặc định của Microsoft sau khi công ty chọn Aptos lấy cảm hứng từ kiểu chữ Thụy Sĩ giữa thế kỷ 20 làm lựa chọn thay thế.

Nhiều công ty công nghệ, ngân hàng lớn ban hành lệnh cấm nhân viên sử dụng ChatGPT

Một số tập đoàn lớn đang hạn chế quyền truy cập của nhân viên vào công cụ chatbot AI ChatGPT của OpenAI. Các công ty như Amazon và Apple đã bày tỏ lo ngại rằng, công cụ này có thể khiến họ có nguy cơ bị rò rỉ dữ liệu. Dưới đây là 8 công ty đã ban hành lệnh cấm hoặc hạn chế xung quanh chatbot AI ồn ào này.

Huawei công bố mức phí cấp phép bản quyền các thiết bị cầm tay 4G/5G, Wi-Fi 6 và IoT

Tại sự kiện đổi mới sáng tạo và bảo vệ quyền sở hữu trí tuệ Bridging Horizons Of Innovations 2023, Huawei đã công bố mức phí bản quyền đối với chương trình cấp phép bằng sáng chế của các thiết bị cầm tay, Wi-Fi và IoT.

realme 11 Pro series có camera 200MP zoom siêu cận 4x sẽ ra mắt Việt Nam vào cuối tháng này

realme 11 Pro Series gồm realme 11 Pro+ và realme 11 Pro sẽ có camera 200MP, vẻ ngoài sang trọng, màn hình cong tràn viền 120Hz s4 được realme bán ra tại Việt Nam vào 31/ 7 này.

ĐT Sony Xperia chính thức tái xuất ở Việt Nam với 2 chiến tướng Xperia 1 V và Xperia 10 V

Sau khi rời khỏi thị trường Việt Nam vào nửa cuối năm 2019, đến nay, dòng điện thoại Sony Xperia bỗng trở lại cùng lúc 2 sản phẩm với nhiều nâng cấp cạnh tranh là Xperia 1 V và Xperia 10 V, thu hút sự chú ý của các người yêu thích thương hiệu này.