Google đánh cắp dữ liệu hàng triệu người dùng để huấn luyện AI

Google đã dính vào một vụ kiện tập thể cáo buộc công ty đã ăn cắp mọi thứ từng được chia sẻ trên internet, bao gồm các tác phẩm có bản quyền và dữ liệu cá nhân của hàng triệu người. Ảnh: @AFP.

Một vụ kiện tập thể tuyên bố, Google đã lấy dữ liệu của nhiều người Mỹ (mà bản thân họ không biết, hoặc không đồng ý) để đào tạo các sản phẩm trí tuệ nhân tạo (AI) của công ty, và vi phạm luật bản quyền để đào tạo và phát triển các sản phẩm trí tuệ nhân tạo của mình.

Vụ kiện mới cho rằng Google đã bí mật đánh cắp mọi thứ từng được tạo ra, và chia sẻ trên internet bởi hàng trăm triệu người Mỹ để đào tạo công cụ AI tổng quát của mình như chatbot Bard.

Vụ kiện tập thể được đề xuất, do Công ty Luật Clarkson đệ trình lên Tòa án liên bang ở California của Mỹ vào ngày 12/7, đã cáo buộc Google, công ty con AI DeepMind và công ty mẹ Alphabet lấy dữ liệu của nhiều người Mỹ (mà bản thân họ không biết hoặc không đồng ý).

Đơn kiện này được tố tụng bởi tám cá nhân đang tìm cách đại diện cho hàng triệu người dùng internet, và chủ sở hữu bản quyền, cho biết việc Google thu thập trái phép dữ liệu từ các trang web đã vi phạm quyền riêng tư và quyền sở hữu tài sản trí tuệ.

“Google đã lấy tất cả thông tin cá nhân và thông tin nghề nghiệp, các tác phẩm sáng tạo và bài viết quảng cáo, hình ảnh và thậm chí cả email của chúng tôi, nói chung là gần như toàn bộ dấu vết kỹ thuật số của chúng tôi để Google xây dựng các sản phẩm AI của mình”, đơn kiện nêu rõ.

Trong nhiều năm, Google đã thu thập dữ liệu này một cách bí mật mà không có thông báo hay có sự đồng ý nào của bất kỳ ai. Điều này bao gồm dữ liệu được lấy từ các trang web đã đăng ký hợp pháp, cũng như từ các trang web được biết đến với các bộ sưu tập sách và tác phẩm sáng tạo vi phạm bản quyền, đơn kiện cáo buộc thêm.

Khiếu nại cũng đề cập đến một bản cập nhật cho chính sách quyền riêng tư của Google từ ngày 1 tháng 7, trong đó nói rằng họ có thể thu thập thông tin có sẵn công khai trực tuyến để đào tạo các mô hình AI của mình, và để xây dựng cho các sản phẩm khác như Google Dịch, Bard và Cloud AI.

“Google phải hiểu rõ, một lần và mãi mãi rằng, họ không có quyền sở hữu internet, không có quyền sở hữu các tác phẩm sáng tạo của chúng ta, họ cũng không có quyền sở hữu những dấu ấn kỹ thuật số của chúng ta, những bức ảnh về gia đình và con cái của chúng ta, hay bất cứ thứ gì khác chỉ vì chúng ta chia sẻ nó trực tuyến. Phải hiểu rằng, việc có sẵn công khai chưa bao giờ có nghĩa là được sử dụng miễn phí cho bất kỳ mục đích nào”.

Vụ kiện yêu cầu bồi thường thiệt hại 5 triệu đô la và yêu cầu tòa án tạm thời đóng băng việc sử dụng công cụ AI tổng quát của Google như Bard AI cho mục đích thương mại, cho đến khi có các biện pháp bảo vệ và yêu cầu trả tiền cổ tức dữ liệu cho những người có thông tin được sử dụng để đào tạo và phát triển công cụ AI của Google.

Google đã không trả lời ngay lập tức yêu cầu bình luận của tờ Insider về vụ kiện, nhưng trong một tuyên bố gửi cho tờ Reuters, Google gọi những tuyên bố trong vụ kiện mới này là vô căn cứ.

Cố vấn chung của Google, Halimah DeLaine Prado nói với Insider trong một tuyên bố rằng, công ty đã rõ ràng trong nhiều năm rằng, họ đã sử dụng dữ liệu từ các nguồn công khai, chẳng hạn như dữ liệu được xuất bản trên web mã nguồn mở và các bộ dữ liệu công khai, để đào tạo các mô hình AI đằng sau các dịch vụ như Google Dịch có trách nhiệm và phù hợp với Nguyên tắc AI vốn có của công ty.

“Luật pháp Mỹ ủng hộ việc sử dụng thông tin công khai để tạo ra những cách sử dụng có lợi mới và chúng tôi muốn bác bỏ những tuyên bố vô căn cứ này”, DeLaine Prado tiếp tục.

Vụ kiện mới này đã được đệ trình khoảng hai tuần sau khi Công ty luật Clarkson đã nộp đơn khiếu nại tương tự đối với OpenAI, cáo buộc rằng công ty này đã đánh cắp một lượng lớn dữ liệu cá nhân và sử dụng nó để đào tạo ChatGPT, bao gồm hồ sơ y tế và thông tin về trẻ em.

Google đánh cắp dữ liệu hàng triệu người dùng để huấn luyện AI - Google
Các chatbot AI như ChatGPT và Bard của Google, chưa kể vô số nỗ lực AI khác, được đào tạo trên hàng núi thông tin công khai được lấy từ internet. Ảnh: @AFP.

Trong cả hai vụ kiện, các nguyên đơn chỉ được xác định bằng tên viết tắt, nghề nghiệp, tiểu bang và cách sử dụng internet của họ, mà luật sư của họ cho biết là để tránh sự giám sát xâm phạm, cũng như để tránh bất kỳ phản ứng dữ dội nguy hiểm tiềm ẩn nào.

Một trong những nguyên đơn trong vụ kiện Google, có tên viết tắt là “JL” và được mô tả là tác giả có sách bán chạy nhất của New York Times và là nhà báo điều tra sống ở Texas, tuyên bố rằng Google đã sử dụng bản PDF cuốn sách bị đánh cắp của cô ấy để huấn luyện cho công cụ Chatbot AI Bard.

Vụ kiện tuyên bố rằng, tác phẩm của cô ấy hiện được phổ biến rộng rãi miễn phí trên Bard, với việc chatbot này đã đưa ra các tóm tắt chương của cuốn sách và thậm chí chia sẻ nguyên văn các đoạn trích.

Vụ kiện mới này diễn ra khi một loạt công cụ AI mới đã thu hút được sự chú ý lớn trong những tháng gần đây, nhờ khả năng tạo ra tác phẩm bằng văn bản và hình ảnh dựa trên lời nhắc truy vấn của người dùng. Các mô hình ngôn ngữ lớn làm nền tảng cho công nghệ mới này bằng cách cho đào tạo dựa trên các kho dữ liệu trực tuyến khổng lồ.

Vụ kiện này cũng là một trong số nhiều vụ kiện được đệ trình từ năm ngoái chống lại các công ty trong ngành công nghiệp AI đang bùng nổ, bao gồm Meta Platforms, Microsoft và OpenAI, về cáo buộc lạm dụng dữ liệu cá nhân và sách có bản quyền, tác phẩm nghệ thuật thị giác và các mã nguồn để đào tạo cho hệ thống của họ.

Theo Businessinsider/Reuters/Gizmodo

Có thể bạn quan tâm
AI, liệu có phải là internet thế hệ mới?

Công nghệ trí tuệ nhân tạo (AI) là một trong những điểm nhấn công nghệ của năm 2023. Nhưng câu hỏi được đặt ra là liệu AI có thể biến đổi hoạt động kinh doanh với tư cách như internet thế hệ mới, hay chỉ sẽ kết thúc theo kiểu của Metaverse (vũ trụ ảo)?

Ngày hội giảm giá Xiaomi, chỉ một ngày 15/7 duy nhất trên Lazada

Với chương trình “Ngày hội Xiaomi – Giá mê ly” chỉ diễn ra ngày 15/7 trên Lazada, người dùng sẽ có cơ hội sở hữu các thiết bị di động và sản phẩm gia dụng thông minh Xiaomi giá khuyến mại lên đến 49%, cùng hàng ngàn voucher giảm giá tổng giá trị lên đến 200 triệu đồng.

Microsoft phát hiện nhóm tin tặc xâm phạm email chính phủ Tây Âu

Trong một bài đăng trên blog được xuất bản hôm 11/7, Microsoft cho biết một nhóm tin tặc có tên Storm-0558 đã thực hiện các hành vi xâm phạm email của chính phủ Tây Âu.

Nothing Phone 2 rất “có gì”

Sau rất nhiều lời quảng cáo, cuối cùng chiếc Nothing Phone 2 cũng chính thức ra mắt với thông số hấp dẫn hơn nhiều so với tiền nhiệm của nó.

Hợp tác xây dựng thao trường đào tạo và diễn tập bảo vệ hệ thống công nghệ vận hành OT

Tại Công viên Phần mềm Quang Trung, OPSWAT – công ty về lĩnh vực an ninh mạng bảo vệ cơ sở hạ tầng trọng yếu và công ty Cổ phần Dịch vụ An toàn thông tin Thành phố Hồ Chí Minh (HISSC) vừa ký kết biên bản ghi nhớ hợp tác xây dựng thao trường Cyber Range đào tạo và diễn tập an toàn thông tin cho hệ thống công nghệ vận hành (OT).

10% “chiến thần chốt đơn” chiếm 42% giao dịch mua hàng trực tuyến tại Việt Nam

Đó là con số từ báo cáo nghiên cứu “Dự đoán xu hướng tương lai Thương mại điện tử tại Đông Nam Á?” do Ninja Van hợp tác với Geopost thực hiện trên 6 quốc gia – Singapore, Malaysia, Philippines, Indonesia, Thái Lan và Việt Nam – với hơn 9.000 người tham gia.

Việt Nam Bứt Phá Đổi Mới’ thúc đẩy các công ty khởi nghiệp công nghệ Việt Nam phát triển

Sau thành công của chương trình ‘Google For Google for Startups: Startup Academy Vietnam’ năm 2022, hôm nay, Google tiếp tục hợp tác với Trung tâm Đổi mới sáng tạo Quốc gia (NIC) thuộc Bộ Kế hoạch & Đầu tư, Phái đoàn Ngoại giao Hoa Kỳ tại Việt Nam giới thiệu chương trình ‘Google for Startups Accelerator, Southeast Asia: Việt Nam bứt phá đổi mới’; chương trình hàng đầu của Google dành cho các startups tại Đông Nam Á.

Cisco công bố những cải tiến đột phá của ứng dụng Đám mây bảo mật tích hợp AI

Nhằm đơn giản hóa an ninh mạng và trao quyền cho người dùng làm việc hiệu quả ở mọi nơi với công nghệ điện toán đám mây, Cisco vừa công bố giải pháp Cisco Secure Access và những cải tiến vượt trội trong ứng dụng công nghệ AI và học máy, cho phép các nhóm vận hành bảo mật đơn giản hóa quá trình, nâng hiệu suất hoạt động.

HONOR X8a, mạnh mẽ, nhiều tính năng, giá rất vừa, bán độc quyền tại FPT Shop

Vào 18h00 tối ngày 7/7/2023 tại FPT Shop, HONOR X8a đã được nhà phân phối này mở bán độc quyền với nhiều ưu đãi

Twitter khởi kiện mạng xã hội non trẻ Threads của Meta với loạt cáo buộc

Các luật sư của Twitter đã đe dọa mạng xã hội non trẻ Threads mà Meta vừa ra mắt bằng một vụ kiện với cáo buộc công ty của Mark Zuckerberg ăn cắp bí mật thương mại và lạm dụng tài sản trí tuệ.