Big Tech làm gì khi dữ liệu đào tạo AI sẽ cạn kiệt vào 2026?

Các công ty công nghệ lớn đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo cho các hệ thống AI của họ. Ảnh: @unite.ai.

OpenAI, Meta, Google và các công ty Big Tech khác đã đào tạo các mô hình trí tuệ nhân tạo (AI) của họ bằng cách sử dụng dữ liệu trực tuyến, nhưng các mô hình AI học nhanh đến mức tất cả dữ liệu đó có thể bị cạn kiệt vào năm 2026.

Khi nói đến hệ thống AI, hệ thống nào càng được đào tạo nhiều dữ liệu thì chúng sẽ càng mạnh mẽ hơn. Nhưng khi cuộc chạy đua AI ngày càng nóng lên, những công ty công nghệ lớn như Meta, Google và OpenAI phải đối mặt với một vấn đề: Đó là việc họ sắp hết dữ liệu để đào tạo cho các mô hình AI của mình.

Trong thực tế, nhiều hệ thống AI hàng đầu đã được đào tạo từ nguồn cung cấp dữ liệu trực tuyến khổng lồ, nhưng đến năm 2026, tất cả dữ liệu chất lượng cao đó có thể bị cạn kiệt, theo viện nghiên cứu AI, Epoch. Vì vậy, các công ty công nghệ lớn đang tìm kiếm các nguồn dữ liệu mới để duy trì hoạt động đào tạo liên tục cho hệ thống của họ. Dưới đây là một số lựa chọn sáng tạo nhất mà các công ty công nghệ đang xem xét.

Google đã cân nhắc việc khai thác dữ liệu người tiêu dùng có sẵn trong Google Tài liệu, Trang tính và Trang trình bày

Năm ngoái, bộ phận pháp lý của Google đã bắt đầu yêu cầu nhân viên mở rộng việc sử dụng dữ liệu của người tiêu dùng, tạp chí Times đưa tin. Một số nhân viên được thông báo rằng, công ty muốn sử dụng dữ liệu từ các phiên bản miễn phí dành cho người tiêu dùng của Google Docs, Google Sheets, Google Slides và thậm chí cả các bài đánh giá về nhà hàng trên Google Maps.

Mặc dù, Google đã cập nhật chính sách quyền riêng tư của mình vào tháng 7 năm 2023, và lúc đó công ty cho biết, họ không có ý định mở rộng loại dữ liệu mà họ sử dụng để đào tạo các mô hình AI của mình.

Đổ tiền vào nhà xuất bản Simon & Schuster

Tại Meta, nguồn cung cấp dữ liệu dùng đào tạo các mô hình AI có thể ngày càng cạn kiệt khiến các giám đốc điều hành lo ngại đến mức, họ đã gặp nhau gần như hàng ngày vào tháng 3 và tháng 4 năm ngoái để suy nghĩ về các giải pháp thay thế.

Một ý tưởng nảy ra trong các cuộc họp này là mua lại Simon & Schuster. Nhà xuất bản nổi tiếng này đã từng làm việc với các tác giả như Stephen King và Jennifer Weiner, và được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỷ USD vào năm ngoái.

Tận dụng nguồn dữ liệu tổng hợp

Dữ liệu tổng hợp là dữ liệu được tạo ra bởi hệ thống AI và OpenAI đã coi đó là một lựa chọn thay thế dùng đào tạo cho các mô hình AI thế hệ mới nhất của mình. Theo tạp chí Times đưa tin, Giám đốc điều hành OpenAI, Sam Altman cho biết tại một hội nghị công nghệ vào tháng 5 năm ngoái: “Miễn là bạn có thể vượt qua các thách thức từ nguồn dữ liệu tổng hợp, thì mọi thứ sẽ ổn”.

Tuy nhiên, theo các chuyên gia công nghệ, vấn đề đào tạo các mô hình AI thế hệ mới dựa trên dữ liệu tổng hợp cũng chính do các mô hình AI khác trước đó tạo ra có thể củng cố một số sai lầm và hạn chế từ AI. Vì thế, OpenAI đang nghiên cứu một quy trình để giải quyết vấn đề này.

Whisper, công cụ nhận dạng giọng nói giúp dịch video YouTube

OpenAI cũng đã xây dựng Whisper, một công cụ nhận dạng giọng nói có thể dịch các video và podcast trên YouTube. Mô hình ngôn ngữ lớn mới nhất của công ty, GPT-4, đã được đào tạo trên hơn một triệu giờ thời lượng video YouTube do chính công cụ Whisper phiên dịch.

Photobucket: Kho ảnh từ Myspace và Friendster

Photobucket từng là trang web lưu trữ hình ảnh hàng đầu thế giới, và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ, theo Reuters. Một phần là do nó lưu trữ ảnh cho các trang truyền thông xã hội đầu tiên như Myspace và Friendster.

Tờ Reuters đưa tin, cơ sở dữ liệu hình ảnh của Photobucket có thể sớm được cấp phép cho các công ty công nghệ lớn dùng để đào tạo cho các hệ thống AI của họ. Tuy nhiên, hiện tại phía Photobucket từ chối xác định những đối tác tiềm năng trong thương vụ này.

Có thể bạn quan tâm
Vụ kiện giữa Bộ Tư pháp Mỹ với Apple nêu bật khó khăn trong việc điều chỉnh Big Tech

Tính đầy đủ của luật chống độc quyền hiện hành được thử nghiệm trong bối cảnh thời đại kỹ thuật số đang thay đổi nhanh chóng.

Người Nga bắt đầu sửa chữa smartphone thường xuyên hơn

Số liệu thống kê từ các dịch vụ Avito Services và Profi.ru cho thấy nhu cầu dịch vụ sửa chữa đồ gia dụng và điện tử di động ở Nga đang ngày càng tăng, trong khi việc sửa chữa PC ít thường xuyên hơn.

Vì sao nhân tài AI liên tục rời bỏ Meta?

Nhu cầu tuyển dụng nhân tài trí tuệ nhân tạo (AI) đang cao đến mức Giám đốc điều hành Meta, Mark Zuckerberg được cho là đã phải thu hút các kỹ sư và nhà nghiên cứu AI hàng đầu bằng những lời kêu gọi cá nhân. Nhưng Meta cũng đang mất đi những tài năng AI giàu kinh nghiệm thực sự của mình.

Các giám đốc tài chính ASEAN đồng ý mở rộng thanh toán QR xuyên biên giới

Hôm 5/4, các quan chức tài chính hàng đầu của Hiệp hội các quốc gia Đông Nam Á (ASEAN) đã đồng ý thúc đẩy việc mở rộng thanh toán QR xuyên biên giới, thông qua các nền tảng tương thích.

Thượng viện Mỹ tiếp tục đẩy mạnh về dự luật TikTok

Lãnh đạo Đảng Dân chủ tại Thượng viện Mỹ, Chuck Schumer báo hiệu Thượng viện Mỹ sẽ thông qua dự luật đa đảng về lệnh cấm TikTok.

Nvidia có kế hoạch xây dựng một trung tâm AI trị giá 200 triệu USD ở Đông Nam Á

Nvidia sẽ hợp tác với công ty viễn thông Indosat Ooredoo Hutchison trong dự án mới, nhằm củng cố cơ sở hạ tầng viễn thông và tài năng kỹ thuật số ở Indonesia. Sự hiện diện ngày càng tăng của Nvidia tại Indonesia cũng thể hiện sự thúc đẩy mạnh mẽ hơn của họ vào Đông Nam Á.

Google đang xem xét thu phí tính năng tìm kiếm khi tích hợp AI tiên tiến

Google được cho là đang xem xét một sự thay đổi căn bản trong mô hình kinh doanh của mình khi tích hợp trí tuệ nhân tạo (AI) tiên tiến vào công cụ tìm kiếm của mình.

Giải vô địch các Câu Lạc Bộ Đông Nam Á (ASEAN) đổi tên thành Shopee Cup™

Liên đoàn Bóng đá Đông Nam Á (AFF) vừa công bố Shopee là đối tác tài trợ chính (title partner) cho Giải vô địch các Câu Lạc Bộ Đông Nam Á (ASEAN), qua đó, tên gọi mới của giải được đổi thành Shopee Cup™.

Google khởi kiện những kẻ lừa đảo tiền điện tử lạm dụng kho ứng dụng Android

Google thực hiện hành động pháp lý chống lại những kẻ lừa đảo tiền điện tử bị cáo buộc đưa ứng dụng lừa đảo lên kho ứng dụng Google Play Store.

Apple theo đuổi dự án Robot di động theo dõi người dùng quanh nhà, sau khi từ bỏ xe điện

Vào tháng 2, Apple đã tuyên bố đóng cửa dự án xe điện của mình, gây chấn động làng công nghệ. Giờ đây, Apple đang phát triển dòng robot gia đình, sau khi từ bỏ dự án xe điện, tờ Bloomberg đưa tin.