NVIDIA tiết lộ về GK110 – Siêu chip điện toán 7,1 tỷ transistor

Nhắc đến NVIDIA, nhiều người sẽ nghĩ ngay đến các sản phẩm đồ hoạ phổ thông dành cho game (GeForce) hoặc chuyên nghiệp hỗ trợ dựng hình (Quadro). Thời gian gần đây, NVIDIA còn được phần đông người tiêu dùng biết đến như một hãng thiết kế chip SoC ARM dùng cho smartphone & tablet (Tegra). Nhưng ít người để ý rằng hãng này còn là một cái tên lớn trong làng siêu điện toán (HPC) với dòng sản phẩm Tesla. Tại hội thảo công nghệ GPU (GTC 2012) của hãng này tuần trước, NVIDIA vừa tiết lộ về 2 model Tesla mới nhất của hãng này: K10 dựa trên chip GK104 và K20 dựa trên chip GK110.

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - GK110 005 9f6ed


GK110 – Khủng long từ trong trứng

Một “truyền thống” thường gặp ở NVIDIA là hãng này “rất thích” làm ra những con chip cực to. “Càng to càng mập càng chứng tỏ đẳng cấp”, đấy là phong cách của NVIDIA. Điểm nhấn chính của GTC 2012 là chiếc card Tesla K20, vốn dựa trên sức mạnh của con chip GK110. Con chip này không nằm ngoài “truyền thống” trên. Với 7,1 tỷ trans được sản xuất trên tiến trình 28nm (TSMC gia công), con chip này gần như chiếm ngôi đầu bảng về độ “khủng long” của nó.

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - 47675TeslaKeplerGK110FNL800PR 85ad0
Die chip GK110 với 15 khối SMX.


Nói “gần như” là vì hiện GK110 chưa thực sự xuất hiện. Đúng hơn là nó chỉ mới hiện diện trên giấy tờ. Ngoại trừ Tesla K10 dựa trên chip GK104 vốn đã có mặt trên thị trường, K20 dự kiến sẽ xuất hiện vào Q4 năm nay. Có nghĩa GK110 cũng phải đến thời điểm ấy mới bước ra sân khấu. Mà chúng ta không biết liệu tới Q4 này thì có hãng nào khác muốn “giành” ngôi vị chip to nhất hành tinh hay không. Còn tính tới hiện tại, con chip lớn nhất là Tahiti dùng trên card Radeon HD 7900 do AMD sản xuất, vốn có tới 4,3 tỷ trans. Đứng thứ hai là GK104 dùng trên các model GeForce GTX 670 & 680 của NVIDIA với 3,54 tỷ trans. Thứ ba là GF100 có trên GTX 480 cũng của NVIDIA với 3,2 tỷ trans. Ngay đến con chip lớn nhất hiện nay của Intel là Westmere-EX gồm 10 nhân cũng “chỉ mới” đạt 2,6 tỷ trans.

Tuy rằng GK110 vẫn chỉ mới là con chip “trên giấy”, song NVIDIA khá “tử tế” khi cung cấp cho cộng đồng công nghệ khá nhiều tài liệu về nó. Và chúng ta có một hình (render) cấu tạo GK110 để tiện hình dung về nó.

Sơ nét về cấu tạo

Chữ GK trong tên con chip là viết tắt của GeForce Kepler, tức con chip GK110 cũng dựa trên kiến trúc Kepler như GK104. Song GK104 trên thực tế không dành cho HPC, vì năng lực tính toán chính xác kép (double precision – DP) cực thấp của nó (tính toán khoa học cần độ chính xác cao). Ngay cả con chip GF110 (GeForce Fermi) “cũ” vẫn có năng lực DP cao hơn GK104: 0,66 vs. 0,095 TFlops. GK104 chỉ tốt hơn ở năng lực chính xác đơn (single precision): 1,3 vs. 2,3 TFlops. Mặc dù vậy bạn cần lưu ý rằng GF110 chỉ có 512 nhân xử lý (SP) trong khi GK104 có đến 1536 SP (gấp 3 lần).

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - GK110 004 ef365
Năng lực DP của K10 thậm chí kém cả đàn anh Fermi.


Vì vậy mà Tesla K10 (gồm 2 chip GK104) thực ra không phải quân bài chính của NVIDIA cho mảng HPC, mà là K20 (chỉ có 1 chip GK110).

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - GK110SMX 482ed
1 SMX GK110 có 64 DPU.


Vậy GK110 có khác biệt gì so với GK104 để có thể tiến chân vào mảng HPC? Đấy chính là năng lực DP, và khác biệt này nằm ở khối đơn vị cơ bản nhất của kiến trúc Kepler – SMX. SMX về căn bản là sự tiến hoá của khối SM trên kiến trúc Fermi. Nếu 1 SM lúc trước chỉ có 32 SP thì 1 SMX có đến 192 SP (gấp 6 lần). Tuy vậy xung nhịp của các SP Kepler bị giảm đi còn 1/2 so với Fermi, nên thực tế hiệu năng chỉ tăng lên 3 lần. Nhờ vào tiến trình 28nm giúp thu nhỏ transistor xuống còn 1/2 so với tiến trình 40nm và từ đấy tiêu thụ ít điện hơn, hiệu năng trên Kepler tăng gấp 3 lần Fermi (tính trên cùng mức năng lượng bỏ ra).

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - GK110 Block e0c84
Sơ đồ khối toàn chip GK110.


Và điểm cốt yếu nhất ở SMX của GK110: nó có các đơn vị tính toán DP (DPU). GK104 không có DPU nên nếu muốn thực hiện DP, GK104 phải “tổng động viên” toàn bộ khối SMX tham gia. Lượng SMX trên GK104 là 8 khối, quá ít so với 64 DPU mà 1 khối SMX GK110 có. Lại nói về GK110, tổng SMX trên con chip này là 15 khối, tức toàn mảnh silicon 7,1 tỷ trans có 960 DPU. 960 DPU này mang lại năng lực DP lớn đến bao nhiêu? NVIDIA chưa công bố mà chỉ nói nó sẽ gấp 3 lần GF110. Vậy chúng ta có thể “đoán mò” rằng GK110 đạt 0,66 x 3 = 1,98 TFlops. Tất nhiên con số sau cùng sẽ tuỳ theo lượng SP thực cũng như xung thực của con chip.

Có hay không phiên bản GeForce dành cho game ?

Chi tiết thú vị là dù đã công bố sơ đồ khối của toàn con chip song NVIDIA chưa khẳng định gì về số nhân cụ thể, cũng như hiệu năng thực của nó. Tại sao ?

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - Tesla K10K20 specs 3c4da
To be announced…


Vấn đề ở kích thước con chip. Ngay cả được sản xuất trên tiến trình 28nm, 7,1 tỷ trans vẫn là con số cực lớn. Cứ giả định rằng mật độ trans trên GK110 bằng với GK104 (3,54 tỷ @ 294 mm2), thì chúng ta có thể ước đoán GK110 sẽ bự tới 590 mm2!!! Để bạn tiện hình dung, chip GF100 (GTX 480) có kích thước 529 mm2, chip GT200 (GTX 280) có kích thước 576 mm2, chip G80 (GeForce 8800 Ultra) có kích thước 484 mm2. Như vậy về mặt lý thuyết, GK110 sẽ là con chip lớn nhất (xét cả về lượng trans lẫn kích thước die) mà NVIDIA từng làm ra!

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - TeslaGK104K103QtrCovr 5289f
Chiếc card Tesla không có cổng tín hiệu nào để xuất ra màn hình ngoài.


Có một quy luật đánh đổi trong thiết kế chip: chip càng to thì tỷ lệ lỗi & chi phí sản xuất càng lớn, hiệu suất sản xuất (số lượng chip hoàn chỉnh) càng thấp. Và điều này đã từng xảy ra với chip GF100 (40nm) vài năm trước và GK104 (28nm) vừa mới đây, do các dây chuyền của TSMC gặp sự cố trong sản xuất. Hầu hết các khách hàng 28nm của TSMC đều ca thán vì sản lượng thấp. Vậy với con chip “khủng long” GK110, liệu có bao nhiêu hy vọng về một sản lượng “chấp nhận được” ?

Bài toán kinh tế đơn giản: sản lượng thấp dẫn tới chi phí sản xuất cao. Mà chi phí sản xuất càng cao thì càng khó hạ giá thành sản phẩm. GeForce là dòng sản phẩm cho người dùng phổ thông, nên về mặt “nguyên tắc” thị trường, giá của chúng không thể quá cao. Cứ cho rằng NVIDIA tốn gấp đôi chi phí để làm ra 1 chip GK110 (so với GK104) thì giá thành sau cùng của chiếc GeForce dựa trên GK110 (nếu có) cũng sẽ xấp xỉ với GTX 690 (phiên bản 2 chip GK104), tức 1.000 USD! Mà ngay cả như thế, chiếc card GeForce GK110 cũng không mạnh tương đương (về mặt game) GTX 690. Vì nó chỉ có 2.880 SP (192 SP x 15 SMX), chỉ bằng 93,75% lượng SP của GTX 690. Do vậy xét “sơ sơ” về mặt hiệu năng & chi phí sản xuất, GK110 hoàn toàn không phù hợp cho mục tiêu chơi game.

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - GeForceGTX690F 8ee9f
GTX 690 – Chiếc card chơi game 2 chip đắt nhất hiện nay.


Sinh ra cho siêu điện toán

Thực sự tại GTC 2012, NVIDIA không đề cập tới bất kỳ model GeForce hay Quadro nào dựa trên GK110, chỉ có duy nhất model Tesla K20. Điều này trừ yếu tố hiệu năng gaming kém đã bàn ở trên, còn xuất phát từ bối cảnh sử dụng những chiếc card. Các game cùng các ứng dụng dựng hình phổ thông thực ra chỉ cần tới năng lực chính xác đơn, vốn được tạo ra bởi các SP. Các ứng dụng trên hầu như không động chạm gì tới các DPU. DPU chỉ phát huy vai trò của mình ở các ứng dụng HPC (dự báo tài chính, mô phỏng phản ứng sinh hoá lý, phân tích số liệu thống kê, xử lý ảnh viễn thám, dự báo thời tiết, động đất, sóng thần…)

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - TeslaMarketSegments 706d4


Tuy vậy tôi lặp lại phần này không phải vì 960 DPU (con số hoàn chỉnh) có trên GK110. Mà vì các tính năng khác được NVIDIA tối ưu cho HPC. 2 tính năng nổi bật nhất sẽ giúp khai thác K20 hiệu quả hơn các model Tesla khác gồm Dynamic Parallelism và Hyper-Q.

Dynamic Parallelism

Tạo ra nhiều “cơ bắp” (nhân xử lý) chỉ mới là một mặt của vấn đề. Vì không phải lúc nào toàn bộ số “cơ bắp” ấy cũng được dùng triệt để. Ví dụ ở đây là một kernel chương trình do CPU gửi cho GPU xử lý, nhưng GPU chỉ dùng một phần số “cơ bắp” là đã xử lý xong kernel này, phần còn lại hoàn toàn không dùng tới. Rồi GPU gửi trả dữ liệu cho CPU. CPU nhận được dữ liệu mới lại tiếp tục gửi kernel mới cho GPU làm việc. Và cứ thế, có lúc toàn GPU làm việc hết công suất, có lúc không. Nói đơn giản: sức mạnh GPU bị lãng phí về mặt thời gian.

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - DyPar 28017


Dynamic Parallelism là cơ chế cho phép GPU “tự túc” tạo ra các kernel để làm việc tiếp, mà không cần phải “hỏi han” CPU. GPU lúc này chỉ cần trả về dữ liệu sau cùng mà CPU cần. Hiểu nôm na: giống như huyện và tỉnh, tỉnh giao cho huyện trong năm nay phải hoàn thành bao nhiêu công trình, huyện sẽ tự đặt ra các dự án (sao cho vẫn phù hợp với quy hoạch của tỉnh) và tự tiến hành; chứ không như lúc trước, tỉnh giao cái gì, huyện làm cái nấy, không cần biết có hiệu quả hay không.

Hyper-Q

Đây là một tính năng khác cũng nhằm mục đích hạn chế sự lãng phí thời gian, nhưng ở quy mô cao hơn. Lại mượn ví dụ tỉnh / huyện: thay vì mỗi năm chỉ giao cho huyện 1 dự án, nay huyện lập ra nhiều ban bệ (ảo) để tiếp nhận được nhiều dự án hơn mà tỉnh giao, song vẫn nằm ở mức huyện “đủ sức cáng đáng”. Quay lại GK110, đôi khi số lượng các kernel phát sinh (1 MPI) vẫn chưa tiêu thụ hết tài nguyên tính toán của con chip, vẫn còn phần thừa không hoạt động. NVIDIA khắc phục tình trạng này bằng cách tăng lượng MPI (Message Passing Interface) lên con số 32 (có lẽ “đủ” để “vắt kiệt” con chip). Tức CPU cứ việc gửi thật nhiều việc cho GPU, còn khi nào GPU hoàn tất cái đấy tính sau!

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - HyperQ2 79dbd


Sơ kết

Điện toán phức hợp (heterogeneous computing) đang bắt đầu trở thành trào lưu mới của giới công nghệ. Về mặt phần cứng là kiến trúc chip và phần mềm là OpenCL, CUDA, DirectCompute… Một phần quan trọng của nhóm điện toán này là điện toán GPU (GPGPU) với 2 đại diện tiêu biểu là AMD và NVIDIA. Về AMD, hãng này có kiến trúc x86 trong tay và họ tạo ra APU. Còn NVIDIA, “xui xẻo” không được Intel cấp giấy phép x86 nên đơn vị này đành phải phát huy tối đa khả năng của GPU, mà dòng sản phẩm Tesla là đỉnh cao nhất.

NVIDIA tiết lộ về GK110 - Siêu chip điện toán 7,1 tỷ transistor - TeslaGK110K203QtrNCovr 16c2e


Với kiến trúc Fermi, NVIDIA đã thiết lập một vị thế khá vững trên trường HPC. Và nay, họ đang cố gắng củng cố thêm chỗ đứng ấy với kiến trúc Kepler (nhưng chúng ta nên gọi là Big Kepler hay Kepler DP nhỉ?). Trước mắt về lý thuyết, GK110 sẽ là con chip cực mạnh cho HPC, không chỉ về mặt năng lực DP mà còn về sự tối ưu công nghệ cho nó. Đây là điểm mà AMD vẫn kém so với NVIDIA. Song không có sản phẩm nào là vô địch mãi mãi, cũng không có gì là tuyệt đối trong giới công nghệ. Chúng ta hãy xem thử liệu đến Q4 tới, NVIDIA sẽ thực sự mang gì đến với thế giới, thay cho những con số trên giấy của hôm nay.


Theo Genk

Viettel chính thức kinh doanh tại Mozambique

Ngày 15/5, Viettel chính thức công bố kinh doanh và khai trương mạng di động với tên thương hiệu Movitel tại đất nước Mozambique (châu Phi).

Tặng phiếu giảm giá 50% tại Thế giới Di động

Là nội dung chương trình khuyến mãi “Tiếp sức 50% – phá tan bão giá” áp dụng từ 18/5 tới 3/6/2012 dành cho khách hàng khi mua bất kỳ các sản phẩm nào tại Hệ thống cửa hàng thegioididong.com và dienmay.com (trừ laptop, điện tử, điện lạnh) có hóa đơn từ 1,5 triệu đồng trở lên. Theo đó, khách hàng sẽ được tặng ngay Phiếu giảm giá 50% để mua các sản phẩm điện thoại, loa, USB 4Gb.

350 triệu thiết bị Windows 7 sẽ được vận chuyển trong năm nay

Phát biểu tại diễn đàn ở Seoul tuần này, Steve Ballmer cho biết dự kiến sẽ có 350 triệu thiết bị chạy Windows 7 sẽ tiếp tục được xuất xưởng trong năm nay. Trong tháng 4 năm 2011, Microsoft đã thông báo về con số thiết bị chạy Windows 7 bán được là 350 triệu sau 18 tháng phát hành nền tảng này.

Chrome trở thành trình duyệt phổ biến nhất thế giới, theo thống kế của StatCounter

Tuần đầu tiên trong lịch sử, Google Chrome trở thành trình duyệt được sử dụng nhiều nhất trên thế giới, theo StatCounter. Trước đây, Chrome đã từng vượt qua Internet Explorer trong một ngày vào thời điểm cuối tuần, nhưng trong khoảng 14-20/5, lưu lượng truy cập trung bình thông qua Chrome đã vượt Internet Explorer trong khoảng thời gian 7 ngày.

Bưu điện văn hóa xã-Nơi đặt nền CNTT cho nông dân

Để có thể hình thành một nền nông nghiệp bền vững và mạnh mẽ, bà con nông dân phải được tiếp cận với CNTT, bắt đầu tìm hiểu về và hình thành thói quen khai thác thông tin trên mạng nhằm phục vụ cho sản xuất, nuôi trồng, chăn nuôi… Nhưng không phải việc tiếp cận CNTT đều dễ dàng ở mọi địa bàn trên đất nước, trong các điều kiện khó khăn, Bưu điện văn hóa xã (BĐVHX) là một trong những mô hình rất cần thiết và quan trọng đối với bà con ở các vùng sâu vùng xa. Nhìn lại mô hình này ở một tỉnh nông nghiệp như Thanh Hóa để thấy việc nhiều BĐVHX trên cả nước đang đứng trước nguy cơ đóng cửa cũng như chưa được tận dụng là điều hết sức đáng tiếc.

Tặng tiền cho khách dùng ví điện tử Momo

Từ 25/4 đến 24/6/2012, công ty CP Dịch vụ trực tuyến M_Service triển khai chương trình “Khuyến mãi mùa hè – Trải nghiệm cùng ví điện tử Momo”, áp dụng cho tất cả các khách hàng sử dụng ví điện tử Momo.

Đẩy mạnh ứng dụng CNTT để giảm tải cho bệnh viện

Ngày 16/5, Bộ Y tế đã phối hợp với Tập đoàn Bưu chính – Viễn thông Việt Nam (VNPT) tổ chức Hội nghị quốc gia về ứng dụng công nghệ thông tin (CNTT) trong ngành Y tế lần thứ VI với chủ đề “Các giải pháp ứng dụng công nghệ thông tin góp phần nâng cao chất lượng dịch vụ y tế, giảm tải bệnh viện”.

Ra mắt dịch vụ “Giáo dục Đào tạo” trên hệ thống truyền hình OneTV

Từ ngày 08/05/2012, Trung tâm Phát triển Dịch vụ Truyền hình OneTV thuộc Công ty Cổ phần Viễn thông FPT (FPT Telecom) chính thức bổ sung dịch vụ “Giáo dục Đào tạo” trên hệ thống truyền hình của OneTV.

Google bất ngờ ngừng hỗ trợ tính năng chỉ đường tại Việt Nam

Tính năng chỉ đường, một trong những tính năng quan trọng và hữu ích trên dịch vụ bản đồ Google Maps của Google đã không còn được hỗ trợ trên lãnh thổ Việt Nam. Đây là một thiệt thòi không nhỏ với người dùng tại Việt Nam.

LG giới thiệu máy điều hòa với công nghệ Skin Care

Vào cuối tháng 4/2012, công ty Điện Tử LG Việt Nam đã cho ra mắt dòng sản phẩm điều hòa gia dụng mới tại thị trường Việt Nam – LG Skin Care. Đây là sản phẩm có tính năng chăm sóc da Skin Care giúp người sử dụng giải quyết được nỗi lo lắng bị khô da, đảm bảo làn da luôn giữ được độ ẩm trong suốt thời gian sử dụng. Dòng sản phẩm điều hòa LG Skin Care được trang bị chức năng tự động làm sạch, Bộ tạo Ion Plasmaster, chức năng chăm sóc da Skin Care sẽ mang lại một bầu không khí trong lành và chăm sóc người sử dụng một cách toàn diện.