OpenCL benchmark Master - compute performance (2023)

Started by nuninho1980, May 01, 2023, 11:53:24 AM

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

nuninho1980

Hello, guys. :)

QuoteOpenCL-Benchmark
A small OpenCL benchmark program to measure peak GPU/CPU performance.

Works with any GPU in Windows, Linux, macOS and Android.

Measurements
compute performance (FP64, FP32, FP16, INT64, INT32, INT16, INT8)
memory bandwidth (coalesced/misaligned read/write)
PCIe bandwidth (send/receive/bidirectional)

Source page - read more

> DOWNLOAD - x64 binary for Windows <

My result - Zotac GeForce RTX 4090 Trinity non-OC@stock and i7-12700KF@5.2GHz running W10 22h2:
|----------------.------------------------------------------------------------|
| Device ID      | 0                                                          |
| Device Name    | NVIDIA GeForce RTX 4090                                    |
| Device Vendor  | NVIDIA Corporation                                        |
| Device Driver  | 531.61                                                    |
| OpenCL Version | OpenCL C 1.2                                              |
| Compute Units  | 128 at 2520 MHz (16384 cores, 82.575 TFLOPs/s)            |
| Memory, Cache  | 24563 MB, 3584 KB global / 48 KB local                    |
| Buffer Limits  | 6140 MB global, 64 KB constant                            |
|----------------'------------------------------------------------------------|
| Info: OpenCL C code successfully compiled.                                  |
| FP64  compute                                        1.382 TFLOPs/s (1/64) |
| FP32  compute                                        84.755 TFLOPs/s ( 1x ) |
| FP16  compute                                          not supported        |
| INT64 compute                                        4.224  TIOPs/s (1/24) |
| INT32 compute                                        43.989  TIOPs/s (1/2 ) |
| INT16 compute                                        38.042  TIOPs/s (1/2 ) |
| INT8  compute                                        36.600  TIOPs/s (1/2 ) |
| Memory Bandwidth ( coalesced read      )                        925.65 GB/s |
| Memory Bandwidth ( coalesced      write)                        896.95 GB/s |
| Memory Bandwidth (misaligned read      )                        923.98 GB/s |
| Memory Bandwidth (misaligned      write)                        212.53 GB/s |
| PCIe  Bandwidth (send                )                        14.34 GB/s |
| PCIe  Bandwidth (  receive          )                        14.09 GB/s |
| PCIe  Bandwidth (        bidirectional)            (Gen4 x16)  14.21 GB/s |
|-----------------------------------------------------------------------------|
:)

Stefan

.-----------------------------------------------------------------------------.
|----------------.------------------------------------------------------------|
| Device ID    0 | NVIDIA GeForce RTX 3080 Laptop GPU                         |
| Device ID    1 | gfx90c                                                     |
|----------------'------------------------------------------------------------|
|----------------.------------------------------------------------------------|
| Device ID      | 0                                                          |
| Device Name    | NVIDIA GeForce RTX 3080 Laptop GPU                         |
| Device Vendor  | NVIDIA Corporation                                         |
| Device Driver  | 535.50                                                     |
| OpenCL Version | OpenCL C 1.2                                               |
| Compute Units  | 48 at 1245 MHz (6144 cores, 15.299 TFLOPs/s)               |
| Memory, Cache  | 8191 MB, 1344 KB global / 48 KB local                      |
| Buffer Limits  | 2047 MB global, 64 KB constant                             |
|----------------'------------------------------------------------------------|
| Info: OpenCL C code successfully compiled.                                  |
| FP64  compute                                         0.321 TFLOPs/s (1/64) |
| FP32  compute                                        19.365 TFLOPs/s ( 1x ) |
| FP16  compute                                          not supported        |
| INT64 compute                                         2.237  TIOPs/s (1/8 ) |
| INT32 compute                                         8.377  TIOPs/s (1/2 ) |
| INT16 compute                                         7.205  TIOPs/s (1/2 ) |
| INT8  compute                                         6.523  TIOPs/s (1/2 ) |
| Memory Bandwidth ( coalesced read      )                        364.62 GB/s |
| Memory Bandwidth ( coalesced      write)                        372.59 GB/s |
| Memory Bandwidth (misaligned read      )                        364.49 GB/s |
| Memory Bandwidth (misaligned      write)                        105.34 GB/s |
| PCIe   Bandwidth (send                 )                          6.57 GB/s |
| PCIe   Bandwidth (   receive           )                          6.53 GB/s |
| PCIe   Bandwidth (        bidirectional)            (Gen3 x16)    6.54 GB/s |
|-----------------------------------------------------------------------------|
|----------------.------------------------------------------------------------|
| Device ID      | 1                                                          |
| Device Name    | gfx90c                                                     |
| Device Vendor  | Advanced Micro Devices, Inc.                               |
| Device Driver  | 3516.0 (PAL,HSAIL)                                         |
| OpenCL Version | OpenCL C 2.0                                               |
| Compute Units  | 8 at 2100 MHz (512 cores, 2.150 TFLOPs/s)                  |
| Memory, Cache  | 12360 MB, 16 KB global / 32 KB local                       |
| Buffer Limits  | 10071 MB global, 10312934 KB constant                      |
|----------------'------------------------------------------------------------|
| Info: OpenCL C code successfully compiled.                                  |
| FP64  compute                                         0.132 TFLOPs/s (1/16) |
| FP32  compute                                         1.988 TFLOPs/s ( 1x ) |
| FP16  compute                                         3.917 TFLOPs/s ( 2x ) |
| INT64 compute                                         0.327  TIOPs/s (1/8 ) |
| INT32 compute                                         0.426  TIOPs/s (1/4 ) |
| INT16 compute                                         0.831  TIOPs/s (1/3 ) |
| INT8  compute                                         0.834  TIOPs/s (1/3 ) |
| Memory Bandwidth ( coalesced read      )                         46.12 GB/s |
| Memory Bandwidth ( coalesced      write)                         43.23 GB/s |
| Memory Bandwidth (misaligned read      )                         46.30 GB/s |
| Memory Bandwidth (misaligned      write)                         46.15 GB/s |
| PCIe   Bandwidth (send                 )                         10.53 GB/s |
| PCIe   Bandwidth (   receive           )                         10.46 GB/s |
| PCIe   Bandwidth (        bidirectional)            (Gen4 x16)   10.50 GB/s |
|-----------------------------------------------------------------------------|
|-----------------------------------------------------------------------------|
| Done. Press Enter to exit.                                                  |
'-----------------------------------------------------------------------------'