入门指南#

为了利用 RDMA 和 ATS 实现高性能计算，本指南概述了以下步骤

配置 NVIDIA ConnectX-6 Dx 以支持 RoCE
在 VMware ESXi 和虚拟机上启用 ATS
在 NVIDIA ConnectX-6 DX 网卡上启用 ATS
配置 NUMA 亲缘性
创建用于多节点训练的 Docker 文件
在多节点集群上的虚拟机之间设置无密钥登录
运行 ResNet-50 多节点训练示例

配置 NVIDIA ConnectX-6 Dx 网卡和 Spectrum 交换机以支持 RoCE#

为了利用 RoCE，NVIDIA ConnectX-6 Dx 网卡必须在基于 DSCP 的 QoS 模式下的丢包网络上运行 RoCE。以下知识库文章是应用此配置的有用资源：https://community.mellanox.com/s/article/lossless-roce-configuration-for-mlnx-os-switches-in-dscp-based-qos-mode

在本指南中，我们将参考知识库文章中针对 3.8.2008 及更高版本的配置步骤。

在 NVIDIA 交换机上运行以下命令
switch (config) # roce
注意

RoCE 功能已实现自动化，因此在无损网络上运行 RoCE 所需的全部操作就是运行 roce 命令。
创建一个隔离的 vLAN，并将 NVIDIA ConnectX 网卡作为接入端口放入创建的 vLAN 中。连接到交换机端口 1/1 - 1/4 的四台服务器。
1switch (config) # interface vlan 111 2switch (config vlan 111) # exit 3switch (config) # interface ethernet 1/1-1/4 switchport access vlan 111

将接口上的 MTU 设置为 9216（在 3.9.2110 以下版本中，交换机的默认 MTU 为 1500）。

switch (config) # interface ethernet 1/1-1/4 shutdown
switch (config) # interface ethernet 1/1-1/4 mtu 9216
switch (config) # interface ethernet 1/1-1/4 no shutdown

可选，如果您运行的是 Cumulus Linux，请按照以下说明启用 RoCE：https://docs.cumulusnetworks.com/cumulus-linux-42/Network-Solutions/RDMA-over-Converged-Ethernet-RoCE/。

在 VMware ESXi 和虚拟机上启用 ATS#

为了通过高性能实现对等 (P2P)，我们将通过更新 VMKernel，然后更新 VM 配置来启用 ATS。

更新 VMKernel 以支持对等 (P2P)。

要启用 ATS 启动选项，请调用以下命令并重新启动 ESXi
esxcli system settings kernel set -s atsSupport -v TRUE

重新启动后验证值是否正确，调用

esxcli system settings kernel list -o atsSupport

输出应类似于以下内容

Name          Type     Configured  Runtime   Default  Description
------------  -------  ----------  -------   -------  -----------
atsSupport    Bool     TRUE        TRUE      FALSE    Enable Support for PCIe ATS

更新 VM 配置以支持 P2P。
编辑 VM 配置设置
1pciPassthru.allowP2P=true # enable P2P 2pciPassthru.RelaxACSforP2P=true # update ACS capabilities in switch
注意

当启用为 P2P 放宽 ACS 时，VMware 将找到支持 ATS 的直通设备，找到其父交换机，并启用 ACS 直接转换位。之前关于对等网络设备的所有功能必须提供给单个 VM 的限制已被取消。对等设备的每个功能都可以提供给单独的 VM。
如果存在多个 GPU 物理设备，VM 可以使用现有配置为 P2P 指定特定设备
pciPassthru0.cfg.gpu-pci-id = "ssss:bb:dd.f"
注意

gpu-pci-id 是十六进制 SBDF 格式。如果 GPU 处于 SR-IOV 模式，则应指定 VF 地址。

在 NVIDIA ConnectX-6 Dx 网卡上启用 ATS#

使用以下命令安装 python 2.7
sudo apt-get install python
下载并安装 MLNX OFED 5.0：https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/。
- 选择（操作系统/版本/架构）并下载 tar 文件，例如：（Ubuntu/20.04/x86_64）。
- 下载后，将软件包复制到 VM，并运行以下命令解压并安装
  1tar xvf MLNX_OFED_LINUX-5.2-2.2.4.0-ubuntu20.04-x86_64.tgz 2cd MLNX_OFED_LINUX-5.2-2.2.4.0-ubuntu20.04-x86_64.tgz 3sudo ./mlnxofedinstall
  
  注意
  
  上述步骤还将更新所有 CX5 或 CX6 卡的固件。
- 安装完成后运行以下命令
  sudo /etc/init.d/openibd restart
  
  注意
  
  在安装过程中，将检测到 CX-6 网卡，并且 OFED 应更新固件。如果失败，请下载最新的固件并手动更新。之后重复 OFED 安装。

使用以下命令检查 OFED 和固件版本

dpkg -l | grep mlnx-ofed
cat /sys/class/infiniband/mlx5*/fw_ver

启动 Mellanox 软件工具
sudo mst start

使用以下命令检查 CX-6 网卡的 ATS_ENABLED 配置状态。您应该看到类似于以下的输出

sudo mlxconfig -d /dev/mst/mt4123_pciconf0 query | grep -i ATS
ATS_ENABLED                         False(0)

如果不存在，则固件不支持 ATS。请更新到支持 ATS 的固件版本。如果设置为 False，请使用以下命令启用 ATS

sudo mlxconfig -d /dev/mst/mt4123_pciconf0 set ATS_ENABLED=true
Device #1:
----------
Device type:    ConnectX6
Name:           MCX653105A-HDA_Ax
Description:    ConnectX-6 VPI adapter card; HDR IB (200Gb/s) and 200GbE; single-port QSFP56; PCIe4.0 x16; tall bracket; ROHS R6
Device:        /dev/mst/mt4123_pciconf0

Configurations:           Next Boot     New
ATS_ENABLED               False(0)      True(1)
Apply new Configuration? (y/n) [n] : y
Applying... Done!
-I- Please reboot machine to load new configurations.

在两个虚拟机上的 CX-6 上都启用 ATS 后，将主机置于维护模式并重新启动 ESXi 主机。

注意

如果您在两台主机之间配置了 vMotion，则主机上的虚拟机可以在主机重新启动以启用 ATS 时移动到另一台正在运行的主机。

注意

请记住重新提交命令以在 PCIe 交换机上启用 ACS 直接转换位。
ESXi 主机重新启动完成后，重新启动 vCenter 和虚拟机。

接下来，通过运行以下命令验证虚拟机上是否已启用 ATS

sudo mst start
sudo mlxconfig -d /dev/mst/mt4123_pciconf0 query | grep -i ATS
sudo lspci -vvv

搜索 Mellanox CX-6 设备，并验证输出是否包含如下配置的 ATS Capability

Capabilities: [480 v1] Address Translation Service (ATS)
    ATSCap: Invalidate Queue Depth: 00
     ATSCtl: Enable+, Smallest Translation Unit: 00

注意

Enable+ 表示已成功启用。

配置虚拟机的 NUMA 亲缘性#

检查您的网卡和 GPU 连接到哪个 NUMA 节点，在 ESXi 主机上运行以下命令

esxcli hardware pci list | grep -A 30 -B 10 NVIDIA
esxcli hardware pci list | grep -A 30 -B 10 Mellanox

以下输出描述了设备的 NUMA 节点

0000:3b:02.3
    Address: 0000:3b:02.3
    Segment: 0x0000
    Bus: 0x3b
    Slot: 0x02
    Function: 0x3
    VMkernel Name: PF_0.59.0_VF_15
    Vendor Name: NVIDIA Corporation
    Device Name: NVIDIAA100-PCIE-40GB
    Configured Owner: VMkernel
    Current Owner: VMkernel
    Vendor ID: 0x10de
    Device ID: 0x20f1
    SubVendor ID: 0x10de
    SubDevice ID: 0x0000
    Device Class: 0x0302
    Device Class Name: 3D controller
    Programming Interface: 0x00
    Revision ID: 0xa1
    Interrupt Line: 0xff
    IRQ: 255
    Interrupt Vector: 0x00
PCI Pin: 0xff
    Spawned Bus: 0x00
    Flags: 0x0001
    Module ID: 54
    Module Name: nvidia
    Chassis: 0
    Physical Slot: -1
    Slot Description:
    Device Layer Bus Address: s00000001.00.vf15
    Passthru Capable: true
    Parent Device: PCI 0:58:0:0
    Dependent Device: PCI 0:59:2:3
    Reset Method: Function reset
    FPT Sharable: true
    NUMA Node: 0
    Extended Device ID: 65535
    Extended Device Name:

确保网卡和 GPU 位于同一 NUMA 节点上。
在 VM 配置中，添加新的键值对
numa.nodeAffinity = <numa node value>

创建用于多节点训练的 Docker 文件#

按照以下 Dockerfile 创建 Docker 镜像

FROM nvcr.io/nvaie/tensorflow:21.07-tf1-py3

ARG DEBIAN_FRONTEND=noninteractiv

# Set MOFED version, OS version and platform
ENV MOFED_VERSION 5.2-2.2.4.0

#http://content.mellanox.com/ofed/MLNX_OFED-5.2-2.2.4.0/MLNX_OFED_LINUX-5.2-2.2.4.0-ubuntu20.04-x86_64.tgz
ENV OS_VERSION ubuntu20.04

ENV PLATFORM x86_64


RUN pip3 install --user --upgrade pip && \
    pip3 install --no-cache-dir absl-py

RUN apt-get update && \
    apt-get install -y --allow-downgrades --allow-change-held-packages --no-install-recommends \
        apt-utils build-essential cmake tcsh tcl tk \
        make git curl vim wget ca-certificates \
        iputils-ping net-tools ethtool \
        perl lsb-release python-libxml2 \
        iproute2 pciutils libnl-route-3-200 \
        kmod libnuma1 lsof openssh-server \
        swig libelf1 automake libglib2.0-0 \
        autoconf graphviz chrpath flex libnl-3-200 m4 \
        debhelper autotools-dev gfortran libltdl-dev  \
        dmidecode build-essential cmake git zip pciutils hwloc  numactl \
        dpatch bison pkg-config numactl  dkms udev libnl-route-3-dev libnl-3-dev  \
        libmnl0 libmnl-dev expect-dev ncat \
        usbutils iperf3 bc tree \
        quilt  \
        landscape-common  libpci-dev && \
        rm -rf /var/lib/apt/lists/*
# hugepages libgfortran3 netcat
# linux-headers-$(uname -r)


WORKDIR /workspace
RUN wget http://content.mellanox.com/ofed/MLNX_OFED-${MOFED_VERSION}/MLNX_OFED_LINUX-$MOFED_VERSION-$OS_VERSION-$PLATFORM.tgz && \
    tar -xvf MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}.tgz && \
    MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/mlnxofedinstall --user-space-only --without-fw-update --force && \
    tree /workspace/MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/
    #dpkg -i /workspace/MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/DEBS/libibumad-dev*.deb && \
    #dpkg -i /workspace/MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/DEBS/libibumad3*.deb


#    MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/mlnxofedinstall --dpdk --upstream-libs --without-fw-update --force --umad-dev-rw -q
#--user-space-only
#    MLNX_OFED_LINUX-${MOFED_VERSION}-${OS_VERSION}-${PLATFORM}/mlnxofedinstall --dpdk --without-fw-update --force  -q

#WORKDIR /workspace
#RUN wget https://www.mellanox.com/downloads/MFT/mft-4.16.1-9-x86_64-deb.tgz && \
#tar xzvf mft-4.16.1-9-x86_64-deb.tgz&& \
#cd mft-4.16.1-9-x86_64-deb && \
#./install.sh


WORKDIR /workspace
RUN git clone -b cnn_tf_v1.15_compatible https://github.com/tensorflow/benchmarks.git


WORKDIR /workspace
RUN git clone https://github.com/NVIDIA/nccl-tests && \
cd nccl-tests && \
make MPI=1 MPI_HOME=/usr/local/mpi


WORKDIR /workspace
RUN git clone https://github.com/linux-rdma/perftest && \
    cd perftest && \
    ./autogen.sh && \
    CUDA_H_PATH=/usr/local/cuda/include/cuda.h ./configure && \
    make install



WORKDIR /test


RUN rm -f ${_CUDA_COMPAT_PATH}/.*.checked

运行以下命令，在与 Dockerfile 相同的文件夹中构建 docker 多节点容器
sudo docker build -t multinode:latest .

标记镜像并将其上传到您的 NVIDIA AI Enterprise 私有注册表

sudo docker tag multinode <NVIDIA_AI_Enterprise_private_registry_username>/multinode
sudo docker push

在多节点集群上的虚拟机之间设置无密钥登录#

在全新安装的系统上，~/.ssh 目录通常为空。但是，将使用本指南中的步骤生成/添加以下文件

id_rsa 和 id_rsa.pub: 用于节点之间无密钥登录的 SSH 密钥。
authorized_keys: 服务器识别的来自其他节点/系统的 RSA 公钥列表，用于 ssh 访问。
config: 创建的文件，用于在访问其他节点时提供 ssh 安全密钥检查设置。
mpicont.sh: 我们将创建的脚本，用于允许 mpi 在不同节点上的容器之间通信。
ssh_container/: 一个目录，包含上述文件，但用于节点间容器通信。
known_hosts: 此文件由 ssh 自动生成，并列出用户曾经连接的所有主机的密钥。

生成 SSH 密钥#

在主节点上，我们将创建一对在节点之间共享的 ssh 密钥。然后将生成另一对密钥，用于在节点之间运行的容器之间使用。在本指南中，我们将相应地命名每组密钥，但默认密钥名称 id_rsa 和 id_rsa.pub 也可以。

主机/工作节点 SSH 密钥#

在命令行终端中，创建一个新的 SSH 密钥
ssh-keygen -t rsa
输入要保存密钥的文件 (/home/nvidia/.ssh/id_rsa)
id_rsa_host

这将生成以下文件

id_rsa_host
id_rsa_host.pub

容器 SSH 密钥#

创建一个名为 ssh_container 的目录。此目录可以创建在任何位置，但在此示例中，我们将其放在 ~/.ssh 目录中
1mkdir ssh_container 2cd ssh_container 3ssh-keygen -t rsa
输入要保存密钥的文件 (/home/nvidia/.ssh/id_rsa)
<path/to>/ssh_container/id_rsa_cont

在 ssh_container 目录中，这将生成

id_rsa_cont
id_rsa_cont.pub

创建用于无密钥登录的配置文件#

在我们的实验室环境中，Ubuntu 虚拟机的用户名是 nvidia。请在以下步骤中替换用户名以反映您环境中的用户。在主节点上，创建一个名为 config 的文件 (~/.ssh/config)，并放入以下内容

Host *
    User nvidia
    IdentityFile ~/.ssh/id_rsa_host
    StrictHostKeyChecking no
    UserKnownHostsFile=/dev/null

在 ssh_container 目录 (~/.ssh/ssh_container/config) 中，为容器之间的无密钥登录创建另一个 config 文件

Host *
    User nvidia
    IdentityFile /root/.ssh/id_rsa_cont
    StrictHostKeyChecking no
    UserKnownHostsFile=/dev/null
    LogLevel=Error
    ServerAliveInterval=30

将公共 SSH 密钥添加到“Authorized_keys”#

为了使无密钥登录在工作节点上工作，需要将公共 ssh 密钥的内容复制到 authorized_keys 文件中，用于节点间通信和不同节点上容器之间的通信。

在 ~/.ssh 文件夹中

echo `cat id_rsa_host.pub` > authorized_keys

在 ~/.ssh/ssh_container 文件夹中

echo `cat id_rsa_cont.pub` > authorized_keys

创建 mpicont.sh 脚本#

在 ~/.ssh 目录中，创建一个名为 mpicont.sh 的脚本，内容如下

mpicont.sh
docker exec mpicont /bin/bash -c "$SSH_ORIGINAL_COMMAND"

然后使脚本可执行
chmod +x mpicont.sh

将容器 SSH 密钥添加到主节点的 `authorized_keys` 文件#

将以下行添加到主 authorized_keys 文件

command="bash /home/nvidia/.ssh/mpicont.sh",no-port-forwarding,no-agent-forwarding,no-X11-forwarding <add contents of id_rsa_cont.pub>

将 `~/.ssh` 复制到工作节点并确认无密钥登录#

现在我们可以将主节点的 ~/.ssh 目录中的所有文件复制到我们在节点列表中指定的所有工作节点。

scp -r .ssh $<worker_node_IP>:/home/nvidia/.ssh/;done

更改所有节点上 `ssh_container` 中的权限#

在所有节点上，更改 ssh_container/config 文件的所有权，使所有者为 root

sudo chown root:root config

然后将 ssh_container 文件夹中所有文件的权限更改为 600。

sudo chmod 600 *

以下是复制到工作节点的所有文件及其正确权限的列表

~/.ssh$ ll *
-rw------- 1 nvidia nvidia  894 Jan 24 17:46 authorized_keys
-rw-r--r-- 1 nvidia nvidia  125 Jan 24 14:21 config
-rw------- 1 nvidia nvidia 1675 Jan 24 14:19 id_rsa_host
-rw-r--r-- 1 nvidia nvidia  396 Jan 24 14:19 id_rsa_host.pub
-rwxrwxr-x 1 nvidia nvidia   57 Jan 24 15:55 mpicont.sh*

ssh_container:

total 24
drwxrwxr-x 2 nvidia nvidia 4096 Feb  6 16:50 ./
drwxrwxr-x 4 nvidia nvidia 4096 Feb  7 11:29 ../
-rw------- 1 nvidia nvidia  396 Jan 24 15:58 authorized_keys
-rw------- 1 root   root    161 Jan 24 17:54 config
-rw------- 1 nvidia nvidia 1675 Jan 24 15:58 id_rsa_cont
-rw------- 1 nvidia nvidia  396 Jan 24 15:58 id_rsa_cont.pub

现在在所有工作节点上运行 Docker 容器，使用以下命令

sudo docker run -it --gpus=all --net=host --uts=host --ipc=host --ulimit stack=67108864 --ulimit memlock=-1 --shm-size=1g --name=mpicont --device=/dev/infiniband -v /home/nvidia/.ssh/ssh_container:/root/.ssh <NVIDIA_AI_Enterprise_private_registry_username>/multinode:latest sleep infinity

在主节点上，运行

sudo docker run -it --gpus=all --net=host --uts=host --ipc=host --ulimit stack=67108864 --ulimit memlock=-1 --shm-size=1g --name=mpicont --device=/dev/infiniband -v /home/nvidia/.ssh/ssh_container:/root/.ssh <NVIDIA_AI_Enterprise_private_registry_username>/multinode:latest /bin/bash

要测试 ssh 无密钥 mpi 命令是否正在运行，请根据您拥有的工作节点数量运行以下命令

mpirun --allow-run-as-root -H <master_IP>,<worker1_IP>,<worker2_IP>,<worker3_IP> -np "4" hostname

要验证所有工作节点上的可用 GPU，请运行以下命令

mpirun --allow-run-as-root -H <worker1_IP>,<worker2_IP>,<worker3_IP> -np "3" nvidia-smi

注意

在我们的实验室环境中，np（进程数，或者换句话说，GPU 数量）参数为 4。请修改 np 参数以反映您的环境。

输出应反映所有四个节点的主机名。

安装 nv_peer_memory#

在每个节点上安装 nv_peer_mem 模块。

git clone https://github.com/Mellanox/nv_peer_memory.git

cd nv_peer_memory
./build_module.sh
cd /tmp
tar xzf /tmp/nvidia-peer-memory_1.0.orig.tar.gz
cd nvidia-peer-memory-1.0
dpkg-buildpackage -us -uc
dpkg -i <path to generated deb files>

运行 ResNet-50 多节点训练示例#

注意

确保 ssh 无密钥 mpi 正在运行，命令如下

mpirun --allow-run-as-root -H <master_IP>,<worker1_IP>,<worker2_IP>,<worker3_IP> -np "4" hostname

运行以下命令以测试 ResNet-50 多节点基准测试示例，具体取决于工作节点计数

mpirun --allow-run-as-root -H <master_IP>,<worker1_IP>,<worker2_IP>,<worker3_IP>  -np "4 " -x NCCL_IB_DISABLE=0 -x NCCL_DEBUG=INFO  python3 /workspace/benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --model resnet50 --batch_size 512 --use_fp16 --variable_update=horovod --xla=True

解释结果#

此基准测试报告每次报告迭代的每秒图像数训练性能。使用最后几个报告的值来表示训练性能。

Done warm up
Step        Img/sec total_loss
Done warm up
Step        Img/sec total_loss
Done warm up
Step        Img/sec total_loss
Done warm up
Step        Img/sec total_loss
1   images/sec: 2100.6 +/- 0.0 (jitter = 0.0)       7.738
1   images/sec: 2100.8 +/- 0.0 (jitter = 0.0)       7.742
1   images/sec: 2100.2 +/- 0.0 (jitter = 0.0)       7.734
1   images/sec: 2100.8 +/- 0.0 (jitter = 0.0)       7.770
10  images/sec: 2100.0 +/- 61.9 (jitter = 6.6)      7.607
10  images/sec: 2100.4 +/- 60.4 (jitter = 189.7)    7.656
10  images/sec: 2100.9 +/- 59.2 (jitter = 88.7)     7.611
10  images/sec: 2100.9 +/- 59.0 (jitter = 175.8)    7.647
20  images/sec: 2100.2 +/- 39.4 (jitter = 92.3)     7.527
20  images/sec: 2100.2 +/- 43.8 (jitter = 198.3)    7.515
20  images/sec: 2100.1 +/- 41.1 (jitter = 181.8)    7.512
20  images/sec: 2100.1 +/- 43.0 (jitter = 14.7)     7.501
30  images/sec: 2100.9 +/- 34.9 (jitter = 198.3)    7.490
30  images/sec: 2100.4 +/- 35.3 (jitter = 11.1)     7.474
30  images/sec: 2100.7 +/- 33.3 (jitter = 92.9)     7.483
30  images/sec: 2100.3 +/- 34.9 (jitter = 157.3)    7.493
40  images/sec: 2100.5 +/- 28.3 (jitter = 76.4)     7.476
40  images/sec: 2100.9 +/- 31.2 (jitter = 193.8)    7.476
40  images/sec: 2100.5 +/- 31.2 (jitter = 186.9)    7.483
40  images/sec: 2100.2 +/- 31.5 (jitter = 18.9)     7.474
50  images/sec: 2100.8 +/- 28.1 (jitter = 15.0)     7.480
50  images/sec: 2100.3 +/- 28.3 (jitter = 168.8)    7.468
50  images/sec: 2100.7 +/- 25.7 (jitter = 76.4)     7.485
50  images/sec: 2100.2 +/- 27.4 (jitter = 218.1)    7.485
60  images/sec: 2100.2 +/- 25.6 (jitter = 173.0)    7.485
60  images/sec: 2100.3 +/- 23.3 (jitter = 66.1)     7.501
60  images/sec: 2100.4 +/- 24.8 (jitter = 190.7)    7.480
60  images/sec: 2100.2 +/- 26.4 (jitter = 20.6)     7.493
70  images/sec: 2100.4 +/- 24.3 (jitter = 16.4)     7.495
70  images/sec: 2100.4 +/- 23.9 (jitter = 157.3)    7.498
70  images/sec: 2100.0 +/- 22.1 (jitter = 52.3)     7.503
70  images/sec: 2100.5 +/- 23.4 (jitter = 218.3)    7.509
80  images/sec: 2100.3 +/- 22.4 (jitter = 157.3)    7.490
80  images/sec: 2100.2 +/- 20.6 (jitter = 50.7)     7.510
80  images/sec: 2100.6 +/- 21.7 (jitter = 195.2)    7.520
80  images/sec: 2100.2 +/- 22.4 (jitter = 30.3)     7.508
90  images/sec: 2100.8 +/- 21.2 (jitter = 22.3)     7.481
90  images/sec: 2100.1 +/- 20.8 (jitter = 157.3)    7.489
90  images/sec: 2100.7 +/- 19.7 (jitter = 35.1)     7.496
90  images/sec: 2100.7 +/- 20.7 (jitter = 218.1)    7.471
100 images/sec: 2100.2 +/- 20.2 (jitter = 30.3)     7.501
----------------------------------------------------------------
total images/sec: 8400.46
----------------------------------------------------------------
100 images/sec: 1520.1 +/- 19.9 (jitter = 166.6)    7.522
----------------------------------------------------------------
total images/sec: 8400.99
----------------------------------------------------------------
100 images/sec: 1517.6 +/- 18.6 (jitter = 52.3)     7.507
----------------------------------------------------------------
total images/sec: 8400.84
----------------------------------------------------------------
100 images/sec: 1517.9 +/- 19.6 (jitter = 219.0)    7.500
----------------------------------------------------------------
total images/sec: 8400.58
----------------------------------------------------------------