示例¶

在本节中，我们将展示如何使用 cuTensorNet 收缩张量网络。首先，我们描述如何编译示例代码。然后，我们展示一个示例代码，用于执行 cuTensorNet 中的常用步骤。在该示例中，我们执行以下张量收缩

\[R_{k,l} = A_{a,b,c,d,e,f} B_{b,g,h,e,i,j} C_{m,a,g,f,i,k} D_{l,c,h,d,j,m}\]

我们逐步构建代码，每个步骤都在末尾添加代码。这些步骤通过简洁的多行注释块分隔。

建议读者参考概述和 cuTENSOR 文档，以熟悉术语和 cuTENSOR 操作。

编译代码¶

假设 cuQuantum 已在 CUQUANTUM_ROOT 中解压，cuTENSOR 已在 CUTENSOR_ROOT 中解压，我们按如下方式更新库路径

export LD_LIBRARY_PATH=${CUQUANTUM_ROOT}/lib:${CUTENSOR_ROOT}/lib/11:${LD_LIBRARY_PATH}

根据您的 CUDA 工具包，您可能需要选择不同的库版本（例如，${CUTENSOR_ROOT}/lib/11.0）。

下面讨论的串行示例代码 (tensornet_example.cu) 可以通过以下命令编译

nvcc tensornet_example.cu -I${CUQUANTUM_ROOT}/include -I${CUTENSOR_ROOT}/include -L${CUQUANTUM_ROOT}/lib -L${CUTENSOR_ROOT}/lib/11 -lcutensornet -lcutensor -o tensornet_example

对于与 cuTensorNet 库的静态链接，请使用以下命令（请注意，libmetis_static.a 需要显式链接，假设它通过 NVIDIA CUDA 工具包安装并且可以通过 $LIBRARY_PATH 访问）

nvcc tensornet_example.cu -I${CUQUANTUM_ROOT}/include -I${CUTENSOR_ROOT}/include ${CUQUANTUM_ROOT}/lib/libcutensornet_static.a -L${CUTENSOR_DIR}/lib/11 -lcutensor libmetis_static.a -o tensornet_example

为了构建示例的并行 (MPI) 版本（tensornet_example_mpi_auto.cu 和 tensornet_example_mpi.cu），您将需要安装 MPI 库（例如，最新的 Open MPI、MVAPICH 或 MPICH）。特别是，自动并行示例需要CUDA-aware MPI，请参阅下面的代码示例（自动切片分布式并行化）。在这种情况下，您将需要将 -I${MPI_PATH}/include 和 -L${MPI_PATH}/lib -lmpi 添加到构建命令

nvcc tensornet_example_mpi_auto.cu -I${CUQUANTUM_ROOT}/include -I${CUTENSOR_ROOT}/include -I${MPI_PATH}/include -L${CUQUANTUM_ROOT}/lib -L${CUTENSOR_ROOT}/lib/11 -lcutensornet -lcutensor -L${MPI_PATH}/lib -lmpi -o tensornet_example_mpi_auto
nvcc tensornet_example_mpi.cu -I${CUQUANTUM_ROOT}/include -I${CUTENSOR_ROOT}/include -I${MPI_PATH}/include -L${CUQUANTUM_ROOT}/lib -L${CUTENSOR_ROOT}/lib/11 -lcutensornet -lcutensor -L${MPI_PATH}/lib -lmpi -o tensornet_example_mpi

警告

当在没有 CUDA-aware MPI 的情况下运行 tensornet_example_mpi_auto.cu 时，程序将崩溃。

注意

根据 cuQuantum 包的来源，您可能需要将上面的 lib 替换为 lib64。

代码示例（串行）¶

以下代码示例说明了使用 cuTensorNet 所需的常用步骤，并介绍了典型的张量网络操作。完整的示例代码可以在 NVIDIA/cuQuantum 存储库中找到（此处）。

头文件和数据类型¶

#include <stdlib.h>
#include <stdio.h>

#include <unordered_map>
#include <vector>
#include <cassert>

#include <cuda_runtime.h>
#include <cutensornet.h>


#define HANDLE_ERROR(x)                                           \
{ const auto err = x;                                             \
  if( err != CUTENSORNET_STATUS_SUCCESS )                         \
  { printf("Error: %s in line %d\n", cutensornetGetErrorString(err), __LINE__); \
    fflush(stdout);                                               \
  }                                                               \
};

#define HANDLE_CUDA_ERROR(x)                                      \
{ const auto err = x;                                             \
  if( err != cudaSuccess )                                        \
  { printf("CUDA Error: %s in line %d\n", cudaGetErrorString(err), __LINE__); \
    fflush(stdout);                                               \
  }                                                               \
};


struct GPUTimer
{
    GPUTimer(cudaStream_t stream): stream_(stream)
    {
        HANDLE_CUDA_ERROR(cudaEventCreate(&start_));
        HANDLE_CUDA_ERROR(cudaEventCreate(&stop_));
    }

    ~GPUTimer()
    {
        HANDLE_CUDA_ERROR(cudaEventDestroy(start_));
        HANDLE_CUDA_ERROR(cudaEventDestroy(stop_));
    }

    void start()
    {
        HANDLE_CUDA_ERROR(cudaEventRecord(start_, stream_));
    }

    float seconds()
    {
        HANDLE_CUDA_ERROR(cudaEventRecord(stop_, stream_));
        HANDLE_CUDA_ERROR(cudaEventSynchronize(stop_));
        float time;
        HANDLE_CUDA_ERROR(cudaEventElapsedTime(&time, start_, stop_));
        return time * 1e-3;
    }

    private:
    cudaEvent_t start_, stop_;
    cudaStream_t stream_;
};


int main()
{
   static_assert(sizeof(size_t) == sizeof(int64_t), "Please build this sample on a 64-bit architecture!");

   bool verbose = true;

   // Check cuTensorNet version
   const size_t cuTensornetVersion = cutensornetGetVersion();
   if(verbose)
      printf("cuTensorNet version: %ld\n", cuTensornetVersion);

   // Set GPU device
   int numDevices {0};
   HANDLE_CUDA_ERROR( cudaGetDeviceCount(&numDevices) );
   const int deviceId = 0;
   HANDLE_CUDA_ERROR( cudaSetDevice(deviceId) );
   cudaDeviceProp prop;
   HANDLE_CUDA_ERROR( cudaGetDeviceProperties(&prop, deviceId) );

   if(verbose) {
      printf("===== device info ======\n");
      printf("GPU-local-id:%d\n", deviceId);
      printf("GPU-name:%s\n", prop.name);
      printf("GPU-clock:%d\n", prop.clockRate);
      printf("GPU-memoryClock:%d\n", prop.memoryClockRate);
      printf("GPU-nSM:%d\n", prop.multiProcessorCount);
      printf("GPU-major:%d\n", prop.major);
      printf("GPU-minor:%d\n", prop.minor);
      printf("========================\n");
   }

   typedef float floatType;
   cudaDataType_t typeData = CUDA_R_32F;
   cutensornetComputeType_t typeCompute = CUTENSORNET_COMPUTE_32F;

   if(verbose)
      printf("Included headers and defined data types\n");

定义张量网络和张量大小¶

接下来，我们定义张量网络的拓扑结构（即，张量的模式、它们的范围以及它们的连通性）。

   /**********************
   * Computing: R_{k,l} = A_{a,b,c,d,e,f} B_{b,g,h,e,i,j} C_{m,a,g,f,i,k} D_{l,c,h,d,j,m}
   **********************/

   constexpr int32_t numInputs = 4;

   // Create vectors of tensor modes
   std::vector<int32_t> modesA{'a','b','c','d','e','f'};
   std::vector<int32_t> modesB{'b','g','h','e','i','j'};
   std::vector<int32_t> modesC{'m','a','g','f','i','k'};
   std::vector<int32_t> modesD{'l','c','h','d','j','m'};
   std::vector<int32_t> modesR{'k','l'};

   // Set mode extents
   std::unordered_map<int32_t, int64_t> extent;
   extent['a'] = 16;
   extent['b'] = 16;
   extent['c'] = 16;
   extent['d'] = 16;
   extent['e'] = 16;
   extent['f'] = 16;
   extent['g'] = 16;
   extent['h'] = 16;
   extent['i'] = 16;
   extent['j'] = 16;
   extent['k'] = 16;
   extent['l'] = 16;
   extent['m'] = 16;

   // Create a vector of extents for each tensor
   std::vector<int64_t> extentA;
   for (auto mode : modesA)
      extentA.push_back(extent[mode]);
   std::vector<int64_t> extentB;
   for (auto mode : modesB)
      extentB.push_back(extent[mode]);
   std::vector<int64_t> extentC;
   for (auto mode : modesC)
      extentC.push_back(extent[mode]);
   std::vector<int64_t> extentD;
   for (auto mode : modesD)
      extentD.push_back(extent[mode]);
   std::vector<int64_t> extentR;
   for (auto mode : modesR)
      extentR.push_back(extent[mode]);

   if(verbose)
      printf("Defined tensor network, modes, and extents\n");

分配内存并初始化数据¶

接下来，我们为张量网络操作数分配内存并将它们初始化为随机值。

   /**********************
   * Allocating data
   **********************/

   size_t elementsA = 1;
   for (auto mode : modesA)
      elementsA *= extent[mode];
   size_t elementsB = 1;
   for (auto mode : modesB)
      elementsB *= extent[mode];
   size_t elementsC = 1;
   for (auto mode : modesC)
      elementsC *= extent[mode];
   size_t elementsD = 1;
   for (auto mode : modesD)
      elementsD *= extent[mode];
   size_t elementsR = 1;
   for (auto mode : modesR)
      elementsR *= extent[mode];

   size_t sizeA = sizeof(floatType) * elementsA;
   size_t sizeB = sizeof(floatType) * elementsB;
   size_t sizeC = sizeof(floatType) * elementsC;
   size_t sizeD = sizeof(floatType) * elementsD;
   size_t sizeR = sizeof(floatType) * elementsR;
   if(verbose)
      printf("Total GPU memory used for tensor storage: %.2f GiB\n",
             (sizeA + sizeB + sizeC + sizeD + sizeR) / 1024. /1024. / 1024);

   void* rawDataIn_d[numInputs];
   void* R_d;
   HANDLE_CUDA_ERROR( cudaMalloc((void**) &rawDataIn_d[0], sizeA) );
   HANDLE_CUDA_ERROR( cudaMalloc((void**) &rawDataIn_d[1], sizeB) );
   HANDLE_CUDA_ERROR( cudaMalloc((void**) &rawDataIn_d[2], sizeC) );
   HANDLE_CUDA_ERROR( cudaMalloc((void**) &rawDataIn_d[3], sizeD) );
   HANDLE_CUDA_ERROR( cudaMalloc((void**) &R_d, sizeR));

   floatType *A = (floatType*) malloc(sizeof(floatType) * elementsA);
   floatType *B = (floatType*) malloc(sizeof(floatType) * elementsB);
   floatType *C = (floatType*) malloc(sizeof(floatType) * elementsC);
   floatType *D = (floatType*) malloc(sizeof(floatType) * elementsD);
   floatType *R = (floatType*) malloc(sizeof(floatType) * elementsR);

   if (A == NULL || B == NULL || C == NULL || D == NULL || R == NULL)
   {
      printf("Error: Host memory allocation failed!\n");
      return -1;
   }

   /*******************
   * Initialize data
   *******************/

   memset(R, 0, sizeof(floatType) * elementsR);
   for (uint64_t i = 0; i < elementsA; i++)
      A[i] = ((floatType) rand()) / RAND_MAX;
   for (uint64_t i = 0; i < elementsB; i++)
      B[i] = ((floatType) rand()) / RAND_MAX;
   for (uint64_t i = 0; i < elementsC; i++)
      C[i] = ((floatType) rand()) / RAND_MAX;
   for (uint64_t i = 0; i < elementsD; i++)
      D[i] = ((floatType) rand()) / RAND_MAX;

   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[0], A, sizeA, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[1], B, sizeB, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[2], C, sizeC, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[3], D, sizeD, cudaMemcpyHostToDevice) );

   if(verbose)
      printf("Allocated GPU memory for data, and initialize data\n");

cuTensorNet 句柄和网络描述符¶

接下来，我们通过 cutensornetCreate() 初始化 cuTensorNet 库，并使用所需的张量模式、范围和步幅以及数据和计算类型创建网络描述符。请注意，创建的库上下文将与当前活动的 GPU 关联。

   /*************************
   * cuTensorNet
   *************************/

   cudaStream_t stream;
   HANDLE_CUDA_ERROR( cudaStreamCreate(&stream) );

   cutensornetHandle_t handle;
   HANDLE_ERROR( cutensornetCreate(&handle) );

   const int32_t nmodeA = modesA.size();
   const int32_t nmodeB = modesB.size();
   const int32_t nmodeC = modesC.size();
   const int32_t nmodeD = modesD.size();
   const int32_t nmodeR = modesR.size();

   /*******************************
   * Create Network Descriptor
   *******************************/

   const int32_t* modesIn[] = {modesA.data(), modesB.data(), modesC.data(), modesD.data()};
   int32_t const numModesIn[] = {nmodeA, nmodeB, nmodeC, nmodeD};
   const int64_t* extentsIn[] = {extentA.data(), extentB.data(), extentC.data(), extentD.data()};
   const int64_t* stridesIn[] = {NULL, NULL, NULL, NULL}; // strides are optional; if no stride is provided, cuTensorNet assumes a generalized column-major data layout

   // Set up tensor network
   cutensornetNetworkDescriptor_t descNet;
   HANDLE_ERROR( cutensornetCreateNetworkDescriptor(handle,
                     numInputs, numModesIn, extentsIn, stridesIn, modesIn, NULL,
                     nmodeR, extentR.data(), /*stridesOut = */NULL, modesR.data(),
                     typeData, typeCompute,
                     &descNet) );

   if(verbose)
      printf("Initialized the cuTensorNet library and created a tensor network descriptor\n");

最佳收缩顺序和切片¶

在此阶段，我们可以部署 cuTensorNet 优化器来查找优化的收缩路径和切片组合。我们根据可用内存资源选择执行收缩所需的工作区限制，并将其作为约束提供给优化器。然后，我们创建 cutensornetContractionOptimizerConfig_t 类型的优化器配置对象，以指定各种优化器选项，并将其提供给通过 cutensornetContractionOptimize() 调用的优化器。优化器的结果将在 cutensornetContractionOptimizerInfo_t 类型的优化器信息对象中返回。

   /*******************************
   * Choose workspace limit based on available resources.
   *******************************/

   size_t freeMem, totalMem;
   HANDLE_CUDA_ERROR( cudaMemGetInfo(&freeMem, &totalMem) );
   uint64_t workspaceLimit = (uint64_t)((double)freeMem * 0.9);
   if(verbose)
      printf("Workspace limit = %lu\n", workspaceLimit);

   /*******************************
   * Find "optimal" contraction order and slicing
   *******************************/

   cutensornetContractionOptimizerConfig_t optimizerConfig;
   HANDLE_ERROR( cutensornetCreateContractionOptimizerConfig(handle, &optimizerConfig) );

   // Set the desired number of hyper-samples (defaults to 0)
   int32_t num_hypersamples = 8;
   HANDLE_ERROR( cutensornetContractionOptimizerConfigSetAttribute(handle,
                     optimizerConfig,
                     CUTENSORNET_CONTRACTION_OPTIMIZER_CONFIG_HYPER_NUM_SAMPLES,
                     &num_hypersamples,
                     sizeof(num_hypersamples)) );

   // Create contraction optimizer info and find an optimized contraction path
   cutensornetContractionOptimizerInfo_t optimizerInfo;
   HANDLE_ERROR( cutensornetCreateContractionOptimizerInfo(handle, descNet, &optimizerInfo) );

   HANDLE_ERROR( cutensornetContractionOptimize(handle,
                                             descNet,
                                             optimizerConfig,
                                             workspaceLimit,
                                             optimizerInfo) );

   // Query the number of slices the tensor network execution will be split into
   int64_t numSlices = 0;
   HANDLE_ERROR( cutensornetContractionOptimizerInfoGetAttribute(
                  handle,
                  optimizerInfo,
                  CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_NUM_SLICES,
                  &numSlices,
                  sizeof(numSlices)) );
   assert(numSlices > 0);

   if(verbose)
      printf("Found an optimized contraction path using cuTensorNet optimizer\n");

也可以绕过 cuTensorNet 优化器，并通过 cutensornetContractionOptimizerInfoSetAttribute() 将预定的收缩路径以及切片信息直接导入到优化器信息对象。

创建工作区描述符并分配工作区内存¶

接下来，我们创建一个工作区描述符，计算工作区大小，并查询收缩网络所需的最小工作区大小。然后，我们为工作区分配设备内存，并在工作区描述符中设置它。工作区描述符将提供给收缩计划。

   /*******************************
   * Create workspace descriptor, allocate workspace, and set it.
   *******************************/

   cutensornetWorkspaceDescriptor_t workDesc;
   HANDLE_ERROR( cutensornetCreateWorkspaceDescriptor(handle, &workDesc) );

   int64_t requiredWorkspaceSize = 0;
   HANDLE_ERROR( cutensornetWorkspaceComputeContractionSizes(handle,
                                                         descNet,
                                                         optimizerInfo,
                                                         workDesc) );

   HANDLE_ERROR( cutensornetWorkspaceGetMemorySize(handle,
                                                   workDesc,
                                                   CUTENSORNET_WORKSIZE_PREF_MIN,
                                                   CUTENSORNET_MEMSPACE_DEVICE,
                                                   CUTENSORNET_WORKSPACE_SCRATCH,
                                                   &requiredWorkspaceSize) );

   void* work = nullptr;
   HANDLE_CUDA_ERROR( cudaMalloc(&work, requiredWorkspaceSize) );

   HANDLE_ERROR( cutensornetWorkspaceSetMemory(handle,
                                               workDesc,
                                               CUTENSORNET_MEMSPACE_DEVICE,
                                               CUTENSORNET_WORKSPACE_SCRATCH,
                                               work,
                                               requiredWorkspaceSize) );

   if(verbose)
      printf("Allocated and set up the GPU workspace\n");

收缩计划和自动调优¶

我们创建一个张量网络收缩计划，其中包含 cuTENSOR 的所有成对收缩计划。可选地，我们可以自动调整计划，以便 cuTENSOR 为每个成对收缩选择最佳内核。此收缩计划可以重用于许多（可能不同的）数据输入，从而避免冗余地初始化此计划的成本。

   /*******************************
   * Initialize the pairwise contraction plan (for cuTENSOR).
   *******************************/

   cutensornetContractionPlan_t plan;
   HANDLE_ERROR( cutensornetCreateContractionPlan(handle,
                                                descNet,
                                                optimizerInfo,
                                                workDesc,
                                                &plan) );

   /*******************************
   * Optional: Auto-tune cuTENSOR's cutensorContractionPlan to pick the fastest kernel
   *           for each pairwise tensor contraction.
   *******************************/
   cutensornetContractionAutotunePreference_t autotunePref;
   HANDLE_ERROR( cutensornetCreateContractionAutotunePreference(handle,
                                                      &autotunePref) );

   const int numAutotuningIterations = 5; // may be 0
   HANDLE_ERROR( cutensornetContractionAutotunePreferenceSetAttribute(
                           handle,
                           autotunePref,
                           CUTENSORNET_CONTRACTION_AUTOTUNE_MAX_ITERATIONS,
                           &numAutotuningIterations,
                           sizeof(numAutotuningIterations)) );

   // Modify the plan again to find the best pair-wise contractions
   HANDLE_ERROR( cutensornetContractionAutotune(handle,
                                                plan,
                                                rawDataIn_d,
                                                R_d,
                                                workDesc,
                                                autotunePref,
                                                stream) );

   HANDLE_ERROR( cutensornetDestroyContractionAutotunePreference(autotunePref) );

   if(verbose)
      printf("Created a contraction plan for cuTensorNet and optionally auto-tuned it\n");

张量网络收缩执行¶

最后，我们根据需要多次收缩张量网络，每次可能使用不同的输入。张量网络切片（捕获为 cutensornetSliceGroup_t 对象）使用相同的收缩计划计算。为方便起见，当目标是收缩网络中的所有切片时，可以将 NULL 提供给 cutensornetContractSlices() 函数，而不是切片组。我们还清理并释放分配的资源。

   /**********************
   * Execute the tensor network contraction
   **********************/

   // Create a cutensornetSliceGroup_t object from a range of slice IDs
   cutensornetSliceGroup_t sliceGroup{};
   HANDLE_ERROR( cutensornetCreateSliceGroupFromIDRange(handle, 0, numSlices, 1, &sliceGroup) );

   GPUTimer timer {stream};
   double minTimeCUTENSORNET = 1e100;
   const int numRuns = 3; // number of repeats to get stable performance results
   for (int i = 0; i < numRuns; ++i)
   {
      HANDLE_CUDA_ERROR( cudaMemcpy(R_d, R, sizeR, cudaMemcpyHostToDevice) ); // restore the output tensor on GPU
      HANDLE_CUDA_ERROR( cudaDeviceSynchronize() );

      /*
      * Contract all slices of the tensor network
      */
      timer.start();

      int32_t accumulateOutput = 0; // output tensor data will be overwritten
      HANDLE_ERROR( cutensornetContractSlices(handle,
                     plan,
                     rawDataIn_d,
                     R_d,
                     accumulateOutput,
                     workDesc,
                     sliceGroup, // alternatively, NULL can also be used to contract over all slices instead of specifying a sliceGroup object
                     stream) );

      // Synchronize and measure best timing
      auto time = timer.seconds();
      minTimeCUTENSORNET = (time > minTimeCUTENSORNET) ? minTimeCUTENSORNET : time;
   }

   if(verbose)
      printf("Contracted the tensor network, each slice used the same contraction plan\n");

   // Print the 1-norm of the output tensor (verification)
   HANDLE_CUDA_ERROR( cudaStreamSynchronize(stream) );
   HANDLE_CUDA_ERROR( cudaMemcpy(R, R_d, sizeR, cudaMemcpyDeviceToHost) ); // restore the output tensor on Host
   double norm1 = 0.0;
   for (int64_t i = 0; i < elementsR; ++i) {
      norm1 += std::abs(R[i]);
   }
   if(verbose)
      printf("Computed the 1-norm of the output tensor: %e\n", norm1);

   /*************************/

   // Query the total Flop count for the tensor network contraction
   double flops {0.0};
   HANDLE_ERROR( cutensornetContractionOptimizerInfoGetAttribute(
                     handle,
                     optimizerInfo,
                     CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_FLOP_COUNT,
                     &flops,
                     sizeof(flops)) );

   if(verbose) {
      printf("Number of tensor network slices = %ld\n", numSlices);
      printf("Tensor network contraction time (ms) = %.3f\n", minTimeCUTENSORNET * 1000.f);
   }

   // Free cuTensorNet resources
   HANDLE_ERROR( cutensornetDestroySliceGroup(sliceGroup) );
   HANDLE_ERROR( cutensornetDestroyContractionPlan(plan) );
   HANDLE_ERROR( cutensornetDestroyWorkspaceDescriptor(workDesc) );
   HANDLE_ERROR( cutensornetDestroyContractionOptimizerInfo(optimizerInfo) );
   HANDLE_ERROR( cutensornetDestroyContractionOptimizerConfig(optimizerConfig) );
   HANDLE_ERROR( cutensornetDestroyNetworkDescriptor(descNet) );
   HANDLE_ERROR( cutensornetDestroy(handle) );

   // Free Host memory resources
   if (R) free(R);
   if (D) free(D);
   if (C) free(C);
   if (B) free(B);
   if (A) free(A);

   // Free GPU memory resources
   if (work) cudaFree(work);
   if (R_d) cudaFree(R_d);
   if (rawDataIn_d[0]) cudaFree(rawDataIn_d[0]);
   if (rawDataIn_d[1]) cudaFree(rawDataIn_d[1]);
   if (rawDataIn_d[2]) cudaFree(rawDataIn_d[2]);
   if (rawDataIn_d[3]) cudaFree(rawDataIn_d[3]);

   if(verbose)
      printf("Freed resources and exited\n");

   return 0;
}

回想一下，完整的示例代码可以在 NVIDIA/cuQuantum 存储库中找到（此处）。

代码示例（自动切片分布式并行化）¶

可以轻松地调整代码示例（串行）并启用跨多个/许多 GPU 设备（跨多个/许多节点）的自动并行执行。我们将通过使用消息传递接口 (MPI) 作为通信层的示例来说明这一点。下面我们展示了为了启用分布式并行执行而需要进行的少量添加，而无需对原始串行源代码进行任何更改。完整的 MPI 自动示例代码可以在 NVIDIA/cuQuantum 存储库中找到。为了启用自动并行性，cuTensorNet 要求

环境变量 $CUTENSORNET_COMM_LIB 设置为包装器共享库 libcutensornet_distributed_interface_mpi.so 的路径，并且

可执行文件链接到 CUDA-aware MPI 库

上面安装指南中给出了设置这些的详细说明。

首先，除了头文件和数据类型中提到的头文件和定义之外，我们还包括 MPI 头文件并定义一个宏来处理 MPI 错误。我们还需要初始化 MPI 服务，并为每个 MPI 进程分配一个唯一的 GPU 设备，该设备稍后将与 MPI 进程内部创建的 cuTensorNet 库句柄关联。

#include <mpi.h>

#define HANDLE_MPI_ERROR(x)                                       \
{ const auto err = x;                                             \
  if( err != MPI_SUCCESS )                                        \
  { char error[MPI_MAX_ERROR_STRING]; int len;                    \
    MPI_Error_string(err, error, &len);                           \
    printf("MPI Error: %s in line %d\n", error, __LINE__);        \
    fflush(stdout);                                               \
    MPI_Abort(MPI_COMM_WORLD, err);                               \
  }                                                               \
};

MPI 服务初始化必须在第一个 cutensornetCreate() 调用之前进行，该调用创建 cuTensorNet 库句柄。尝试在初始化 MPI 服务之前调用 cutensornetCreate() 将导致错误。

   // Initialize MPI
   HANDLE_MPI_ERROR( MPI_Init(&argc, &argv) );
   int rank {-1};
   HANDLE_MPI_ERROR( MPI_Comm_rank(MPI_COMM_WORLD, &rank) );
   int numProcs {0};
   HANDLE_MPI_ERROR( MPI_Comm_size(MPI_COMM_WORLD, &numProcs) );

如果位于同一节点上的多个 GPU 设备对 MPI 进程可见，我们需要为每个 MPI 进程选择一个独占 GPU 设备。如果您的 MPI 库实现提供的 mpirun（或 mpiexec）命令设置了一个环境变量，该变量显示 MPI 进程在其调用期间的排名，则可以使用该环境变量来设置 CUDA_VISIBLE_DEVICES 以指向专门分配给 MPI 进程的特定单个 GPU 设备（例如，Open MPI 为此目的提供了 ${OMPI_COMM_WORLD_LOCAL_RANK}）。否则，可以手动设置 GPU 设备，如下所示。

   // Set GPU device based on ranks and nodes
   int numDevices {0};
   HANDLE_CUDA_ERROR( cudaGetDeviceCount(&numDevices) );
   const int deviceId = rank % numDevices; // we assume that the processes are mapped to nodes in contiguous chunks
   HANDLE_CUDA_ERROR( cudaSetDevice(deviceId) );
   cudaDeviceProp prop;
   HANDLE_CUDA_ERROR( cudaGetDeviceProperties(&prop, deviceId) );

接下来，我们按照定义张量网络和张量大小中所述定义张量网络。在每个进程一个 GPU 设备模型中，张量网络（包括操作数和结果数据）在每个进程上复制。根进程初始化输入数据并将其广播到其他进程。

   /*******************
   * Initialize data
   *******************/

   memset(R, 0, sizeof(floatType) * elementsR);
   if(rank == 0)
   {
      for (uint64_t i = 0; i < elementsA; i++)
         A[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsB; i++)
         B[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsC; i++)
         C[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsD; i++)
         D[i] = ((floatType) rand()) / RAND_MAX;
   }

   // Broadcast input data to all ranks
   HANDLE_MPI_ERROR( MPI_Bcast(A, elementsA, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(B, elementsB, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(C, elementsC, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(D, elementsD, floatTypeMPI, 0, MPI_COMM_WORLD) );

   // Copy data to GPU
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[0], A, sizeA, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[1], B, sizeB, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[2], C, sizeC, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[3], D, sizeD, cudaMemcpyHostToDevice) );

   if(verbose)
      printf("Allocated GPU memory for data, and initialize data\n");

一旦 MPI 服务被初始化并且 cuTensorNet 库句柄在之后被创建，就可以通过调用 cutensornetDistributedResetConfiguration() 来激活分布式并行执行。按照标准实践，用户的代码需要通过 MPI_Comm_dup 创建重复的 MPI 通信器。然后，通过将指向重复的 MPI 通信器的指针及其大小（以字节为单位）传递给 cutensornetDistributedResetConfiguration() 调用，将重复的 MPI 通信器与 cuTensorNet 库句柄关联。MPI 通信器将存储在 cuTensorNet 库句柄内部，以便对张量网络收缩路径查找器和张量网络收缩执行器的所有后续调用将在所有参与的 MPI 进程（每个 MPI 进程都与其自己的 GPU 关联）之间并行化。

   /*******************************
   * Activate distributed (parallel) execution prior to
   * calling contraction path finder and contraction executor
   *******************************/
   // HANDLE_ERROR( cutensornetDistributedResetConfiguration(handle, NULL, 0) ); // resets back to serial execution
   MPI_Comm cutnComm;
   HANDLE_MPI_ERROR( MPI_Comm_dup(MPI_COMM_WORLD, &cutnComm) ); // duplicate MPI communicator
   HANDLE_ERROR( cutensornetDistributedResetConfiguration(handle, &cutnComm, sizeof(cutnComm)) );
   if(verbose)
      printf("Reset distributed MPI configuration\n");

注意

cutensornetDistributedResetConfiguration() 是一个集体调用，必须由所有参与的 MPI 进程执行。

这种分布式并行化模型的 API 使得在多个 GPU/节点上运行为串行执行编写的源代码变得简单。本质上，所有 MPI 进程将执行完全相同的（串行）源代码，同时在张量网络收缩路径查找器和张量网络收缩执行器调用内部自动执行分布式并行化。张量网络收缩路径查找器的并行化仅在请求的超样本数大于零时才会发生。然而，无论如何，分布式并行化的激活必须先于张量网络收缩路径查找器的调用。也就是说，张量网络收缩路径查找器和张量网络收缩执行的调用必须严格在通过 cutensornetDistributedResetConfiguration() 激活分布式并行化之后完成。当分布式配置设置为并行模式时，通常期望用户通过调用 cutensornetContractSlices() 函数来调用张量网络收缩执行，该函数提供全范围的张量网络切片，这些切片将自动分布在所有 MPI 进程中。

由于张量网络的大小必须足够大，才能从分布式执行中获得加速益处，因此较小的张量网络（仅包含单个切片的张量网络）仍然可以在不进行分布式并行化的情况下进行处理。这可以通过调用 cutensornetDistributedResetConfiguration() 并使用 NULL 参数来代替 MPI 通信器指针来实现（与之前一样，这应该在调用张量网络收缩路径查找器之前完成）。也就是说，分布式并行化和冗余串行执行之间的切换可以基于每个张量网络进行。用户可以决定哪些（较大的）张量网络以并行方式处理，哪些（较小的）张量网络以冗余串行方式处理，只需适当地重置分布式配置即可。在这两种情况下，所有 MPI 进程都将在张量网络执行结束时生成相同的输出张量（结果）。

注意

在当前版本的 cuTensorNet 库中，由 cutensornetContractSlices() 调用触发的并行张量网络收缩执行将阻塞提供的 CUDA 流以及调用 CPU 线程，直到所有 MPI 进程上的执行完成。这是一个临时限制，将在未来版本的 cuTensorNet 库中解除。届时，对 cutensornetContractSlices() 的调用将是完全异步的，类似于串行执行的情况。此外，对于所有 MPI 进程的显式同步（屏障），可以集体调用 cutensornetDistributedSynchronize()。

在终止之前，需要最终确定 MPI 服务。

   // Shut down MPI service
   HANDLE_MPI_ERROR( MPI_Finalize() );

完整的 MPI 自动示例可以在 NVIDIA/cuQuantum 仓库中找到。

代码示例（手动切片分布式并行化）¶

对于高级用户，也可以（但更复杂）调整代码示例（串行）以在多个 GPU 设备上显式地并行化张量网络收缩操作的执行。这里我们也将使用 MPI 作为通信层。为了简洁起见，我们将仅展示需要在串行示例之上进行的更改。完整的 MPI 手动示例代码可以在 NVIDIA/cuQuantum 仓库中找到。请注意，此示例 **不** 需要 CUDA-aware MPI。

首先，除了头文件和数据类型中提到的头文件和定义之外，我们还需要包含 MPI 头文件并定义一个宏来处理 MPI 错误。我们还需要初始化 MPI 服务，并将每个 MPI 进程与其自己的 GPU 设备关联起来，如前所述。

#include <mpi.h>

#define HANDLE_MPI_ERROR(x)                                       \
{ const auto err = x;                                             \
  if( err != MPI_SUCCESS )                                        \
  { char error[MPI_MAX_ERROR_STRING]; int len;                    \
    MPI_Error_string(err, error, &len);                           \
    printf("MPI Error: %s in line %d\n", error, __LINE__);        \
    fflush(stdout);                                               \
    MPI_Abort(MPI_COMM_WORLD, err);                               \
  }                                                               \
};

   // Initialize MPI
   HANDLE_MPI_ERROR( MPI_Init(&argc, &argv) );
   int rank {-1};
   HANDLE_MPI_ERROR( MPI_Comm_rank(MPI_COMM_WORLD, &rank) );
   int numProcs {0};
   HANDLE_MPI_ERROR( MPI_Comm_size(MPI_COMM_WORLD, &numProcs) );

   // Set GPU device based on ranks and nodes
   int numDevices {0};
   HANDLE_CUDA_ERROR( cudaGetDeviceCount(&numDevices) );
   const int deviceId = rank % numDevices; // we assume that the processes are mapped to nodes in contiguous chunks
   HANDLE_CUDA_ERROR( cudaSetDevice(deviceId) );
   cudaDeviceProp prop;
   HANDLE_CUDA_ERROR( cudaGetDeviceProperties(&prop, deviceId) );

接下来，我们按照定义张量网络和张量大小中所述定义张量网络。在每个进程一个 GPU 设备的模型中，张量网络（包括操作数和结果数据）在每个进程上复制。根进程初始化输入数据并将其广播到其他进程。

   /*******************
   * Initialize data
   *******************/

   memset(R, 0, sizeof(floatType) * elementsR);
   if(rank == 0)
   {
      for (uint64_t i = 0; i < elementsA; i++)
         A[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsB; i++)
         B[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsC; i++)
         C[i] = ((floatType) rand()) / RAND_MAX;
      for (uint64_t i = 0; i < elementsD; i++)
         D[i] = ((floatType) rand()) / RAND_MAX;
   }

   // Broadcast input data to all ranks
   HANDLE_MPI_ERROR( MPI_Bcast(A, elementsA, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(B, elementsB, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(C, elementsC, floatTypeMPI, 0, MPI_COMM_WORLD) );
   HANDLE_MPI_ERROR( MPI_Bcast(D, elementsD, floatTypeMPI, 0, MPI_COMM_WORLD) );

   // Copy data to GPU
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[0], A, sizeA, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[1], B, sizeB, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[2], C, sizeC, cudaMemcpyHostToDevice) );
   HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[3], D, sizeD, cudaMemcpyHostToDevice) );

   if(verbose)
      printf("Allocated GPU memory for data, and initialize data\n");

然后，我们在每个进程上创建库句柄和张量网络描述符，如 cuTensorNet 句柄和网络描述符中所述。

接下来，我们为我们的张量网络找到最佳的收缩路径和切片组合。我们将在所有进程上运行 cuTensorNet 优化器，并确定哪个进程具有 FLOP 计数方面最佳的路径。然后，我们将在此进程上打包优化器信息对象，广播打包的缓冲区，并在所有其他进程上解包它。现在，每个进程都具有相同的优化器信息对象，我们使用它来计算每个进程的切片份额。

   // Compute the path on all ranks so that we can choose the path with the lowest cost. Note that since this is a tiny
   // example with 4 operands, all processes will compute the same globally optimal path. This is not the case for large
   // tensor networks. For large networks, hyper-optimization does become beneficial.

   // Enforce tensor network slicing (for parallelization)
   const int32_t min_slices = numProcs;
   HANDLE_ERROR( cutensornetContractionOptimizerConfigSetAttribute(handle,
                  optimizerConfig,
                  CUTENSORNET_CONTRACTION_OPTIMIZER_CONFIG_SLICER_MIN_SLICES,
                  &min_slices,
                  sizeof(min_slices)) );

   // Find an optimized tensor network contraction path on each MPI process
   HANDLE_ERROR( cutensornetContractionOptimize(handle,
                                       descNet,
                                       optimizerConfig,
                                       workspaceLimit,
                                       optimizerInfo) );

   // Query the obtained Flop count
   double flops{-1.};
   HANDLE_ERROR( cutensornetContractionOptimizerInfoGetAttribute(handle,
                     optimizerInfo,
                     CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_FLOP_COUNT,
                     &flops,
                     sizeof(flops)) );

   // Choose the contraction path with the lowest Flop cost
   struct {
      double value;
      int rank;
   } in{flops, rank}, out;
   HANDLE_MPI_ERROR( MPI_Allreduce(&in, &out, 1, MPI_DOUBLE_INT, MPI_MINLOC, MPI_COMM_WORLD) );
   const int sender = out.rank;
   flops = out.value;

   if (verbose)
      printf("Process %d has the path with the lowest FLOP count %lf\n", sender, flops);

   // Get the buffer size for optimizerInfo and broadcast it
   size_t bufSize {0};
   if (rank == sender)
   {
       HANDLE_ERROR( cutensornetContractionOptimizerInfoGetPackedSize(handle, optimizerInfo, &bufSize) );
   }
   HANDLE_MPI_ERROR( MPI_Bcast(&bufSize, 1, MPI_INT64_T, sender, MPI_COMM_WORLD) );

   // Allocate a buffer
   std::vector<char> buffer(bufSize);

   // Pack optimizerInfo on sender and broadcast it
   if (rank == sender)
   {
       HANDLE_ERROR( cutensornetContractionOptimizerInfoPackData(handle, optimizerInfo, buffer.data(), bufSize) );
   }
   HANDLE_MPI_ERROR( MPI_Bcast(buffer.data(), bufSize, MPI_CHAR, sender, MPI_COMM_WORLD) );

   // Unpack optimizerInfo from the buffer
   if (rank != sender)
   {
       HANDLE_ERROR( cutensornetUpdateContractionOptimizerInfoFromPackedData(handle, buffer.data(), bufSize, optimizerInfo) );
   }

   // Query the number of slices the tensor network execution will be split into
   int64_t numSlices = 0;
   HANDLE_ERROR( cutensornetContractionOptimizerInfoGetAttribute(
                  handle,
                  optimizerInfo,
                  CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_NUM_SLICES,
                  &numSlices,
                  sizeof(numSlices)) );
   assert(numSlices > 0);

   // Calculate each process's share of the slices
   int64_t procChunk = numSlices / numProcs;
   int extra = numSlices % numProcs;
   int procSliceBegin = rank * procChunk + std::min(rank, extra);
   int procSliceEnd = (rank == numProcs - 1) ? numSlices : (rank + 1) * procChunk + std::min(rank + 1, extra);

我们现在创建工作空间描述符并分配内存，如创建工作空间描述符并分配工作空间内存中所述，并创建收缩计划和自动调优张量网络。

接下来，在每个进程上，我们创建一个切片组（参见 cutensornetSliceGroup_t），该切片组对应于其张量网络切片份额。然后，我们将此切片组对象提供给 cutensornetContractSlices() 函数，以在每个进程上获得部分收缩结果。

   // Create a cutensornetSliceGroup_t object from a range of slice IDs
   cutensornetSliceGroup_t sliceGroup{};
   HANDLE_ERROR( cutensornetCreateSliceGroupFromIDRange(handle, procSliceBegin, procSliceEnd, 1, &sliceGroup) );

      HANDLE_ERROR( cutensornetContractSlices(handle,
                                 plan,
                                 rawDataIn_d,
                                 R_d,
                                 accumulateOutput,
                                 workDesc,
                                 sliceGroup,
                                 stream) );

最后，我们对部分贡献求和，以获得张量网络收缩的结果。

      // Perform Allreduce operation on the output tensor
      HANDLE_CUDA_ERROR( cudaStreamSynchronize(stream) );
      HANDLE_CUDA_ERROR( cudaMemcpy(R, R_d, sizeR, cudaMemcpyDeviceToHost) ); // restore the output tensor on Host
      HANDLE_MPI_ERROR( MPI_Allreduce(MPI_IN_PLACE, R, elementsR, floatTypeMPI, MPI_SUM, MPI_COMM_WORLD) );

在终止之前，需要最终确定 MPI 服务。

   // Shut down MPI service
   HANDLE_MPI_ERROR( MPI_Finalize() );

完整的 MPI 手动示例可以在 NVIDIA/cuQuantum 仓库中找到。

代码示例 (tensorQR)¶

代码示例 (tensorSVD)¶

代码示例 (GateSplit)¶

代码示例 (MPS 分解)¶

代码示例 (中间张量重用)¶

代码示例 (梯度计算)¶

代码示例 (幅度切片)¶

代码示例 (期望值)¶

代码示例 (边际分布)¶

代码示例 (张量网络采样)¶

实用技巧¶

对于调试，可以设置环境变量 CUTENSORNET_LOG_LEVEL=n。级别 n = 0, 1, …, 5 对应于 cutensornetLoggerSetLevel() 中描述和使用的记录器级别。环境变量 CUTENSORNET_LOG_FILE=<filepath> 可用于将日志输出重定向到 <filepath> 而不是 stdout 的自定义文件。

示例¶