缓存/重用恒定中间张量¶

以下代码示例说明了如何激活恒定中间张量的缓存，以便在重复执行张量网络收缩时大幅加速，其中只有部分输入张量在每次迭代中更改其值。完整的代码可以在 NVIDIA/cuQuantum 仓库中找到 (此处)。

头文件和数据类型¶

#include <stdlib.h>
#include <stdio.h>

#include <unordered_map>
#include <vector>
#include <cassert>

#include <cuda_runtime.h>
#include <cutensornet.h>


#define HANDLE_ERROR(x)                                           \
{ const auto err = x;                                             \
  if( err != CUTENSORNET_STATUS_SUCCESS )                         \
  { printf("Error: %s in line %d\n", cutensornetGetErrorString(err), __LINE__); \
    fflush(stdout);                                               \
  }                                                               \
};

#define HANDLE_CUDA_ERROR(x)                                      \
{ const auto err = x;                                             \
  if( err != cudaSuccess )                                        \
  { printf("CUDA Error: %s in line %d\n", cudaGetErrorString(err), __LINE__); \
    fflush(stdout);                                               \
  }                                                               \
};


struct GPUTimer
{
    GPUTimer(cudaStream_t stream): stream_(stream)
    {
        HANDLE_CUDA_ERROR(cudaEventCreate(&start_));
        HANDLE_CUDA_ERROR(cudaEventCreate(&stop_));
    }

    ~GPUTimer()
    {
        HANDLE_CUDA_ERROR(cudaEventDestroy(start_));
        HANDLE_CUDA_ERROR(cudaEventDestroy(stop_));
    }

    void start()
    {
        HANDLE_CUDA_ERROR(cudaEventRecord(start_, stream_));
    }

    float seconds()
    {
        HANDLE_CUDA_ERROR(cudaEventRecord(stop_, stream_));
        HANDLE_CUDA_ERROR(cudaEventSynchronize(stop_));
        float time;
        HANDLE_CUDA_ERROR(cudaEventElapsedTime(&time, start_, stop_));
        return time * 1e-3;
    }

    private:
    cudaEvent_t start_, stop_;
    cudaStream_t stream_;
};


int main()
{
    static_assert(sizeof(size_t) == sizeof(int64_t), "Please build this sample on a 64-bit architecture!");

    bool verbose = true;

    // Check cuTensorNet version
    const size_t cuTensornetVersion = cutensornetGetVersion();
    if(verbose)
        printf("cuTensorNet version: %ld\n", cuTensornetVersion);

    // Set GPU device
    int numDevices {0};
    HANDLE_CUDA_ERROR( cudaGetDeviceCount(&numDevices) );
    const int deviceId = 0;
    HANDLE_CUDA_ERROR( cudaSetDevice(deviceId) );
    cudaDeviceProp prop;
    HANDLE_CUDA_ERROR( cudaGetDeviceProperties(&prop, deviceId) );

    if(verbose) {
        printf("===== device info ======\n");
        printf("GPU-local-id:%d\n", deviceId);
        printf("GPU-name:%s\n", prop.name);
        printf("GPU-clock:%d\n", prop.clockRate);
        printf("GPU-memoryClock:%d\n", prop.memoryClockRate);
        printf("GPU-nSM:%d\n", prop.multiProcessorCount);
        printf("GPU-major:%d\n", prop.major);
        printf("GPU-minor:%d\n", prop.minor);
        printf("========================\n");
    }

    typedef float floatType;
    cudaDataType_t typeData = CUDA_R_32F;
    cutensornetComputeType_t typeCompute = CUTENSORNET_COMPUTE_32F;

    if(verbose)
        printf("Included headers and defined data types\n");

定义张量网络和张量大小¶

接下来，我们定义张量网络的结构（即，张量的模式、范围及其连接性）。

    /**********************
    * Computing: O_{a,m} = A_{a,b,c,d} B_{b,c,d,e} C_{e,f,g,h} D_{g,h,i,j} E_{i,j,k,l} F_{k,l,m}
    * We will execute the contraction a few times assuming all input tensors being constant except F.
    **********************/

    constexpr int32_t numInputs = 6;

    // Create vectors of tensor modes
    std::vector<std::vector<int32_t>> modesVec {
        {'a','b','c','d'},
        {'b','c','d','e'},
        {'e','f','g','h'},
        {'g','h','i','j'},
        {'i','j','k','l'},
        {'k','l','m'},
        {'a','m'}
    };

    // Set mode extents
    int64_t sameExtent = 36; // setting same extent for simplicity. In principle extents can differ.
    std::unordered_map<int32_t, int64_t> extent;
    for (auto &vec: modesVec)
    {
        for (auto &mode: vec)
        {
            extent[mode] = sameExtent;
        }
    }

    // Create a vector of extents for each tensor
    std::vector<std::vector<int64_t>> extentVec;
    extentVec.resize(numInputs+1); // hold inputs + output tensors
    for (int i = 0; i < numInputs+1; ++i)
    {
        for (auto mode : modesVec[i])
            extentVec[i].push_back(extent[mode]);
    }

    if(verbose)
        printf("Defined tensor network, modes, and extents\n");

分配内存、初始化数据、初始化 cuTensorNet 句柄¶

接下来，我们为张量网络操作数分配内存并将它们初始化为随机值。然后，我们通过 cutensornetCreate() 初始化 cuTensorNet 库。

    /**********************
    * Allocating data
    **********************/

    std::vector<size_t> elementsVec;
    elementsVec.resize(numInputs+1); // hold inputs + output tensors
    for (int i = 0; i < numInputs+1; ++i)
    {
        elementsVec[i] = 1;
        for (auto mode : modesVec[i])
            elementsVec[i] *= extent[mode];
    }

    size_t totalSize = 0;
    std::vector<size_t> sizeVec;
    sizeVec.resize(numInputs+1); // hold inputs + output tensors
    for (int i = 0; i < numInputs+1; ++i)
    {
        sizeVec[i] = sizeof(floatType) * elementsVec[i];
        totalSize += sizeVec[i];
    }
    if(verbose)
        printf("Total GPU memory used for tensor storage: %.2f GiB\n",
                (totalSize) / 1024. /1024. / 1024);

    void* rawDataIn_d[numInputs];
    void* O_d;
    for (int i = 0; i < numInputs; ++i)
    {
        HANDLE_CUDA_ERROR( cudaMalloc((void**) &rawDataIn_d[i], sizeVec[i]) );
    }
    HANDLE_CUDA_ERROR( cudaMalloc((void**) &O_d, sizeVec[numInputs]));

    floatType* rawDataIn_h[numInputs];
    for (int i = 0; i < numInputs; ++i)
    {
        rawDataIn_h[i] = (floatType*) malloc(sizeof(floatType) * elementsVec[i]);
        if (rawDataIn_h[i] == NULL)
        {
           printf("Error: Host memory allocation failed!\n");
           return -1;
        }
    }
    floatType *O_h = (floatType*) malloc(sizeof(floatType) * elementsVec[numInputs]);
    if (O_h == NULL)
    {
        printf("Error: Host memory allocation failed!\n");
        return -1;
    }

    /*******************
    * Initialize data
    *******************/

    memset(O_h, 0, sizeof(floatType) * elementsVec[numInputs]);
    for (int i = 0; i < numInputs; ++i)
    {
        for (size_t e = 0; e < elementsVec[i]; ++e)
            rawDataIn_h[i][e] = ((floatType) rand()) / RAND_MAX;
    }

    for (int i = 0; i < numInputs; ++i)
    {
        HANDLE_CUDA_ERROR( cudaMemcpy(rawDataIn_d[i], rawDataIn_h[i], sizeVec[i], cudaMemcpyHostToDevice) );
    }

    if(verbose)
        printf("Allocated GPU memory for data, initialize data, and create library handle\n");

    /*************************
    * cuTensorNet
    *************************/

    cudaStream_t stream;
    HANDLE_CUDA_ERROR( cudaStreamCreate(&stream) );

    cutensornetHandle_t handle;
    HANDLE_ERROR( cutensornetCreate(&handle) );

标记恒定张量并创建网络描述符¶

接下来，我们指定哪些输入张量是恒定的，并使用所需的张量模式、范围、步长和限定符（例如，恒定）以及数据和计算类型创建网络描述符。请注意，创建的库上下文将与当前活动的 GPU 相关联。

    /*******************************
    * Set constant input tensors
    *******************************/

    // specify which input tensors are constant
    std::vector<cutensornetTensorQualifiers_t> qualifiersIn;
    qualifiersIn.resize(numInputs);
    for (int i = 0; i < numInputs; ++i)
    {
        if (i < 5)
            qualifiersIn[i].isConstant = 1;
        else
            qualifiersIn[i].isConstant = 0;
    }

    /*******************************
    * Create Network Descriptor
    *******************************/

    int32_t* modesIn[numInputs];
    int32_t numModesIn[numInputs];
    int64_t* extentsIn[numInputs];
    int64_t* stridesIn[numInputs];
    
    for (int i = 0; i < numInputs; ++i)
    {
        modesIn[i] = modesVec[i].data();
        numModesIn[i] = modesVec[i].size();
        extentsIn[i] = extentVec[i].data();
        stridesIn[i] = NULL; // strides are optional; if no stride is provided, cuTensorNet assumes a generalized column-major data layout
    }

    // Set up tensor network
    cutensornetNetworkDescriptor_t descNet;
    HANDLE_ERROR( cutensornetCreateNetworkDescriptor(handle,
                        numInputs, numModesIn, extentsIn, stridesIn, modesIn, qualifiersIn.data(),
                        modesVec[numInputs].size(), extentVec[numInputs].data(), /*stridesOut = */NULL, modesVec[numInputs].data(),
                        typeData, typeCompute,
                        &descNet) );

    if(verbose)
        printf("Initialized the cuTensorNet library and created a tensor network descriptor\n");

收缩顺序和切片¶

在此示例中，我们说明了如何使用预定的收缩路径并通过 cutensornetContractionOptimizerInfoSetAttribute() 将其设置到优化器信息对象中。

    /*******************************
    * Choose workspace limit based on available resources.
    *******************************/

    size_t freeMem, totalMem;
    HANDLE_CUDA_ERROR( cudaMemGetInfo(&freeMem, &totalMem) );
    uint64_t workspaceLimit = (uint64_t)((double)freeMem * 0.9);
    if(verbose)
        printf("Workspace limit = %lu\n", workspaceLimit);

    /*******************************
    * Set contraction order
    *******************************/

    // Create contraction optimizer info
    cutensornetContractionOptimizerInfo_t optimizerInfo;
    HANDLE_ERROR( cutensornetCreateContractionOptimizerInfo(handle, descNet, &optimizerInfo) );

    // set a predetermined contraction path
    std::vector<int32_t> path{0,1,0,4,0,3,0,2,0,1};
    const auto numContractions = numInputs - 1;
    cutensornetContractionPath_t contPath;
    contPath.data = reinterpret_cast<cutensornetNodePair_t*>(const_cast<int32_t*>(path.data()));
    contPath.numContractions = numContractions;

    // provide user-specified contPath
    HANDLE_ERROR( cutensornetContractionOptimizerInfoSetAttribute(
                    handle,
                    optimizerInfo,
                    CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_PATH,
                    &contPath,
                    sizeof(contPath)));
    int64_t numSlices = 1;

    if(verbose)
        printf("Set predetermined contraction path into cuTensorNet optimizer\n");

创建工作区描述符并分配工作区内存¶

接下来，我们创建一个工作区描述符，计算工作区大小，并查询收缩网络所需的最小工作区大小。为了激活中间张量重用，我们需要提供 CACHE 工作区，该工作区将在多个网络收缩中使用。因此，我们查询大小并为两种工作区（CUTENSORNET_WORKSPACE_SCRATCH 和 CUTENSORNET_WORKSPACE_CACHE）分配设备内存，并将这些设置在工作区描述符中。工作区描述符将提供给收缩计划创建和收缩 API。

    /*******************************
    * Create workspace descriptor, allocate workspace, and set it.
    *******************************/

    cutensornetWorkspaceDescriptor_t workDesc;
    HANDLE_ERROR( cutensornetCreateWorkspaceDescriptor(handle, &workDesc) );

    // set SCRATCH workspace, which will be used during each network contraction operation, not needed afterwords
    int64_t requiredWorkspaceSizeScratch = 0;
    HANDLE_ERROR( cutensornetWorkspaceComputeContractionSizes(handle,
                                                            descNet,
                                                            optimizerInfo,
                                                            workDesc) );

    HANDLE_ERROR( cutensornetWorkspaceGetMemorySize(handle,
                                                    workDesc,
                                                    CUTENSORNET_WORKSIZE_PREF_MIN,
                                                    CUTENSORNET_MEMSPACE_DEVICE,
                                                    CUTENSORNET_WORKSPACE_SCRATCH,
                                                    &requiredWorkspaceSizeScratch) );

    void* workScratch = nullptr;
    HANDLE_CUDA_ERROR( cudaMalloc(&workScratch, requiredWorkspaceSizeScratch) );

    HANDLE_ERROR( cutensornetWorkspaceSetMemory(handle,
                                                workDesc,
                                                CUTENSORNET_MEMSPACE_DEVICE,
                                                CUTENSORNET_WORKSPACE_SCRATCH,
                                                workScratch,
                                                requiredWorkspaceSizeScratch) );

    // set CACHE workspace, which will be used across network contraction operations
    int64_t requiredWorkspaceSizeCache = 0;
    HANDLE_ERROR( cutensornetWorkspaceGetMemorySize(handle,
                                                    workDesc,
                                                    CUTENSORNET_WORKSIZE_PREF_MIN,
                                                    CUTENSORNET_MEMSPACE_DEVICE,
                                                    CUTENSORNET_WORKSPACE_CACHE,
                                                    &requiredWorkspaceSizeCache) );

    void* workCache = nullptr;
    HANDLE_CUDA_ERROR( cudaMalloc(&workCache, requiredWorkspaceSizeCache) );

    HANDLE_ERROR( cutensornetWorkspaceSetMemory(handle,
                                                workDesc,
                                                CUTENSORNET_MEMSPACE_DEVICE,
                                                CUTENSORNET_WORKSPACE_CACHE,
                                                workCache,
                                                requiredWorkspaceSizeCache) );

    if(verbose)
        printf("Allocated and set up the GPU workspace\n");

请注意，可以跳过创建工作区描述符和显式处理工作区内存的步骤，而是通过设置设备内存处理程序，在这种情况下，cuTensorNet 将通过从提供的内存池分配/释放内存来隐式处理工作区内存。有关详细信息，请参阅内存管理 API。

收缩计划和自动调优¶

我们创建一个张量网络收缩计划，其中包含 cuTENSOR 的所有成对张量收缩计划。可选地，我们可以自动调优计划，以便 cuTENSOR 为每个成对收缩选择最佳内核。此收缩计划可以重用于许多（可能不同的）数据输入，从而避免冗余地初始化此计划的成本。

    /*******************************
    * Initialize the pairwise contraction plan (for cuTENSOR).
    *******************************/

    cutensornetContractionPlan_t plan;
    HANDLE_ERROR( cutensornetCreateContractionPlan(handle,
                                                    descNet,
                                                    optimizerInfo,
                                                    workDesc,
                                                    &plan) );

    /*******************************
    * Optional: Auto-tune cuTENSOR's cutensorContractionPlan to pick the fastest kernel
    *           for each pairwise tensor contraction.
    *******************************/
    cutensornetContractionAutotunePreference_t autotunePref;
    HANDLE_ERROR( cutensornetCreateContractionAutotunePreference(handle,
                                                        &autotunePref) );

    const int numAutotuningIterations = 5; // may be 0
    HANDLE_ERROR( cutensornetContractionAutotunePreferenceSetAttribute(
                            handle,
                            autotunePref,
                            CUTENSORNET_CONTRACTION_AUTOTUNE_MAX_ITERATIONS,
                            &numAutotuningIterations,
                            sizeof(numAutotuningIterations)) );

    // Modify the plan again to find the best pair-wise contractions
    HANDLE_ERROR( cutensornetContractionAutotune(handle,
                                                    plan,
                                                    rawDataIn_d,
                                                    O_d,
                                                    workDesc,
                                                    autotunePref,
                                                    stream) );

    HANDLE_ERROR( cutensornetDestroyContractionAutotunePreference(autotunePref) );

    if(verbose)
        printf("Created a contraction plan for cuTensorNet and optionally auto-tuned it\n");

张量网络收缩执行¶

最后，我们根据需要多次收缩张量网络，每次可能使用不同的输入。请注意，第一个网络收缩调用将利用提供的 CACHE 工作区来存储恒定中间张量。后续的网络收缩将使用缓存的数据来大幅减少计算时间。

    /**********************
    * Execute the tensor network contraction
    **********************/

    // Create a cutensornetSliceGroup_t object from a range of slice IDs
    cutensornetSliceGroup_t sliceGroup{};
    HANDLE_ERROR( cutensornetCreateSliceGroupFromIDRange(handle, 0, numSlices, 1, &sliceGroup) );

    GPUTimer timer {stream};
    double minTimeCUTENSORNET = 1e100;
    double firstTimeCUTENSORNET = 1e100;
    const int numRuns = 3; // number of repeats to get stable performance results
    for (int i = 0; i < numRuns; ++i)
    {
        HANDLE_CUDA_ERROR( cudaMemcpy(O_d, O_h, sizeVec[numInputs], cudaMemcpyHostToDevice) ); // restore the output tensor on GPU
        HANDLE_CUDA_ERROR( cudaDeviceSynchronize() );

        /*
        * Contract all slices of the tensor network
        */
        timer.start();

        int32_t accumulateOutput = 0; // output tensor data will be overwritten
        HANDLE_ERROR( cutensornetContractSlices(handle,
                        plan,
                        rawDataIn_d,
                        O_d,
                        accumulateOutput,
                        workDesc,
                        sliceGroup, // slternatively, NULL can also be used to contract over all slices instead of specifying a sliceGroup object
                        stream) );

        // Synchronize and measure best timing
        auto time = timer.seconds();
        if (i == 0) 
            firstTimeCUTENSORNET = time;
        minTimeCUTENSORNET = (time > minTimeCUTENSORNET) ? minTimeCUTENSORNET : time;
    }

    if(verbose)
        printf("Contracted the tensor network, each slice used the same contraction plan\n");

    // Print the 1-norm of the output tensor (verification)
    HANDLE_CUDA_ERROR( cudaStreamSynchronize(stream) );
    HANDLE_CUDA_ERROR( cudaMemcpy(O_h, O_d, sizeVec[numInputs], cudaMemcpyDeviceToHost) ); // restore the output tensor on Host
    double norm1 = 0.0;
    for (int64_t i = 0; i < elementsVec[numInputs]; ++i) {
        norm1 += std::abs(O_h[i]);
    }
    if(verbose)
        printf("Computed the 1-norm of the output tensor: %e\n", norm1);

    /*************************/

    // Query the total Flop count for the tensor network contraction
    double flops {0.0};
    HANDLE_ERROR( cutensornetContractionOptimizerInfoGetAttribute(
                        handle,
                        optimizerInfo,
                        CUTENSORNET_CONTRACTION_OPTIMIZER_INFO_FLOP_COUNT,
                        &flops,
                        sizeof(flops)) );

    if(verbose) {
        printf("Number of tensor network slices = %ld\n", numSlices);
        printf("Network contraction flop cost = %e\n", flops);
        printf("Tensor network contraction time (ms):\n");
        printf("\tfirst run (intermediate tensors get cached) = %.3f\n", firstTimeCUTENSORNET * 1000.f);
        printf("\tsubsequent run (cache reused) = %.3f\n", minTimeCUTENSORNET * 1000.f);
    }

释放资源¶

计算完成后，我们需要释放所有资源。

    /***************
    * Free resources
    ****************/

    // Free cuTensorNet resources
    HANDLE_ERROR( cutensornetDestroySliceGroup(sliceGroup) );
    HANDLE_ERROR( cutensornetDestroyContractionPlan(plan) );
    HANDLE_ERROR( cutensornetDestroyWorkspaceDescriptor(workDesc) );
    HANDLE_ERROR( cutensornetDestroyContractionOptimizerInfo(optimizerInfo) );
    HANDLE_ERROR( cutensornetDestroyNetworkDescriptor(descNet) );
    HANDLE_ERROR( cutensornetDestroy(handle) );

    // Free Host memory resources
    if (O_h) free(O_h);
    for (int i = 0; i < numInputs; ++i)
    {
        if (rawDataIn_h[i]) 
            free(rawDataIn_h[i]);
    }
    // Free GPU memory resources
    if (workScratch) cudaFree(workScratch);
    if (workCache) cudaFree(workCache);
    if (O_d) cudaFree(O_d);
    for (int i = 0; i < numInputs; ++i)
    {
        if (rawDataIn_d[i]) 
            cudaFree(rawDataIn_d[i]);
    }
    if(verbose)
        printf("Freed resources and exited\n");

    return 0;
}