使用 cuTensorNet 执行门分裂操作采用了与 QR 示例和 SVD 示例非常相似的工作流程。在此，我们重点介绍两个 API 之间的显着差异。完整代码可以在 NVIDIA/cuQuantum 存储库中找到（此处）。

定义张量操作数¶

与 QR/SVD 分解一样，我们首先通过指定数据类型、模式分区和范围来定义所有张量操作数。在此过程中，我们选择执行固定范围截断，大小为 16。

   /************************************************************************************
   * Gate Split: A_{i,j,k,l} B_{k,o,p,q} G_{m,n,l,o}-> A'_{i,j,x,m} S_{x} B'_{x,n,p,q}  
   *************************************************************************************/
   typedef float floatType;
   cudaDataType_t typeData = CUDA_R_32F;
   cutensornetComputeType_t typeCompute = CUTENSORNET_COMPUTE_32F;

   // Create vector of modes
   std::vector<int32_t> modesAIn{'i','j','k','l'};
   std::vector<int32_t> modesBIn{'k','o','p','q'};
   std::vector<int32_t> modesGIn{'m','n','l','o'}; // input, G is the gate operator

   std::vector<int32_t> modesAOut{'i','j','x','m'}; 
   std::vector<int32_t> modesBOut{'x','n','p','q'}; // SVD output

   // Extents
   std::unordered_map<int32_t, int64_t> extent;
   extent['i'] = 16;
   extent['j'] = 16;
   extent['k'] = 16;
   extent['l'] = 2;
   extent['m'] = 2;
   extent['n'] = 2;
   extent['o'] = 2;
   extent['p'] = 16;
   extent['q'] = 16;
   
   const int64_t maxExtent = 16; //truncate to a maximal extent of 16
   extent['x'] = maxExtent;

   // Create a vector of extents for each tensor
   std::vector<int64_t> extentAIn;
   for (auto mode : modesAIn)
      extentAIn.push_back(extent[mode]);
   std::vector<int64_t> extentBIn;
   for (auto mode : modesBIn)
      extentBIn.push_back(extent[mode]);
   std::vector<int64_t> extentGIn;
   for (auto mode : modesGIn)
      extentGIn.push_back(extent[mode]);
   std::vector<int64_t> extentAOut;
   for (auto mode : modesAOut)
      extentAOut.push_back(extent[mode]);
   std::vector<int64_t> extentBOut;
   for (auto mode : modesBOut)
      extentBOut.push_back(extent[mode]);
   

执行¶

与 SVD 示例类似，我们可以在 cutensornetTensorSVDConfig_t 中指定 SVD 选项。可以通过调用 cutensornetWorkspaceComputeGateSplitSizes() 和提供的 cutensornetGateSplitAlgo_t 来实现工作区大小查询。最后，我们可以通过调用 cutensornetGateSplit() 来执行门分裂计算。

   /**********************
   * Execution
   **********************/

   GPUTimer timer{stream};
   double minTimeCUTENSOR = 1e100;
   const int numRuns = 3; // to get stable perf results
   for (int i=0; i < numRuns; ++i)
   {  
      // restore output
      cudaMemsetAsync(D_AOut, 0, sizeAOut, stream);
      cudaMemsetAsync(D_S, 0, sizeS, stream);
      cudaMemsetAsync(D_BOut, 0, sizeBOut, stream);

      // With value-based truncation, `cutensornetGateSplit` can potentially update the shared extent in descTensorA/BOut.
      // We here restore descTensorA/BOut to the original problem.
      HANDLE_ERROR( cutensornetDestroyTensorDescriptor(descTensorAOut) );
      HANDLE_ERROR( cutensornetDestroyTensorDescriptor(descTensorBOut) );
      HANDLE_ERROR( cutensornetCreateTensorDescriptor(handle, numModesAOut, extentAOut.data(), strides, modesAOut.data(), typeData, &descTensorAOut) );
      HANDLE_ERROR( cutensornetCreateTensorDescriptor(handle, numModesBOut, extentBOut.data(), strides, modesBOut.data(), typeData, &descTensorBOut) );

      cudaDeviceSynchronize();
      timer.start();
      HANDLE_ERROR( cutensornetGateSplit(handle, 
                                         descTensorAIn, D_AIn,
                                         descTensorBIn, D_BIn,
                                         descTensorGIn, D_GIn,
                                         descTensorAOut, D_AOut,
                                         D_S,
                                         descTensorBOut, D_BOut,
                                         gateAlgo,
                                         svdConfig, typeCompute, svdInfo, 
                                         workDesc, stream) );
      // Synchronize and measure timing
      auto time = timer.seconds();
      minTimeCUTENSOR = (minTimeCUTENSOR < time) ? minTimeCUTENSOR : time;
   }

   printf("Performing Gate Split\n");

注意

与 cutensornetTensorSVD() 中一样，由于我们在本示例中启用了加权截断选项，如果我们希望多次执行相同的计算，则需要恢复输出 A 和 B 的张量描述符。

计算完成后，我们始终需要释放所有资源。