使用 cuTensorNet 执行张量 SVD 采用了与 QR 示例非常相似的工作流程。在这里，我们重点介绍两个 API 之间值得注意的差异。完整代码可以在 NVIDIA/cuQuantum 仓库中找到 (此处)。

定义 SVD 分解¶

与 QR 分解一样，我们首先定义要执行的 SVD 分解，包括数据类型、模式划分和范围。

   /******************************************************
   * Tensor SVD: T_{i,j,m,n} -> U_{i,x,m} S_{x} V_{n,x,j}  
   *******************************************************/

   typedef float floatType;
   cudaDataType_t typeData = CUDA_R_32F;

   // Create vector of modes
   int32_t sharedMode = 'x';

   std::vector<int32_t> modesT{'i','j','m','n'}; // input
   std::vector<int32_t> modesU{'i', sharedMode,'m'};
   std::vector<int32_t> modesV{'n', sharedMode,'j'};  // SVD output

   // Extents
   std::unordered_map<int32_t, int64_t> extentMap;
   extentMap['i'] = 16;
   extentMap['j'] = 16;
   extentMap['m'] = 16;
   extentMap['n'] = 16;

   int64_t rowExtent = computeCombinedExtent(extentMap, modesU);
   int64_t colExtent = computeCombinedExtent(extentMap, modesV);
   // cuTensorNet tensor SVD operates in reduced mode expecting k <= min(m, n)
   int64_t fullSharedExtent = rowExtent <= colExtent? rowExtent: colExtent;
   const int64_t maxExtent = fullSharedExtent / 2;  //fix extent truncation with half of the singular values trimmed out
   extentMap[sharedMode] = maxExtent;

   // Create a vector of extents for each tensor
   std::vector<int64_t> extentT;
   for (auto mode : modesT)
      extentT.push_back(extentMap[mode]);
   std::vector<int64_t> extentU;
   for (auto mode : modesU)
      extentU.push_back(extentMap[mode]);
   std::vector<int64_t> extentV;
   for (auto mode : modesV)
      extentV.push_back(extentMap[mode]);

注意

要执行固定范围截断，我们直接将 maxExtent 设置为与精确 SVD 对应的完整范围的一半。

设置 SVD 截断参数¶

定义 SVD 分解后，我们可以按照与 QR 示例相同的工作流程进行数据分配和张量描述符初始化。在查询工作区之前，我们可以在 cutensornetTensorSVDConfig_t 中选择不同的 SVD 选项。同时，我们可以创建 cutensornetTensorSVDInfo_t 以跟踪运行时截断信息。

   /**********************************************
   * Setup SVD algorithm and truncation parameters
   ***********************************************/

   cutensornetTensorSVDConfig_t svdConfig;
   HANDLE_ERROR( cutensornetCreateTensorSVDConfig(handle, &svdConfig) );

   // set up truncation parameters
   double absCutoff = 1e-2;
   HANDLE_ERROR( cutensornetTensorSVDConfigSetAttribute(handle, 
                                          svdConfig, 
                                          CUTENSORNET_TENSOR_SVD_CONFIG_ABS_CUTOFF, 
                                          &absCutoff, 
                                          sizeof(absCutoff)) );
   double relCutoff = 4e-2;
   HANDLE_ERROR( cutensornetTensorSVDConfigSetAttribute(handle, 
                                          svdConfig, 
                                          CUTENSORNET_TENSOR_SVD_CONFIG_REL_CUTOFF, 
                                          &relCutoff, 
                                          sizeof(relCutoff)) );
   
   // optional: choose gesvdj algorithm with customized parameters. Default is gesvd.
   cutensornetTensorSVDAlgo_t svdAlgo = CUTENSORNET_TENSOR_SVD_ALGO_GESVDJ;
   HANDLE_ERROR( cutensornetTensorSVDConfigSetAttribute(handle, 
                                          svdConfig, 
                                          CUTENSORNET_TENSOR_SVD_CONFIG_ALGO, 
                                          &svdAlgo, 
                                          sizeof(svdAlgo)) );
   cutensornetGesvdjParams_t gesvdjParams{/*tol=*/1e-12, /*maxSweeps=*/80};
   HANDLE_ERROR( cutensornetTensorSVDConfigSetAttribute(handle, 
                                          svdConfig, 
                                          CUTENSORNET_TENSOR_SVD_CONFIG_ALGO_PARAMS, 
                                          &gesvdjParams, 
                                          sizeof(gesvdjParams)) );
   printf("Set up SVDConfig to use GESVDJ algorithm with truncation\n");
   
   /********************************************************
   * Create SVDInfo to record runtime SVD truncation details
   *********************************************************/

   cutensornetTensorSVDInfo_t svdInfo; 
   HANDLE_ERROR( cutensornetCreateTensorSVDInfo(handle, &svdInfo)) ;

执行¶

接下来，我们可以使用 cutensornetWorkspaceComputeSVDSizes() 查询和分配工作区，这与其 QR 对应部分非常相似。在此阶段，我们可以通过调用 cutensornetTensorSVD() 执行 SVD 分解。

   /**********
   * Execution
   ***********/
  
   GPUTimer timer{stream};
   double minTimeCUTENSOR = 1e100;
   const int numRuns = 3; // to get stable perf results
   for (int i=0; i < numRuns; ++i)
   {  
      // restore output
      cudaMemsetAsync(D_U, 0, sizeU, stream);
      cudaMemsetAsync(D_S, 0, sizeS, stream);
      cudaMemsetAsync(D_V, 0, sizeV, stream);
      cudaDeviceSynchronize();
      
      // With value-based truncation, `cutensornetTensorSVD` can potentially update the shared extent in descTensorU/V.
      // We here restore descTensorU/V to the original problem.
      HANDLE_ERROR( cutensornetDestroyTensorDescriptor(descTensorU) );
      HANDLE_ERROR( cutensornetDestroyTensorDescriptor(descTensorV) );
      HANDLE_ERROR( cutensornetCreateTensorDescriptor(handle, numModesU, extentU.data(), strides, modesU.data(), typeData, &descTensorU) );
      HANDLE_ERROR( cutensornetCreateTensorDescriptor(handle, numModesV, extentV.data(), strides, modesV.data(), typeData, &descTensorV) );

      timer.start();
      HANDLE_ERROR( cutensornetTensorSVD(handle, 
                        descTensorIn, D_T, 
                        descTensorU, D_U, 
                        D_S, 
                        descTensorV, D_V, 
                        svdConfig, 
                        svdInfo,
                        workDesc,
                        stream) );
      // Synchronize and measure timing
      auto time = timer.seconds();
      minTimeCUTENSOR = (minTimeCUTENSOR < time) ? minTimeCUTENSOR : time;
   }

   printf("Performing SVD\n");

   HANDLE_CUDA_ERROR( cudaMemcpyAsync(U, D_U, sizeU, cudaMemcpyDeviceToHost) );
   HANDLE_CUDA_ERROR( cudaMemcpyAsync(S, D_S, sizeS, cudaMemcpyDeviceToHost) );
   HANDLE_CUDA_ERROR( cudaMemcpyAsync(V, D_V, sizeV, cudaMemcpyDeviceToHost) );

注意

由于我们在本示例中启用了加权截断选项，如果我们希望多次执行相同的计算，则需要恢复 U 和 V 的张量描述符。

计算完成后，我们仍然需要释放所有资源。