运行 Qualification & Profiling Tool 基准测试
使用左侧菜单链接连接到 系统控制台。
连接到 sparkrunner pod。
kubectl exec --stdin --tty sparkrunner-0 -- /bin/bash
如果您已完成之前的任何实验,则应在以下位置 /data/eventlogs 中找到 Spark 日志。我们将使用部分或全部这些日志来运行 Qualification & Profiling Tool 基准测试。使用以下命令确认 Spark 日志的存在
cd /home/spark ls /data/eventlogs
您应该看到类似如下的输出
从上面的列表中,选择一个或多个文件以用于以下命令。您可以通过在命令行上指定一个或多个文件来处理它们,也可以使用通配符处理所有文件
bash /home/spark/spark-scripts/lp-run-qua-pro.sh qualification /data/eventlogs/*
先前命令的输出文件将位于 /home/spark/qualification 目录中。对于您处理的每个日志,都应该有一个目录。
结果为 CSV 格式。
该脚本还会创建一个包含 html 文档的 tar 文件。输出文件可以在以下位置找到
/data/scps/qualification.tar.gz
。您可以从桌面 scp 压缩包,并使用浏览器查看内容。在左侧菜单中打开 桌面 链接,然后单击 VNC 连接按钮。
在桌面上打开终端并运行以下命令
cd ~/Desktop scp nvidia@172.16.0.10:/data/scps/qualification.tar.gz . tar xfz qualification.tar.gz
在 Linux 桌面中打开 Web 浏览器。
转到以下 URL file:///home/nvidia/Desktop/qualification 并选择列出的应用程序 ID 之一。在 /ui/html 目录中,打开
index.html
。
从 Web UI,您可以找到一些基本的应用程序信息,例如应用程序名称/应用程序 ID/应用程序持续时间;“推荐”列将应用程序分为以下不同类别:“强烈推荐”、“推荐”、“不推荐”或“不适用”,后者表示应用程序有作业或阶段失败。“估计加速”列估计应用程序在 GPU 上运行的速度会快多少。加速因子只是应用程序的原始 CPU 持续时间除以估计的 GPU 持续时间。
要运行 Profiling Tool,我们需要返回到 sparkrunner 窗口并运行以下命令。您可以通过在命令行上指定一个或多个文件来处理它们,也可以使用通配符处理所有文件。
bash /home/spark/lp-run-qua-pro.sh profiling /data/eventlogs/*
先前命令的输出文件将位于 /home/spark/ profiling 目录中。对于您处理的每个日志,都应该有一个目录。与 Qualification Tool 不同,没有选项可以使用浏览器查看这些输出文件。