技术简报#

概述#

旨在操纵人们下载恶意软件、共享敏感信息或向犯罪分子汇款的欺诈性电子邮件正变得越来越普遍。 历史上,由于鱼叉式网络钓鱼攻击的个性化性质,其重点是各个公司的高价值目标。 随着生成式 AI 技术(尤其是那些针对文本生成的)越来越流行,网络犯罪分子越来越容易利用这种力量来创建大规模的鱼叉式网络钓鱼活动。 为了防御鱼叉式网络钓鱼,公司需要投资使用相同的底层技术来防御此类攻击。 利用 AI 解决鱼叉式网络钓鱼问题的传统方法一直难以找到足够的训练数据来创建有效的模型。 这种数据差距使得使用 AI 成为一条艰难的道路,因为每个企业只能看到一小部分攻击。

借助 NVIDIA NeMo 和 Morpheus,现在缺乏可用于创建此类鱼叉式网络钓鱼检测器的可用训练数据已成为过去的问题。 NVIDIA Morpheus 网络安全 AI 框架提供了一个自然语言处理 (NLP) 模型,该模型已使用 NeMo 生成的合成电子邮件进行训练,以识别鱼叉式网络钓鱼尝试。 Morpheus 能够通过首先确定电子邮件的意图来推断电子邮件是否为鱼叉式网络钓鱼:无论是寻求财务信息、请求加密货币,还是索要个人财务信息,例如帐户和路由号码。 然后,Morpheus 将消息的意图与发件人的匿名历史数据相结合,包括句法分析、消息时间安排和先前的意图。 鱼叉式网络钓鱼模型将所有这些数据整合到可操作的结果中。

为了缩短开发网络钓鱼检测解决方案的时间,NVIDIA 开发了鱼叉式网络钓鱼 AI 工作流。 此工作流利用 NVIDIA Morpheus、开源 Postfix 邮件服务器、PostgreSQL 数据库以及一系列使用生成式 AI 技术预训练的模型。 模型推理发生在 Morpheus 管道内,在该管道内会生成一个分数,该分数关联基于消息内容的消息意图分类。 然后,最终用户会收到通知,以验证 AI 模型标记的电子邮件的安全性,以进行意图确认。 然后,此反馈可用于重新训练模型并生成额外的训练电子邮件。

../_images/sp-tb-image1.png

此 NVIDIA AI 工作流包含

  • 自然语言处理 (NLP) 预训练模型,用于分析和分类电子邮件,以识别鱼叉式网络钓鱼尝试

  • 用于鱼叉式网络钓鱼检测的推理管道

  • 生产环境中解决方案部署的参考,包括日志记录和监控工作流等组件。

  • 可作为单个 Helm Chart 打包的云原生可部署捆绑包

使用上述资产,此 NVIDIA AI 工作流为您提供了一个参考,让您可以开始构建自己的 AI 解决方案,只需极少的准备工作,并且包含企业就绪的实施最佳实践,帮助您更快地实现期望的 AI 成果,同时仍然允许您偏离路径。 NVIDIA AI 工作流设计为微服务,这意味着它们可以单独部署在 Kubernetes 上,也可以与其他微服务一起部署,以创建生产就绪的应用程序,以便在您的企业环境中实现无缝扩展。

以下云原生 Kubernetes 服务与此工作流一起使用

  • NVIDIA Morpheus

  • Postfix 邮件服务器

  • MLflow

  • Prometheus

  • Grafana

  • PostgreSQL

这些组件打包在一起成为一个可部署的解决方案,如下图所示

../_images/sp-tb-image2.png

有关所用组件的更多信息,请参见《鱼叉式网络钓鱼工作流指南》和《NVIDIA 云原生服务附加组件包部署指南》

这些组件用于构建和部署鱼叉式网络钓鱼推理管道,并与附加组件集成在一起,如下图所示

../_images/sp-tb-image3.png

预训练模型#

电子邮件意图在决定发件人的电子邮件是良性的还是鱼叉式网络钓鱼方面起着至关重要的作用。 为了利用此信号,对大型语言模型 (LLM) 进行了训练,以使用企业电子邮件内容的样本来推断意图。 NVIDIA 鱼叉式网络钓鱼 AI 工作流包含三个意图模型:电子邮件是否要求付款、讨论加密货币或请求个人财务信息(例如帐户和路由号码)。 这些成为鱼叉式网络钓鱼检测预训练模型的特征,该模型包含在此网络钓鱼检测 AI 工作流中。

注意

预训练模型的训练方式使其不包含来自原始机构/企业的 PII 或敏感信息。

推理管道#

鱼叉式网络钓鱼 AI 工作流推理管道包括发件人行为特征生成、意图分类、评分和标头操作。 下图说明了 Morpheus 鱼叉式网络钓鱼推理管道的概述

../_images/sp-tb-image4.png

电子邮件的分类发生在预处理阶段,该阶段首先利用三个预训练的情感分析模型来预测电子邮件的意图。

  1. 电子邮件是否在请求财务信息?

  2. 电子邮件是否在请求个人信息?

  3. 电子邮件是否提到了加密货币?

注意

可以添加其他情感分析模型以进行电子邮件意图预测。

然后,将意图的结果与历史信息组合成所谓的发件人速写。 这包括有关电子邮件发件人的匿名统计信息,例如邮件的时间、句法分析和先前的意图。 例如,鲍勃通常会在凌晨 2 点以糟糕的语法要求爱丽丝支付比特币吗?

../_images/sp-tb-image5.png

意图分析、发件人速写配置文件和电子邮件被组合在一起,然后用于使用鱼叉式网络钓鱼模型进行推理。 生成的分数也作为电子邮件标头添加,如果分数高于指定的阈值,则会修改主题以包含警告。 管理员可以自定义工作流以采取其他操作,例如将邮件发送到专用隔离邮箱。

附加组件#

以下组件作为工作流解决方案的一部分进行部署和集成

Postfix 邮件服务器

开源 Postfix 邮件服务器用于在推理管道中和管道外获取和发送电子邮件。 管理员可以将他们的 DNS MX 记录配置为指向 Postfix SMTP 服务器。 Postfix 服务器将接受邮件并将其路由到 Morpheus 内容过滤器。 然后,推理管道将邮件重新注入到 Postfix 队列中,其中包含鱼叉式网络钓鱼分析分数,然后将其传递到下一跳邮件服务器,例如 Office 365 或 Gmail。

PostgreSQL

NVIDIA 鱼叉式网络钓鱼 AI 工作流使用开源对象关系数据库系统 PostgreSQL 来存储 MLflow 模型和发件人速写。

MLflow

MLflow 开源平台是管理包含的 AI 模型的关键要素。 MLOps 平台使组织能够轻松管理其端到端机器学习生命周期。 MLflow 使用集中的模型存储,并拥有自己的一组 API 和用户界面,以实现可管理性。 在此工作流中,MLflow 的跟踪数据库由 PostgreSQL 数据库支持。 在管道开始时,Morpheus 鱼叉式网络钓鱼预训练模型将加载到 MLflow 中,并将用于推理。 将模型存储在 MLflow 中允许管理员更新模型,而无需停止和启动管道。

监控

鱼叉式网络钓鱼 AI 工作流使用 Prometheus 输出统计信息。 管道吞吐量统计信息;管道的活动运行状况和状态;以及鱼叉式网络钓鱼频率指标可以通过 Grafana 仪表板 查看。