您当前的位置:   首页 > 新闻中心
机器学习如何加速并提高敏感数据分类的准确性
发布时间:2023-12-13 07:35:58   阅读次数:

image.png

鉴于数据增长的速度和混合 IT 环境的复杂性,敏感数据的发现和分类并不是一项简单的任务。在最近的一项研究中,IDC 预测,从 2022 年到 2026 年,全球数据圈的规模将增加一倍以上,其中 80% 的数据将是非结构化的。传统的数据分类方法使用手动标记,这是劳动密集型、容易出错且不易扩展的。随着组织创建更加多样化、更加以用户为中心的数据产品和服务,对机器学习 (ML) 进行自动分类和提高结果准确性的需求日益增长。本博客将介绍Thales如何使用 ML 模型增强CipherTrust 数据发现和分类 (DDC),帮助分析数据、从见解中学习并改进结果。


浏览不同的数据存储库以获得可见性

数据发现是希望遵守全球数据保护法规的组织的第一步。此过程的一部分包括确定数据的存储位置和方式 - 本地、第三方服务器或云中。虽然组织可能已经知道结构化数据(例如主要客户数据库存储)的位置,但非结构化数据(例如在杂散文件和电子邮件中找到的数据)更难以定位。一旦发现组织的数据,就可以根据各种指标对其进行分类(例如,根据数据的敏感性或从数据中识别个人的难易程度),并根据其相对风险进行分类。数据发现和分类解决方案,例如 CipherTrust 数据发现和分类 (DDC),是组织用来查找和修复结构化和非结构化数据集中的个人身份信息 (PII) 和敏感信息的软件工具,无论是存储在服务器上、桌面上、在电子邮件和数据库中、本地或云端。


下一代数据发现和分类

Thales(泰雷兹)正在扩展 CipherTrust 数据发现和分类 (DDC),将模式匹配与机器学习 (ML) 模型相结合,将不同的数据点连接成有意义的关系。这意味着在组织 IT 系统中的任何位置查找数据,并在上下文中分层进行分类,以提高结果的效率和准确性。机器学习基于不同类型的模型构建,用于不同的目的,例如通过分类来确定文档类别,或通过命名实体识别 (NER) 来识别不同位置的敏感数据。


1.模式匹配:数据的基本分类方法,该技术将已知模式与数据中存在的信息进行匹配。CipherTrust DDC 由 Ground Labs? 专有的模式匹配引擎、Ground Labs 准确搜索语法 (GLASS™) 提供支持,可完整扫描所有文件。CipherTrust DDC 预先构建了 250 多个信息类型(实体),涵盖绝大多数区域和全球数据隐私法律和法规。这包括电子邮件地址、出生日期、电话号码和身份证号码等个人数据;财务数据,例如银行帐号和信用卡号;和患者健康数据。CipherTrust DDC 还可以发现机密(例如 AES 密钥、身份验证机密和 SSH 密钥),以帮助捕获硬编码私钥等安全问题(请参阅此处DDC 支持的信息类型的完整列表)。此外,CipherTrust DDC 还包括符合 GDPR、PCI-DSS、CCPALGPDHIPAA 等 17 项主要数据法律法规的预构建核心分类配置文件。除了模式匹配之外,由 GLASS 提供支持的 CipherTrust DDC 还使用校验和、函数调用和其他方法进行数据验证,并能够快速丢弃误报。


2.信息类型(实体)的命名实体识别 (NER):NER 是一种自然语言处理 (NLP) 方法,可从非结构化文本中提取“命名实体”(例如姓名、位置和日期),而无需耗时的人工分析。例如,出生日期是一个命名实体,可以有多种不同的格式,并且可以有不同语言的各种描述符。传统的分类方法可能会使用“DOB”和“fecha de nacimiento”等关键字来对上下文进行分层,但这不容易在不同类型的文档或全球语言之间进行扩展。相反,CipherTrust DDC 使用 NER 来查找实体之间的关系,以大规模地对上下文进行分层。图 1 显示了示例扫描结果,列出了找到的信息类型以及每种信息类型的出现次数。


机器学习如何加速并提高敏感数据分类的准确性(图2)


机器学习如何加速并提高敏感数据分类的准确性(图3)


3.用于类别分类的机器学习 (ML):另一个 ML 模型用于根据对象的内容确定文档类别,例如,收据或发票将被分类为财务文档,其中可能包含 PII。CipherTrust DDC 使用 ML 模型进行类别分类,以高概率识别文档是否与医疗保健、金融、法律或人力资源相关。图 2 显示了所选数据存储中所有文档按业务部门的类别分布。


机器学习如何加速并提高敏感数据分类的准确性(图4)


下一步

利用正确的工具可以帮助组织提高数据分类和遵守合规性法规的能力。CipherTrust 数据发现和分类机器学习功能目前正在开发中。欢迎联系揽阁信息,了解更多CipherTrust数据发现和分类(DDC)的相关信息。


揽阁信息可提供的部分安全产品和解决方案信息

联系揽阁信息,您可以获取到更多满足全球合规性要求的信息安全产品资料,以及相关的整体解决方案的相关资料。如:


您还可以得到揽阁信息所提供的优质服务。

揽阁信息 · 值得您信赖的信息安全顾问!


相关阅读

购买咨询电话
021-54410609