Sensitive Data Protection 包含许多内置的 infoType 检测器,但您也可自行创建。您可以通过定义自己的自定义 infoType 检测器来自定义检测行为,以便 Sensitive Data Protection 检查与您指定的模式相匹配的敏感数据或对其进行去标识化。以下是自定义 infoType 检测器的类型:
- 常规自定义字典检测器 - 敏感数据保护功能匹配的简单字词和短语列表。如果您的字词数最多几十万,请使用常规自定义字典检测器。
- 大型自定义字典检测器 - 由敏感数据保护功能使用 Cloud Storage 或 BigQuery 中存储的大量字词或短语生成。如果您有一个包含高达数千万个字词或短语的庞大列表,请使用大型自定义字典检测器。
- 正则表达式 (regex) 检测器使敏感数据保护能够基于正则表达式模式检测匹配项。
- 代理 infoType 检测器可检测 Sensitive Data Protection 去标识化转换
CryptoReplaceFfxFpeConfig
中的输出。此自定义 infoType 检测器仅与content:reidentify
方法结合使用,目的是在 FFX 模式下通过保留格式加密 (FPE) 逆转去标识化。因此,这些主题中未详细介绍代理。如需详细了解如何以及何时使用代理自定义 infoType 检测器,请参阅假名化。
此外,敏感数据保护还包含检查规则的概念,因此您可使用以下规则微调扫描结果:
- 通过排除规则,您可以通过向内置或自定义 infoType 检测器添加规则来排除错误或不需要的结果。
- 通过热词规则,您可以通过向内置或自定义 infoType 检测器添加规则来增加返回结果的数量或提高准确率。
如需详细了解自定义 infoType 检测器,请参阅 InfoType 和 InfoType 检测器概念页面。如需您可以根据需要使用或更改的几个示例,请参阅自定义 infoType 检测器示例。本主题的其余部分介绍了如何使用 Sensitive Data Protection 自行创建自定义 infoType 检测器。
自定义 infoType 检测器的使用范围
自定义 infoType 检测器在 CustomInfoType
对象中定义的。配置以下内容时,请在 InspectConfig
对象中指定 CustomInfoType
:
- 使用
projects.content.inspect
进行检查。 InspectJobConfig
内的检查作业。InspectTemplate
内的检查模板。- 使用
projects.content.deidentify
进行去标识化。 DeidentifyTemplate
内的去标识化模板。- 在 FFX 模式下使用
projects.content.reidentify
和 FPE 重标识已去标识化的内容。 此方案特定于代理自定义 infoType 检测器。
API 概览
借助 CustomInfoType
对象,您可以为新内容创建自定义 infoType 检测器或微调由预定义的 infoType 检测器返回的结果。
CustomInfoType
对象由按照上述内容设置的下列字段构成:
"infotype"
:InfoType
对象中包含的自定义 infoType 检测器的名称。"likelihood"
:要为此自定义 infoType 检测器返回的默认Likelihood
值。您可以在"detectionRules"
中指定Likelihood
备用值;如果结果符合规则指定的条件,它将取代这个Likelihood
基本值。如果不包含"likelihood"
字段,则自定义 infoType 检测器默认为VERY_LIKELY
。如需详细了解可能性,请参阅可能性概念页面。"detectionRules"
:一组DetectionRule
对象,它们可额外应用于此自定义 infoType 检测器的所有结果。您可以在此处将热词规则指定为HotwordRule
对象。规则按照指定顺序进行应用。此字段不适用于SurrogateType
对象。"sensitivityScore"
:要为此自定义 infoType 检测器返回的SensitivityScore
值。如果不包含"sensitivityScore"
字段,则自定义 infoType 检测器默认为VERY_LIKELY
。敏感度得分用于数据分析。在分析数据时,敏感数据保护功能会使用 infoType 的敏感度得分来计算敏感度级别。
下列字段之一,具体取决于您要创建的自定义 infoType 检测器的种类:
"dictionary"
:Dictionary
对象,其中包含要搜索的字词或短语的列表。"regex"
:Regex
对象,其中包含定义正则表达式的单个模式。"surrogateType"
:SurrogateType
对象;如果存在,则表示自定义 infoType 检测器是一个代理。要详细了解如何使用代理自定义 infoType 检测器,请参阅假名化。"storedType"
:对现有StoredInfoType
对象的引用。创建大型自定义字典检测器时,此字段为必填字段。虽然您可以通过定义此字段来创建常规字典检测器或正则表达式检测器,但通过分别定义dictionary
字段或regex
字段来创建这些检测器更为简单。
后续步骤
通过下列主题详细了解如何创建自定义 infoType:
- 创建常规自定义字典检测器:了解如何创建自定义 infoType 检测器以匹配字词和短语列表中的结果。
- 创建大型自定义字典检测器:了解如何匹配超大型字词和短语列表中的结果。存储的自定义 infoType 检测器可匹配的字词量多达数千万。
- 创建自定义正则表达式检测器:了解如何创建自定义 infoType 检测器以匹配正则表达式的结果。
- 修改 InfoType 检测器以优化扫描结果:了解如何为内置和自定义 infoType 检测器创建可微调扫描结果的修饰符。
- 自定义匹配可能性:了解如何使用检测规则和热词来自定义分配给自定义检测器匹配项的可能性值。
- 自定义 infoType 检测器示例:您可以根据需要使用或更改的多个 JSON 自定义 infoType 检测器定义示例。