产品展示

如何 Reveal 的 Logikcull 利用 Amazon Comprehend 在大规模法律文

2026-01-27 13:48:07



Reveal的Logikcull如何通过Amazon Comprehend实现法律文件中个人身份信息的检测与删除

作者 Aman Tiwari Jeff Newburn Kevin Lufkin 和 Sren Blond Daugaard 发布日期 2023年11月1日 类别 Amazon Comprehend 人工智能 客户解决方案 思想领导力 永久链接 评论

关键要点

个人身份信息 (PII) 广泛存在于各种电子文件中,包括法律文档。使用Amazon Comprehend准确检测和删除PII,对保障隐私和数据安全至关重要。Logikcull的解决方案能够有效处理数百万法律文件,提高效率并降低法律风险。

个人身份信息PII在当今数字化时代无处不在,潜藏在电子邮件、信息、视频、PDF等各种格式中。PII是敏感的个人数据,包括姓名、联系方式、身份证件号码、财务信息、医疗信息、生物识别数据及出生日期等。查找和删除PII对于保护隐私、确保数据安全、遵循法律法规以及维护客户和相关方的信任至关重要。然而,在海量电子数据中准确定位和处理PII对于许多组织来说是一项巨大挑战。这些挑战源于数据体量庞大、形式多样、数据分散、加密、数据共享、动态内容、误报和漏报、上下文理解、法律复杂性、资源限制、不断变化的数据、用户生成的内容以及适应性威胁等多种因素。如果未能准确检测和删除PII,可能导致法律处罚、诉讼、声誉损害、数据泄露成本、监管调查、运营中断、信任侵蚀和制裁等严重后果。

如何 Reveal 的 Logikcull 利用 Amazon Comprehend 在大规模法律文

在法律系统中,取证是获取和提供与任何一方在诉讼中提出的主张或抗辩相关的非特权事项的法律程序。电子取证eDiscovery是识别、收集和提供电子存储信息ESI的电子过程。对于涉及取证的组织,尤其是政府机构、学校地区和法律专业人士,准确检测和删除PII显得尤为重要。特别是在处理信息自由法和数字服务法时,删除PII是保护个人隐私、确保遵循数据保护法、预防身份盗用和维护政府和数字服务的信任与透明度的关键。

解决方案概述

Reveal的Logikcull平台利用Amazon Comprehend,通过两轮处理实现了对数百万法律文件中PII的检测和删除。第一轮为初始PII检测,第二轮为进一步检测和删除。这一过程基于ContainsPiiEntities和DetectPiiEntities API。

第一轮 PII 检测

第一轮PII检测的目标是找出可能包含PII的文档。

用户通过Logikcull公共网站上传希望进行PII检测的文件,这些文件可以是办公文档、PDF文件、电子邮件或包含所有支持文件格式的ZIP文件。Logikcull将这些项目文件安全存储在AWS S3服务中。文件经过Logikcull的并行处理管道,提取元数据,并生成数据审核所需的文本格式文档。文件以文本格式可用后,Logikcull将其输入和语言模型英语通过Amazon Comprehend进行ContainsPiiEntities API调用,该API分析输入文本中的PII,并返回识别出的PII实体类型的标签,如姓名、地址、银行账户号码或电话号码。API响应还会提供一个置信级别分数,指示Amazon Comprehend对检测准确性的信心,分数范围在0到1之间,1表示100的信心。Logikcull仅对置信分数超过075的文档标记为“检测到PII”。被标记为“检测到PII”的文档会被输入到Logikcull的搜索索引集群中,以便用户能快速识别包含PII实体的文档。

第二轮 PII 检测与删除

第一轮的PII检测缩小了数据集的范围,确定了包含PII信息的文档,从而加快了检测速度,降低了整体成本。第二轮PPI检测的目标是识别并删除第一轮中标记文档的具体PII实例。

用户通过Logikcull网站使用高级搜索过滤器搜索包含PII的文档。请求由位于AWS EC2服务上的Logikcull应用程序服务器处理,服务器与搜索索引集群通信,以查找文档。Logikcull应用程序服务器通过DetectPiiEntities API调用识别PII的具体实例。这些服务器通过传递输入文档的文本和语言来调用该API。DetectPiiEntities API检查输入文本中包含的PII实体,响应提供每个实体的类型、起始和结束位置以及Amazon Comprehend的检测信心程度。用户通过Logikcull的网络界面选择希望删除的具体实体。应用程序服务器将这些请求发送到Logikcull的处理管道。

在Logikcull的处理管道中安全地应用PII删除,采用自定义业务逻辑。用户可以选择具体的PII实体类型或者一键删除所有PII信息。

结果

Logikcull作为Reveal技术的一部分,目前每周处理超过2000万份文件,利用ContainsPiiEntities API缩小检测范围,并通过DetectPiiEntities API向用户展示具体的PII实例。

龙猫梯子

“凭借Amazon Comprehend,Logikcull能够在短时间内快速部署强大的NLP能力,而自定义构建解决方案所需的时间则远远超过其。”

Steve Newhouse,Logikcull产品副总裁。

结论

Amazon Comprehend使Reveal的Logikcull技术能够以相对较低的成本大规模运行PII检测。ContainsPiiEntities API用于对数百万份文档进行初步扫描,DetectPiiEntities API用于对数千份文档进行详细分析,识别其中的PII。

请查看所有的Amazon Comprehend功能。尝试这些功能并通过AWS论坛或您的常规AWS支持渠道提供反馈。

关于作者

Aman Tiwari是AWS全球商业销售部的解决方案架构师,与数字原生业务客户合作,帮助他们设计创新、可靠且具有成本效益的解决方案。他拥有东北大学的电信网络硕士学位。业余时间,他喜欢打草坪网球和阅读书籍。

Jeff Newburn是Logikcull的高级软件工程经理,负责数据工程团队,监督公司的数据项目,包括数据仓库、可视化、分析及机器学习。他在从共享出行到数据系统等多个领域拥有开发与管理的经验,乐于引导优秀工程师团队开发出激动人心的产品。

Sren Blond Daugaard是Logikcull数据工程团队的员工工程师,专注于将高度可扩展的AI和ML解决方案实施到Logikcull产品中,提高客户的工作效率和精确度。他的专业领域包括数据管道、基于Web的系统和机器学习系统。

Kevin Lufkin是Logikcull搜索工程团队的高级软件工程师,专注于开发面向客户和与搜索相关的功能。他在UI/UX方面有丰富的专业知识,并结合全栈Web开发背景,致力于实现产品愿景。