利用生成式人工智能简化财务工作流程,实现电子邮件自动化 机器学习博客
利用生成式人工智能优化财务工作流程与邮件自动化
关键要点
很多企业仍然依赖繁琐且易出错的手动文件处理程序,特别是通过电子邮件接收的文件。智能文档处理IDP能够显著优化这些流程,节省时间和成本,提高准确性。本文介绍了如何使用生成式人工智能从业务电子邮件和附件中提取见解,并总结如何自动化财务工作流程,提升企业效率。许多行业的公司仍依赖于繁琐、易出错的手动流程来处理文件,尤其是通过电子邮件发送的文件。尽管有技术可以通过智能化自动化来数字化和自动化文件工作流,但企业仍主要依赖劳动力密集的手动文档处理。这为企业优化工作流程、节省时间和金钱以及通过亚马逊AWS的智能文档处理IDP提高准确性提供了重大机会。为了从大量电子邮件和各种来源的文档中提取关键信息,企业需要全面的自动化系统,能处理电子邮件、文件上传和系统集成,从而实现无缝的处理和分析。智能自动化使得各行业的文档工作流通过数字化和流程优化有了革命性的机会。
本文阐述了一种生成式人工智能AI技术,用于从业务电子邮件和附件中提取见解。它探讨了AI如何通过自动化文档摘要、数据提取和分类信息来优化财务工作流程。这使企业能够服务更多客户,引导员工集中于更高价值的任务,加速流程,降低成本,提高数据准确性和效率。
手动数据提取的挑战
目前,大多数商业领域在手动文档处理方面面临困难,常常在没有自动化系统的情况下阅读电子邮件及其附件。这些过程耗费金钱,耗时长且易出错。手动程序难以跟上文件数量的增加,查找相关信息以供商业决策十分困难。因此,对更短决策周期和更快文档处理的需求日益增加。本文旨在帮助那些手动处理文档的企业加速获取相关数据,以供业务运营使用。通过降低与手动工作流程相关的时间和持续开支,企业能够通过数据分析提升生产力、响应能力和创新能力。
过去,光学字符识别OCR在处理无瑕疵文件时表现良好,但当文档质量欠佳时,旧系统的性能往往不能满足客户需求。手动流程中的错误是不可避免的,逐一检查每项任务可能既费时又费力,给工作流程带来了变异。面对客户需求季节性波动的公司在处理文档时面临挑战,因此无论是在快速响应客户服务方面都显得十分吃力。关键在于高效提取大量文书中重要数据,以便做出及时决策。例如,尽管一份抵押贷款申请可能超过千页,但只有十几个数据点对信贷决定至关重要。关键在于能够在信息的洪流中识别这些关键细节,以便及时批准贷款,同时确保申请者获得优质服务。
本文探讨了生成式AI如何简化处理商业文档和电子邮件附件。针对需求有所增长的金融行业,后端自动化解决方案需要从电子邮件及附件中提取信息、总结内容并向下游发送,同时需要对文档及内容进行分类,并在必要时分配给人工审查者。同时,该解决方案必须确保数据安全,如个人身份信息PII和SOC合规。
解决方案概述
此解决方案的示例代码可在GitHub repo中找到。解决方案涵盖两个步骤,以便部署生成式AI进行邮件自动化:
利用多阶段的智能文档处理IDP从电子邮件附件中提取数据并进行分类。IDP是一个用于描述使用AI和机器学习ML处理和提取结构化、半结构化和非结构化文档信息的行业术语。使用大语言模型LLM进行数据摘要。下图提供了您可能在开发IDP解决方案时经历的管道步骤的高层次概述。
数据捕获阶段是从电子邮件中提取文档并安全存储为输入文件。这时可能会遇到不同种类的文档,而没有自动方法对其进行识别和分类。不过,您可以绕过分类流程,直接准确提取文档中的信息。在丰富阶段,您可以利用文档中的数据与语言进行有效的增强。流程的最后一个阶段是人工审核,这使您可以请求对提取的数据进行人工评估,以确认低准确度的数据点。在高度监管的金融服务和医疗保健等领域,客户越来越多地将人工评估添加到他们的数据处理管道中。
此解决方案提供了以下主要优势: 弹性 您可以根据业务需求灵活扩展或缩减。 创新 您可以自动化通过电子邮件渠道提取文档数据。 成本节约 您可以优化与手动工作和相关运营成本相关的费用。
数据提取工作流程
下图展示了简化财务工作流程以构建解决方案的可能阶段的高级表示。
在初始阶段,我们重点关注安全收集并整合文件中的数据,包括电子邮件附件。然而,如果您已有可识别的文档,可以直接跳过分类过程并开始提取信息。第二个步骤涉及准确提取文档中的信息。第三步,您可以利用提取的文本和数据为文档构造有意义的增强内容。第四步和最后一步则涉及利用基础模型FMs进行键值的标准化。这一阶段重点在将表单数据精炼为客户所需的特定格式,包括姓、名、电话号码格式等。转换后的数据将根据其下游数据库要求来调整格式。在置信度得分较低或受到严格监管的行业中,表单数据可能会转交给人工审核。这些自动化阶段可以结合使用或单独使用,从而显著降低成本,消除手动工作,并提升企业文档处理的结果。
AWS架构
下图说明了示例系统的扩展架构,并解释了如何结合AWS服务实现端到端的处理流程。
在接收到入站电子邮件附件并安全存储输入文档后,AWS文档处理服务和基础模型FM将协助按所需格式提取和总结数据: Amazon简单存储服务Amazon S3存储来自物理或数字邮件室、电子邮件附件或用户通过网站或移动应用程序上传的各种格式文件,支持高效处理和可扩展性。 Amazon Textract 利用多年积累的自然语言处理NLP和其他机器学习的先进功能,超越了传统的OCR技术。Amazon Textract 自动提取打印文本、手写内容、布局元素以及其他数据如键值对和表格信息等。 Amazon Comprehend可以自动分类和提取文本中的见解,还提供NLP功能,它有预训练模型可识别地点、人物、品牌或事件;还可以确定文本的语言; 提取关键短语;理解文本情感是正面的还是消极的;并通过主题自动组织一组文本文件。 Amazon Bedrock是AWS推出的企业云平台,用于构建和扩展生成式AI应用程序,提供部署、监控、扩展和管理AI/ML模型所需的必要工具和基础设施。您可以与在Amazon Bedrock中可用的LLM模型自然对话,从向量化的数据中获取见解。
我们的GitHub repo演示了如何结合使用Amazon Textract和LangChain,从文档中提取数据并在IDP的不同阶段使用生成式AI。示例显示了如何使用各种LLM。
前提条件
在您开始开发文档工作流程之前,必须完成一些前置步骤。请参阅GitHub repo以了解如何将Amazon Textract与LangChain整合为文档加载器,以从文档中提取数据,并在各个IDP阶段中使用生成式AI功能。以下导入特定于从电子邮件提取文档:
python!pip install unstructured!pip install anthropicimport boto3 from langchainllmsbedrock import Bedrock
读取电子邮件及其附件
UnstructuredEmailLoader的配置在以下代码中进行了说明,它同时总结了电子邮件的内容:
pythonfrom langchaindocumentloaders import UnstructuredEmailLoaderloader = UnstructuredEmailLoader(SampleDocumenteml)document = loaderload()
template = summarize the email by associating tasks to different agents and as a next step{doctext}lt/
prompt = PromptTemplate(template=template inputvariables=[doctext])llmchain = LLMChain(prompt=prompt llm=llm)summary = llmchainrun(document[0]pagecontent)print(summaryreplace()strip())
清理
请遵循GitHub repo中指定的清理步骤,以清理您的资源。
越南节点梯子结论
在本文中,我们阐述了如何利用生成式AI优化财务工作流程与电子邮件自动化,包括从电子邮件附件中提取数据、分类文档、总结和处理文档以获取见解。通过审视IDP管道的各个阶段,您可以增强自己的IDP管道,以支持LLM工作流。
为了扩展此解决方案,考虑以下几点:
在您的LLM中使用检索增强生成RAG与个性化数据的关联保持摘要数据的隐私,将现有数据源视为增强输入,以实现所需决策结果
要了解更多,请参考以下资源: 使用Amazon Textract、Amazon Bedrock和LangChain进行智能文档处理 通过生成式AI增强AWS智能文档处理 AWS AI智能文档处理GitHub库 宣布在AWS上构建生成式AI的新工具 安全、身份和合规性的最佳实践
作者简介
Hariharan Nammalvar 是AWS的解决方案架构师,拥有超过20年的技术专业经验。他在设计和实施创新解决方案以解决复杂业务挑战方面具有丰富的成功经验。他曾与多个行业的不同客户领域合作,帮助他们利用机器学习和AI来简化运营、提升效率和改善客户体验。
Raghavarao Sodabathina 是AWS的首席解决方案架构师,专注于数据分析、AI/ML和无服务器平台。他与客户合作,创造创新解决方案来解决客户业务问题,并加速AWS服务的采用。在业余时间,Raghavarao喜欢和家人共度时光,阅读书籍和观看电影。
加载评论