招股说明书动辄三四百页,关键的发行人信息、财务信息、股权结构图,如何快速查找?券商研究报告,几十页上百页,核心图表、数字、观点如何有效获取?合同中,关键条款如何快速定位?
信息过载时代,达观智能文档审阅(IDP)系统不仅能从几百页的长文档中智能提取实体、关系级别信息,也能提取关键图表、段落、章节等文档要素级别信息,百倍提升原有阅读效率。
达观的智能文档审阅(IDP)系统如何做到支持全内容提取:
一、 强大的自研文档标注功能,智能解读各类业务文件
可配置多种字段特征,满足各类文档标注需求,在复杂场景中完成可自定义的关键信息提取。
(1)支持文字划选、框选、表格内容一键标注;
(2) 支持图片、表格框选;
(3) 支持表格增删线条、合并/拆分单元格等多种操作;
(4) 支持字段组合标注.
组合标注示例
二、独家版面还原技术,内容解析更准确
应用独家版面分析技术,复杂版式文件信息提取更准确,提高数据处理效率。
(1) 可还原文件的页眉页脚、图、表、标题、段落、目录等版面信息;
(2) 支持对还原结果进行编辑,包括修改文字和表格结果;
(3) 支持直接导出文字内容、图片、表格结果;
(4) 支持API对接输入,为后续信息提取提供底层技术能力。
版面还原示例
三、一站式模型训练平台,AI自动提取
基于NLP和深度学习技术,达观面向开发者、终端业务使用者提供低成本、高精度、可视化的模型训练平台,自定义AI能力,灵活扩展场景。
(1)系统中内置多种算法,可针对不同的抽取关键字选择不同的算法,模型参数可动态调整;
(2)元素抽取算法可以支持抽取如段落,图片,表格等内容;
(3)同时支持模型导入导出,可在不同场景下进行模型的迁移。支持现有模型增量训练,大幅提升训练效率。
招股说明书抽取模型示例
私募基金合同抽取模型示例
自2017年开始推向市场,达观IDP智能文档审阅系统沉淀多年行业落地经验,已形成招股说明书提取、研究报告审核、私募基金合同提取等多个开箱即用模型。由达观研发的业内首家全内容关键信息提取产品已在某交易所、多个头部券商研究所、头部券商托管部门部署应用。
达观数据是一家为企业提供各类场景智能文本机器人的国家高新技术企业。技术服务团队遍及全国,灵活地为客户提供原厂一站式服务。达观产品与服务现已遍及金融、制造、地产、能源、通信、传媒、医药、政务等领域,累积上千家知名政企客户,是中国文本智能与超自动化领域市场占有率最高的科技公司之一。
基于全栈自研的自然语言处理(NLP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,达观数据推出办公流程自动化、IDP文档智能审阅、文字识别、企业级垂直搜索、智能推荐等智能文本机器人产品和整体解决方案,让计算机协助人工完成业务流程自动化,大幅度提高企业效率与智能化水平。
(来源:新视线)