2022年 9月12至13日,PDF Days Europe在德国柏林举行。作为国际PDF协会(PDF Association)成员,金山办公应邀参会并进行了技术分享,与包括Adobe在内的众多全球顶尖技术公司共同探讨PDF领域前沿核心技术与应用的发展趋势。
金山办公技术总监熊龙飞在大会上发表题为《PDF内变形表格的识别与还原》(Deformed Table Restoration in Scanned PDF)主题演讲,向在场嘉宾展示了金山办公利用深度学习技术在PDF领域实现的技术突破,并以变形的扫描件PDF表格还原作为主要案例进行了技术思路介绍。
熊龙飞指出,标准PDF里的表格,或者扫描规整、清晰的表格相对容易识别,很多转化引擎都支持该类表格的转化还原。但对于更加复杂场景下的表格,比如,严重变形、有复杂排版、朝向随机、像素模糊、有印章或其他背景图案干扰、存在嵌套关系、甚至没有表格线的表格文件,目前市面上大多数产品的识别转化效果都不甚理想。
对此,金山办公依托AI技术研发了一套识别系统,通过多种自研算法,在密集文本、不规则表格或无框表格、带印章、签名等干扰的文档元素上取得了很好的识别和转换效果。演讲现场,熊龙飞通过一系列样张展示了该系统的识别能力,对于质量模糊、带印章的表格图片、甚至是被揉成一团后展开的实体表格,通过系统识别后不仅达到了极高的还原度,还具备可编辑功能。
据介绍,该系统由近二十个深度学习模型、一百多个算法模块构成,拥有复杂的功能模块和调度流程,支持各类图片输入,无论是扫描件、网上下载的图片,亦或是手机截图、随手拍的照片等均可进行转化识别。
金山办公旗下的WPS Office包含文字、表格、演示、PDF四大主要组件,其中,金山PDF是一款功能强大、操作简单的PDF编辑器。金山办公通过融入AI技术,支持一键编辑,快速修改PDF文档内容,以及PDF文档和docx/pptx/xlsx/txt/图片等多种文档格式的转换,无需重复下载 PDF 转换器、PDF 编辑器、P图软件翻译软件等任何其他软件,为用户提供了更加舒适、流畅的PDF阅读体验以及稳定、高效的PDF编辑和转换服务。
AI技术的融入,可以说是金山PDF的最大亮点。金山PDF自2016年上线以来,得益于公司对产品AI体验方面的持续投入,迅速获得了广大用户的喜爱。AI技术的智能化操作,能够极大代替原本在办公中依靠人力才能完成的繁琐操作,真正提高用户工作效率。
PDF Days Europe由国际PDF协会主办,是面向PDF领域的全球性顶尖技术会议。国际PDF协会是全球PDF行业的国际标准组织,也是ISO TC130(国际标准化组织印刷技术委员会)和ISO TC171 SC2(国际标准化组织文献管理应用技术委员会)的主要支持单位,主要工作涵盖PDF技术推动和标准制定等各个方面。
自加入协会以来,金山办公积极参与协会工作,致力于促进PDF技术生态系统发展。未来,金山办公将持续加大研发投入,让世界看到中国企业在PDF标准制定以及PDF技术生态建设领域的重要性。
(来源:新视线)