大数据智能分析与数据挖掘是从海量数据中提取更加本质和更加有用的规律性信息的重要手段,是挖掘智能和有价值信息的重要工具。大数据在创业风投项目管理中应用可以高效地进行创业风投项目的挖掘、筛选、识别和分析,更好地为投资公司进行创业风投决策提供智慧支撑。
由中国杰出的创业投资人张骏设计的“基于Python、OCR及RPA等技术的大数据挖掘的创业风投项目挖掘系统”,简称:e-sourcing(for VC),是一款应用于创业风投项目管理与场景的功能强大的大数据挖掘系统,e-sourcing(for VC)实现了基于Python、OCR及RPA等技术和大数据平台的网络、运算、存储和安全等资源的集约共享,数据挖掘、OCR识别、AI分析等能力融合复用,e-sourcing(for VC)于2020年6月由张骏首次发表,于2022年获国家版权局授予计算机软件著作权登记证书,登记号为2022SR0821422。
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。目前OCR技术与其他人工智能产品结合的越加紧密,使得OCR技术得到了广泛的应用。近年来,RPA行业非常火爆,在电商、财务、金融、政务、制造业等诸多领域都得到了广泛的应用。而OCR+RPA技术的结合使得RPA技术在创业风投项目挖掘领域如虎添翼。张骏将OCR技术结合RPA技术的核心原理应用到e-sourcing(for VC)的研发设计,最大限度地发挥OCR技术的功能。
在OCR算法中,数据集是算法训练的基础,数据集的标注工作耗时多且标注质量要求高,经常有返工的现象,这导致了OCR识别数据集的产出量较少,而OCR算法训练需要大量的数据,这就造成了数据量与算法的不对等。基于此类问题,张骏用Python生成OCR算法数据集,能够有效的提高数据量。
Python在企业财务数据挖掘方面的应用优势十分凸显,张骏将Python做为扩展工具,应用在e-sourcing(for VC)的开发中,极大地增加数据挖掘的灵活性和深度性。因此,这些优势让Python应用在数据挖掘中成为了不二之选。当前创业风投项市场风向变得异常复杂,企业要想在创业风投项市场上占据一席之地,就需要充分的发挥出Python技术的应用广度,将其数据分析能力拓广到其他方面。张骏利用Python数据分析来优化创业风投项项目管理方法和手段,利用Python数据分析技术来对消费者的消费行为进行有效预测,从而全面把握市场风向。总之,e-sourcing(for VC)将Python技术应用在创业风投项目的预测、预警与智能分析,从而从宏观上优化创业风投政策方针。
e-sourcing(for VC)是内置了功能强大的数据挖掘方案,其核心思想是利用高精度的文本识别大模型对无标注数据进行预测,获取伪标签,并且选择预测置信度高的样本作为训练数据,用于训练小模型。使用e-sourcing(for VC),识别模型的准确率进一步提升到79.4%(+1%);使用e-sourcing(for VC),并且将输入图片规范化高度从32提升到48,预测速度可比情况下,识别准确率达到73.98%;在多语言场景,基于e-sourcing(for VC)的创业风投模型,在有评估集的四种语系,识别准确率平均提升5%以上。
2000年-2002年以及2006年-2007年,张骏先后作为商业分析师和咨询顾问在麦肯锡做了多个咨询项目,行业主要集中在先进制造业、消费服务行业及电信科技行业,由此积累了丰富的商业数据挖掘与分析技术与经验,并将智能数据挖掘技术与Python、OCR及RPA融合,创造性设计了e-sourcing(for VC)。
具体来说,基于深度网络学习技术,张骏重点攻克复杂环境下的行业OCR图像文字识别行业信息提取,提升行业OCR识别引擎和打造创业风投项目大数据平台,通过AI技术赋能行业企业,解决大数据画像,大数据分析和智能决策等一系列关键问题。
市面上通用场景下的OCR应用相对比较标准化,容易成熟落地,而针对个性化需求的定制化应用却很少,无法解决复杂场景下的特定信息提取。张骏设计的e-sourcing(for VC),借助深度学习+图像预处理,自研保单票据识别模块和字形相似度相量,专研出领先的行业OCR识别引擎,e-sourcing(for VC)为企业提供创业风投项目定制化的解决方案,满足广泛的创业风投项目应用场景多元的市场需求,被广泛应用于创业风投市场。(作者/张小娟)
(来源:新视线)