分享
2017年09月21日14:17 中国科学院网站

分享

  近日,中国科学院重庆研究院大数据挖掘及应用中心团队对半监督分类学习及其应用开展的研究,取得了系列进展。相关研究成果发表在IEEE Transactions on Industrial Informatic、Neurocomputing和Ecological Indicators等期刊上,研究获得国家科技重大专项“水体污染防治与治理”项目、中科院率先行动百人计划项目和国家自然科学基金项目的支持。

  监督学习,是两种基本的机器学习方式之一,其基本原理是通过分析大量已标记的数据信息,根据某些假设挖掘出数据信息的内部规律,建立相应学习系统,从而对未见样本信息进行估计与预测。然而,在现实生产生活中获取足够多的标记数据较为困难,这需要耗费大量的人力物力实现对海量数据的预先标记。在大数据时代,海量未标记数据与少量标记数据同时存在,如何通过仅有的少量标记数据和海量未标记数据,来学习实现优秀分类系统显得尤为重要。同时,如何利用未标记数据辅助少量标记数据进行学习,以改进分类学习系统性能,近年来成为机器学习领域研究热点,并被广泛应用于工业、农业和交通等领域。

  研究团队针对现有传统自标记半监督分类模型的局部最优解、仅适用球状数据问题,提出了一种基于数据密度峰值的自标记半监督分类模型。该模型通过无监督的计算数据密度峰值,发现数据内部聚类知识空间结构特征,将此聚类知识空间结构特征引入自标记半监督分类学习训练过程,可实现高质量的半监督分类计算。科研人员针对传统自标记半监督分类模型在自训练迭代过程中的错误标记问题,提出了一种适应于所有自标记半监督分类模型的优化框架。该优化框架通过将差分进化算法引入自标记半监督分类模型的自训练迭代过程,实现对所有标记数据点的监督优化,可最大程度避免错误标记问题在自训练迭代过程中出现,提升分类学习系统性能。此外,研究团队针对水体富营养化这一全球性水环境问题,提出了一种基于自标记半监督分类算法的水体富营养化评价模型。该评价模型通过将上述半监督分类学习应用于水体富营养化评价,解决了传统富营养化评价方法与模型面临的所需指标获取代价太高和实时监测大数据处理能力不足的问题,研究成果将有助于在大数据时代下对水库富营养化问题实现科学认知与评价。

  论文链接:1 2 3 

基于数据密度峰值的自标记半监督分类模型流程图

自标记半监督分类模型优化框架示意图

相关阅读

领导没大格局,团队定一塌糊涂

跟格局小的人打交道,就像被缩骨伞夹住脑袋一样不痛快。

特朗普上任两周签8条行政命令

号外号外,特朗普又出行政命令啦!行政命令有多强,买不了吃亏,买不了上当,是XX你就坚持60秒!

解读《西游记》官场文化

吴承恩的人生经历,决定了《西游记》背后必然影射着中国特色的官场文化。

村民为何自掏腰包改造小镇?

没有石油的生活,可能比如今这种依赖石油的生活更加有趣和充实。

  • 关健斌:2018年总统选举普京是去是留
  • 母携女跳楼,请放下裁决孩子生命的屠刀
  • 唐代女性婚姻生活面面观
  • 小说:有关“活着”的无数可能性
  • 28年前这部国产惊悚片有两张绝世美颜
  • 女性出轨率最高的会是全职妈妈?
  • 国庆出游去哪?安徽马尔代夫人少景美
  • 新浪首页 我要评论 分享文章 回到顶部
    0