2019年, 第55卷, 第4期 
刊出日期:2019-07-30
  

  • 全选
    |
  • 姚宁, 苗夺谦, 张远健, 康向平
    南京大学学报(自然科学版). 2019, 55(4): 519-528. https://doi.org/10.13232/j.cnki.jnju.2019.04.001
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    人类的认知中具有粒化特性,并且同一现象在不同粒度上具有不同的解释.流图为知识的一种表示形式,素有直观性、计算便捷性和并行处理等特征.以属性?值形式的信息系统作为研究对象,针对新属性的添加而诱导的粒度变化,研究流图在不同粒度上的具体演变.流图在新粒度上的有效性取决于所涉及的等价类的变化和Markov性质的成立.具体的,若新粒度上仅有部分等价类中的成员保持Markov性质成立,则粒度变化可将图形结构由一个粒度上的流图转化为新粒度上的用于构成完整流图的基本构件;若Markov性质在新粒度上不成立,则流图可被转化为新粒度上的与流图无关的结构;若新粒度上等价类中的每个成员皆满足Markov性质,则流图在新粒度上保持不变.流感病人信息系统在不同粒度上的具体分析进一步验证了理论结果.这些结论有助于理解和刻画知识与粒度之间的关系,为模拟人类学习和思维奠定基础.

  • 程永林, 李德玉, 王素格
    南京大学学报(自然科学版). 2019, 55(4): 529-536. https://doi.org/10.13232/j.cnki.jnju.2019.04.002
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    对于数值型数据而言,邻域粗糙集模型是处理不确定信息的有效工具.现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息.针对邻域粗糙集的这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了一种基于极大相容块的邻域粗糙集模型.该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域.运用前向贪婪策略构建了相应的属性约简算法.在七个公开的UCI数据集上的对比实验验证了提出模型的有效性.

  • 龙柄翰, 徐伟华
    南京大学学报(自然科学版). 2019, 55(4): 537-545. https://doi.org/10.13232/j.cnki.jnju.2019.04.003
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为了进一步将模糊集合理论引入到三支概念分析中,在模糊形式背景下研究了属性导出模糊三支概念与对象导出模糊三支概念,将已有的经典三支概念拓展到了模糊三支概念中,对完善三支概念理论有重要意义.首先,在模糊形式背景下,结合模糊集合理论将对象与属性的关系用隶属度表示.然后,用阈值α以及三支决策思想,将外延(内涵)分为正域,负域,边界域三个部分.其次,提出了两种模糊三支概念(属性导出三支概念与对象导出三支概念)的相关定义和重要定理.最后,结合实例详细解释了模糊三支概念在实际生活中的应用.模糊三支概念分析理论在非经典的背景下为粒计算、人工智能、机器学习等提供了可行的思路.

  • 杨鑫, 施虹, 王平心, 徐刚
    南京大学学报(自然科学版). 2019, 55(4): 546-552. https://doi.org/10.13232/j.cnki.jnju.2019.04.004
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    二支聚类要求聚类结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而在许多实际问题中,一个对象和类别可能会有三种关系:即确定属于、确定不属于和无法确定.为了克服二支聚类的这一问题,三支聚类使用核心域,边界域和琐碎域来表示每个类别,较好地处理了具有不确定性对象的聚类问题.给出一种基于样本稳定性的三支聚类算法.首先使用聚类集成的结果计算出每个数据的稳定性,然后基于阈值将这些数据元素分为两部分:核与环.对核中的数据采用硬聚类进行聚类,对环中的数据通过比较环中数据到聚类中心的距离将它们分到相应类的边界域中.通过以上策略,可以得到三支聚类的核心域和边界域.在UCI数据集上的实验结果显示,该方法能更好地显示出聚类的结构.

  • 王霞, 谭斯文, 李俊余, 吴伟志
    南京大学学报(自然科学版). 2019, 55(4): 553-563. https://doi.org/10.13232/j.cnki.jnju.2019.04.005
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    基于三元背景研究三类概念格的构造和简化.首先,基于三元背景构造一个条件属性蕴含形式背景,该背景以三元背景属性集上的属性蕴含为对象,以三元背景的条件为属性.并针对条件属性蕴含形式背景给出形式概念的定义,构造相应的概念格.其次,由于条件属性蕴含形式背景中对象的个数随着三元背景中属性个数的增加呈指数级增长,这使得条件属性蕴含形式背景往往是一个比较大的数据表,因此,对条件属性蕴含形式背景进行对象约简,将原来的对象集替换为单个条件下形式背景的极小属性蕴含构成的集合.该对象约简方法不仅在很大程度上简化了条件属性蕴含形式背景,而且简化后的形式背景对应的概念格与原来的概念格同构.最后,在条件属性蕴含形式背景上引入了可能性算子和必然性算子,在此基础上定义了对象定向概念格和属性定向概念格.

  • 李家辉, 周忠眉
    南京大学学报(自然科学版). 2019, 55(4): 564-572. https://doi.org/10.13232/j.cnki.jnju.2019.04.006
    摘要 ( ) PDF全文 ( )   可视化   收藏

    基于支持度置信度框架的关联分类算法在生成规则时难以提出大量高质量规则,而且在一些数据集尤其是不平衡数据集上,部分训练实例未被产生的关联规则所覆盖,导致算法的分类准确率不高.基于以上问题提出了改进的关联分类的算法(Improved Algorithm based on Multiple learning and Correlation degree,IAMC).首先,在提取规则时,IAMC对训练集进行多次关联分类学习,尽量多地提出高质量的规则.其次,在生成规则时采用综合考虑了置信度,补类支持度的新度量关联度,以提高生成的规则的质量.最后,在关联分类规则提取后,对利用已有规则无法判断类别的和未被已有规则覆盖的训练实例用决策树方法再次提取规则,并加入到规则集中.实验结果表明,IAMC算法能提出更多高质量的规则,在多个UCI数据集上具有较高的分类准确率.

  • 钱付兰, 黄鑫, 赵姝, 张燕平
    南京大学学报(自然科学版). 2019, 55(4): 573-580. https://doi.org/10.13232/j.cnki.jnju.2019.04.007
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    网络嵌入,或者称为网络表示学习,旨在将网络中的节点映射到表示空间中,生成低维稠密的向量,从而在保留网络结构信息的前提下对网络中的节点进行表示,而后通过已有的机器学习方法解决诸如链接预测、节点分类、社团发现和网络可视化等下游任务.随机游走算法可以很好地探索网络中节点的局部结构,然而之前的基于随机游走的表示学习算法只能为节点产生一种角色嵌入,没有考虑到和不同邻居进行交互时节点扮演的不同角色嵌入.因此,提出一种基于路径相互关注的网络嵌入算法,使用节点随机游走产生的上下文信息,通过注意力机制为每个节点生成上下文相互关注的节点嵌入.在真实数据集上的实验结果表明,与三个经典的网络嵌入算法相比,该算法具有更好的表现.

  • 黄炜钦, 高凤强, 陈俊仁, 李婵
    南京大学学报(自然科学版). 2019, 55(4): 581-591. https://doi.org/10.13232/j.cnki.jnju.2019.04.008
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为了提高重建的质量和速度,提出一种联合深度置信网络与邻域回归的超分辨率算法.一方面,结合字典学习与神经网络表示的联系对传统的深度置信网络进行调整,采用该网络模型实现字典学习,充分利用该模型突出的学习能力,使字典具有更好的特征表达能力,从而提高图像的重建质量.另一方面,在基于字典学习的超分辨率框架中融入邻域回归思想.首先,利用最近邻域算法确定字典原子的最近邻域映射关系;然后以此为基础,结合邻域回归方法,离线计算高、低分辨率投影矩阵;最后在重建过程中将该投影矩阵应用于图像重建.该方法避免了字典学习中的系数求解过程,降低了计算的复杂度,提高了重建的速度.实验表明,算法具有更高的峰值信噪比和结构相似度,同时极大地提高了图像的重建速度.

  • 王彤, 魏巍, 王锋
    南京大学学报(自然科学版). 2019, 55(4): 592-600. https://doi.org/10.13232/j.cnki.jnju.2019.04.009
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k?means算法产生多个基聚类结果,然后对于其中的每个类再利用k?means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果.在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法.

  • 张龙波, 李智远, 杨习贝, 王怡博
    南京大学学报(自然科学版). 2019, 55(4): 601-608. https://doi.org/10.13232/j.cnki.jnju.2019.04.010
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    属性约简是粗糙集理论中的核心问题,其目的是剔除冗余属性以找到具有较好泛化能力的属性子集.在决策粗糙集理论中,决策代价经常被作为属性约简的约束条件.但值得注意的是,虽然基于决策代价的约简求解算法可以有效地降低训练样本集上的总决策代价,但其往往忽视了测试样本集上的总决策代价.为解决这一问题,利用交叉验证的基本思想,设计了以决策代价为约束条件的一种新的属性约简求解算法.在八个UCI数据集上的实验结果表明,相较于传统基于决策代价的约简求解算法,所提算法不仅能有效地降低训练集合和测试集合的总决策代价,而且找出的属性子集亦可以带来更好的分类性能.

  • 马娜, 范敏, 李金海
    南京大学学报(自然科学版). 2019, 55(4): 609-623. https://doi.org/10.13232/j.cnki.jnju.2019.04.011
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    数据分析中,从网络中进行概念认知学习是网络背景下的机器学习或人工智能领域的重要问题.首先通过分析复杂网络方法与形式概念方法的数据基础,将二者的数据通过邻接矩阵与关联矩阵统一起来,提出一种网络形式背景框架,使以上两种理论与方法之间有了互通的桥梁,从而可以结合它们各自的优势对网络概念进行更深入的研究.在此基础上,从网络概念的三个层次出发研究了以下内容:(1)通过定义节点的结构影响力和内涵影响力并将它们进行加权,定义了节点的网络影响力.(2)通过分析扩散网络、收缩网络的特点提出强概念、弱概念、网络概念,并给出了网络概念的特征值:概念的势、概念平均度.于是,该理论不仅能在网络中找到网络概念,还能给出网络概念的重要性和网络概念内部的差异性.(3)研究了强(弱)概念的有关性质,为以后构造相应的代数系统,生成各种网络概念算子提供了理论基础.

  • 郭英杰, 胡峰, 于洪, 张红亮
    南京大学学报(自然科学版). 2019, 55(4): 624-632. https://doi.org/10.13232/j.cnki.jnju.2019.04.012
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    过热度是铝电解生产过程中的一项重要参数,将过热度保持在适当的范围内可以提高电流效率,减小电解槽损耗,但是过热度测量难度较大且测量过程复杂.因此,基于粒计算理论,提出一种基于时间粒的过热度预测模型.通过在时间序列上构建时间粒,结合时间粒构建新的特征集与样本集,在此基础上,利用分类器对新的样本集进行训练,得到模型.采用山东魏桥铝电有限公司的铝电解生产数据进行实验,结果表明,该方法在预测过热度上较已有模型的预测能力有较大提升.

  • 李藤, 杨田, 代建华, 陈鸰
    南京大学学报(自然科学版). 2019, 55(4): 633-643. https://doi.org/10.13232/j.cnki.jnju.2019.04.013
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    由于低分化肿瘤很难通过常规组织病理学诊断发现,而结合基因检测的手段可以准确筛选出针对特定肿瘤的致病基因,因此基因选择是进行肿瘤分类和临床治疗的关键问题.肿瘤基因表达数据具有样本小、维度高的特征,现有的基因选择算法在分类精度和计算效率上还有待提高.在模糊粗糙集理论的基础上进行区分矩阵模糊化,并依此设计了模糊区分矩阵属性约简算法.相比于经典的区分矩阵,模糊化的区分矩阵能够体现不同属性对于两个对象区分程度的差异,从而选择区分程度更高的属性而获得更好的分类效果.数值实验表明该方法提高了肿瘤基因数据的分类精度,且降低了计算耗时.实验采用kNN分类器进行结直肠癌(Colon Microarray)分类特征基因选择实验,从2000个特征基因中筛选出了五个结直肠癌发病相关的关键基因,且分类精度高达88.06%.

  • 何轶凡, 邹海涛, 于化龙
    南京大学学报(自然科学版). 2019, 55(4): 644-650. https://doi.org/10.13232/j.cnki.jnju.2019.04.014
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为了提升推荐模型的预测精度,传统方法通常是利用更多的附加信息参与模型的构建.然而,此类方法在提高算法精度的同时也大大增加了算法的时间开销,同时对数据集也存在一定的要求.为了解决上述问题,提出一种基于Bagging集成的矩阵分解模型.该模型根据用户、产品评分数为基学习器动态分配权重,并通过加权求和得到预测评分.在三个不同规模的真实数据集上的实验结果显示:该动态加权Bagging矩阵分解模型拥有与传统矩阵分解模型一样的时间消耗,并且在各个衡量指标上都优于传统的矩阵分解模型.

  • 李黎, 张瑞芳, 杜娜娜, 柳寰宇
    南京大学学报(自然科学版). 2019, 55(4): 651-659. https://doi.org/10.13232/j.cnki.jnju.2019.04.015
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    复杂网络理论的蓬勃发展为人们研究病毒传播行为和网络结构对病毒传播影响提供了新的思路,网络结构动态演化对病毒传播控制有着重要作用.考虑到有限资源约束,为及时有效地控制病毒传播,提出了一种与初始感染源无关的病毒传播控制策略:有限临时删边(Limited?Temporary?Links?Removed,LTLR)策略.该策略在保证网络系统基本功能不受影响的前提下,通过临时删除或管制网络中病毒传播最短路径上重要的边资源,使得病毒绕道或被阻断,从而有效地延缓病毒的传播速度和控制病毒的传播范围.仿真实验表明,在具有小世界特性的网络中,LTLR策略能显著增加网络平均路径长度、提高病毒传播控制效率,并且该策略消耗少、易于部署,可作为一类通用的优化控制策略推广到舆情网络传播控制、交通网络拥塞治理等领域.

  • 王蔚, 胡婷婷, 冯亚琴
    南京大学学报(自然科学版). 2019, 55(4): 660-666. https://doi.org/10.13232/j.cnki.jnju.2019.04.016
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    语音是情感表达的重要途径,自然状态和表演状态下的语音所蕴含的情感信息并不完全相同.为了探索自然状态和表演状态下语音情感识别的差异,采用深度学习算法分析了IEMOCAP公用数据集,对自然状态和表演状态下的中性、愤怒、开心和悲伤等四类情绪语音数据进行实验:首先提取语音数据的声学特征(对比了emobase2010特征集和eGeMAPs特征集),然后利用卷积神经网络(Convolutional Neural Networks,CNN)对自然与表演状态下的语音情感进行识别,比较了两种状态下的情感识别率,再利用混淆矩阵分析两种状态下不同情绪之间的误分率和相似性.实验结果显示,自然状态下的情感识别率明显高于表演状态下,还发现愤怒和悲伤在两种状态下的误分率有明显区别.该现象对理解情绪的表达机制有启发意义.

  • 齐小刚, 强敏, 刘立芳
    南京大学学报(自然科学版). 2019, 55(4): 667-677. https://doi.org/10.13232/j.cnki.jnju.2019.04.017
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    保证动荡环境下数据可被访问概率对数据存储网络十分重要,其可行方法之一是设计合理的存储策略,提高网络的数据可用性.将存储策略分为复制策略和放置策略进行设计,提出了基于碎片矩阵和缓存的存储策略RSboFMC(Replication Strategy based on Fragment Matrix and Cache),提高动荡环境下的数据可用性.其以重建效率和存储开销为目标,设计缓存机制和基于碎片矩阵的数据分块机制优化复制策略;以负载均衡为目标,设计基于分区和顺逆序的分发机制优化放置策略.仿真结果表明,RSboFMC在数据可用性和负载均衡性方面均优于其他策略,且具有良好的扩展性.

  • 郭超, 文宇博, 杨忠芳, 李伟, 管冬兴, 季峻峰
    南京大学学报(自然科学版). 2019, 55(4): 678-687. https://doi.org/10.13232/j.cnki.jnju.2019.04.018
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    我国岩溶地貌主要分布在广西、贵州、云南等西南地区,全国土壤污染状况调查公报显示这些岩溶区土壤中金属元素通常超标严重,其生物有效性的相关研究仍较缺乏.采集广西典型岩溶重金属地质高背景地区的稻田土壤,分析金属元素As,Cd,Cr,Cu,Ni,Pb和Zn总量,并采用CaCl2和EDTA(Ethylene Diamine Tetraacetic Acid)提取方法分析土壤中金属的生物有效态含量.结果表明,与上部地壳相比,研究区土壤中不同重金属的富集程度顺序为Cd>As>Pb>Zn>Cr>Cu>Ni,与广西灰岩中这些重金属的富集程度顺序基本一致,揭示岩溶区地质高背景土壤重金属的富集具有显著的母岩继承性.土壤Cd的CaCl2提取的平均含量为0.02 mg·kg-1,平均提取率为4.37%,远低于人为污染区土壤Cd的CaCl2提取的平均含量和提取率.EDTA提取态Cd的含量平均值为0.84 mg·kg-1,平均提取率为52.86%.岩溶区土壤Cd的CaCl2提取态含量与土壤Cd总量没有明显的线性关系,生物有效性和生态风险主要受pH控制:当土壤pH>6.5时,虽然土壤Cd总量较高,但CaCl2提取态Cd含量偏低,生态风险低;而当土壤pH<6.5,土壤Cd总量相对偏低时,CaCl2提取态Cd含量较高,生态风险较高.

  • 王文琪, 王栋, 王远坤
    南京大学学报(自然科学版). 2019, 55(4): 688-698. https://doi.org/10.13232/j.cnki.jnju.2019.04.019
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    长江三角洲太湖流域属于典型的北亚热带季风气候区,气候变化、快速城镇化和人类活动使得极端气象灾害的影响加剧.极端降水是形成洪水的主要来源之一,分析降水极值特性是研究洪水的一种必要且有效的手段.以湖西浙西区96个站点2006—2012年的日降水数据为例,选取极端降水量(R95P)、一日最大降水量(RX1D)、最大连续五日降水量(RX5D)、降水强度(SDII)和强降水日数(R10,R20和R50)七个极端降水指数,研究降水极值空间分布规律.结果表明,极端降水量在湖西区北部呈现较高值,降水强度在浙西山区和湖西山区以及东北部地区呈现较高值,其余五个指数均显示,地势较高的浙西山区极端降水指数相应较高.进一步对丹阳、金坛、溧阳、宜兴、安吉和湖州六个代表站1961—2015年的降水极值分析,利用广义极值分布(Generalized Extreme Value Distribution,GEV)和广义帕累托分布(Generalized Pareto Distribution,GPD)两种极值模型进行分布拟合.研究发现,GPD的拟合效果优于GEV,各个站点的分布模型参数也有差异,对两种分布下不同重现期的极端降水量值进行对比,为风险防范和工程设计安全提供了科学依据.另外,汛期降水的空间分布差异性较大,汛期和非汛期的对比结果显示极值统计模型参数也有较大差异,主要体现在阈值和尺度参数上.对于特定季节尤其是暴雨多发期的极端降水事件,建议利用汛期的降水极值进行统计模拟,有助于更好地刻画降水极值特性.

  • 王博闻, 史江峰, 史逝远, 张伟杰, 马晓琦, 赵业思
    南京大学学报(自然科学版). 2019, 55(4): 699-707. https://doi.org/10.13232/j.cnki.jnju.2019.04.020
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在野外找到老龄树群,是树木年轮气候学研究的一个关键环节.目前还没有在大尺度空间上连续的高精度的树龄数据可供使用,尝试建立一种基于遥感数据定位老龄树群的方法.以30 m分辨率的卫星Landsat 8 OLI (Operational Land Imager)遥感影像一景为例,首先在该影像范围内收集了22个已发表的树轮宽度年表长度数据,根据经纬度定点提取年表对应的归一化植被指数(Normalized Difference Vegetation Index,NDVI)值,然后用R语言建立树轮宽度年表的长度与NDVI之间的一元线性回归模型,利用遥感影像数据良好的监测地表空间异质性的能力,实现对树轮年表长度在空间上连续的高分辨率的估算.将该信息作为树龄的一种近似替代,可以辅助树木年轮工作者快速、准确、定量地寻找到老龄树群.