2019年, 第55卷, 第1期 
刊出日期:2019-02-01
  

  • 全选
    |
  • 韩明鸣, 郭虎升, 王文剑
    南京大学学报(自然科学版). 2019, 55(1): 1-13. https://doi.org/10.13232/j.cnki.jnju.2019.01.001
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况. 此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度. 为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE). 首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成. 在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升.
  • 刘 素, 刘惊雷
    南京大学学报(自然科学版). 2019, 55(1): 14-28. https://doi.org/10.13232/j.cnki.jnju.2019.01.002
    摘要 ( ) PDF全文 ( )   可视化   收藏
    作为描述多属性之间定性条件偏好的一种图模型,条件偏好网(Conditional Preference networks,CP-nets)的结构学习问题在CP-nets的研究中起着重要的作用. 不同于传统的CP-nets学习方法,提出基于信息论和特征选择的方法来研究偏好数据库上的CP-nets的结构学习问题. 首先建立了偏好数据库上的互信息和条件互信息的求解方法,并将互信息看作一个属性和它的可行父亲之间的相关性,条件互信息看作可行父亲集中属性之间的冗余性,从而构造出极大相关极小冗余(Maximal Relevance Minimal Redundancy,mRMR)的目标函数,同时指出,一个属性的父亲集是由属性之间冗余度小,但对孩子属性的偏好却影响极大的属性子集组成的. 随后基于特征选择中的mRMR方法来实现CP-nets的结构学习,并设计相应的算法来完成从偏好数据中学习CP-nets的结构. 最后在电影推荐数据集上验证了算法的有效性. 研究结果表明,基于mRMR的特征选择方法可有效获取变量之间的因果关系,从而求取出每个属性的父亲集合,进而获得CP-nets的结构.
  • 秦 娅, 申国伟, 赵文波, 陈艳平
    南京大学学报(自然科学版). 2019, 55(1): 29-40. https://doi.org/10.13232/j.cnki.jnju.2019.01.003
    摘要 ( ) PDF全文 ( )   可视化   收藏
    基于安全知识图谱的网络安全威胁情报分析能够细粒度地分析多源威胁情报数据,因此受到广泛关注. 传统的命名实体识别方法难以识别网络安全领域中新的或中英文混合的安全实体,且提取的特征不充分,因此难以准确地识别网络安全实体. 在深度神经网络模型的基础上,提出一种结合特征模板的CNN-BiLSTM-CRF的网络安全实体识别方法,利用人工特征模板提取局部上下文特征,进一步利用神经网络模型自动提取字符特征和文本全局特征. 实验结果表明,在大规模网络安全数据集上,提出的网络安全实体识别方法,相关评价指标优于其他算法,F值达到86%.
  • 王伯伟, 聂秀山, 马林元, 尹义龙
    南京大学学报(自然科学版). 2019, 55(1): 41-48. https://doi.org/10.13232/j.cnki.jnju.2019.01.004
    摘要 ( ) PDF全文 ( )   可视化   收藏
    哈希方法作为最近邻搜索中的一个重要算法,具有快速及低内存的优良特性,能够较好地解决现实图像数据库中存在的样本标签信息缺失、人工标注成本过高等问题,因此在图像检索领域得到广泛使用. 提出一种基于语义相似度的无监督图像哈希方法. 首先对原始图像进行语义聚类,然后基于图像的语义相似性,把原始图像特征映射到汉明空间;同时,为了增强哈希学习的鲁棒性,在所得到的目标函数中,采用了2,p范数(0
  • 孔 颉, 孙权森, 纪则轩, 刘亚洲
    南京大学学报(自然科学版). 2019, 55(1): 49-60. https://doi.org/10.13232/j.cnki.jnju.2019.01.005
    摘要 ( ) PDF全文 ( )   可视化   收藏
    提出一种基于仿射不变离散哈希的遥感图像快速目标检测新方法. 首先使用一种“选择性搜索”的方法生成目标候选框;其次,提出一种基于仿射不变离散哈希(Affine-Invariant Discrete Hashing,AIDH)的目标检测方法,该方法采用具有低存储、高效率优势的监督离散哈希框架,结合仿射不变优化因子,构造仿射不变离散哈希,通过将具有相同语义信息的仿射变换样本约束到相似的二值码空间,实现检测精度的提高;最后采用判别分类器结合非极大值抑制的方法,进一步过滤掉误检目标框,完成目标的精确定位. 实验证明,在NWPU VHR-10数据集下,该方法相比于经典目标检测方法和新的哈希方法,在具备高效性的同时,在精度上也得到了保证.
  • 贾海宁, 王士同
    南京大学学报(自然科学版). 2019, 55(1): 61-72. https://doi.org/10.13232/j.cnki.jnju.2019.01.006
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对一般模糊规则模型对含有重尾噪声的数据集鲁棒性较差的问题,提出了面向重尾噪声的模糊规则(Rule-based Fuzzy Model for Heavy-tailed Noisy Data,HtRbF)模型. 该模型使用了两种新的聚类方法,学生t分布均值聚类算法(Student’s t-distribution C-Means,StCM)和学生t分布下的背景模糊聚类方法(Student’s t-distribution Context Fuzzy C-Means,StCFCM),并将其应用在初始规则和新规则的生成中,使模型在重尾噪声场景下生成更为准确的规则,有效减少了模型的输出误差,使其更接近真实输出. HtRbF模型具有良好的抗噪能力,通过对数据集添加不同类型的重尾噪声进行系统性实验,实验结果证明了HtRbF模型的有效性.
  • 胡 太, 杨 明
    南京大学学报(自然科学版). 2019, 55(1): 73-84. https://doi.org/10.13232/j.cnki.jnju.2019.01.007
    摘要 ( ) PDF全文 ( )   可视化   收藏
    卷积神经网络(Convolutional Neural Networks,CNN)可以提供比传统分类算法更强大的分类器并且能够自学习得到深层特征,有效地提高了图像语义分割的准确性. 然而,基于CNN的语义分割算法依然存在一些挑战,例如在复杂场景中现有较优的方法较难分割小目标. 为了解决复杂场景下小目标分割的难题,提出一种结合目标检测的小目标语义分割算法. 与现有较优方法不同的是,该方法没有直接利用单个神经网络模型同时分割单幅图像中的小尺寸和较大尺寸目标,而是将小目标分割任务从完整图像的分割任务中分离. 算法首先训练一个目标检测模型以获取小目标图像块,然后设计一个小目标分割网络得到图像块的分割结果,最终根据该结果修正整体图像的分割图. 该算法提升了语义分割数据集的总体性能,同时能够有效地解决小目标分割的难题.
  • 阚建飞, 任永峰, 翟继友, 董学育, 霍 瑛
    南京大学学报(自然科学版). 2019, 55(1): 85-91. https://doi.org/10.13232/j.cnki.jnju.2019.01.008
    摘要 ( ) PDF全文 ( )   可视化   收藏
    基于稀疏表示理论的目标跟踪方法可以通过激活少量神经元完成目标的动态跟踪,但是要求在当前图像背景中的遮挡或者目标物的姿态变化是可以进行稀疏表示的小面积范围. 针对这一问题,基于Gabor函数和稀疏理论提出一种强鲁棒性的目标跟踪算法. 该算法首先使用目标模板在初始帧中创建Gabor字典,其次使用该字典对候选目标完成稀疏表示,最后通过对Gabor字典的更新完成目标跟踪. 实验结果表明了算法的有效性.
  • 马宏亮, 万建武, 王洪元
    南京大学学报(自然科学版). 2019, 55(1): 92-101. https://doi.org/10.13232/j.cnki.jnju.2019.01.009
    摘要 ( ) PDF全文 ( )   可视化   收藏
    现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能. 然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系. 为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系. 在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法. 在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.
  • 严云洋, 瞿学新, 朱全银, 李 翔, 赵 阳
    南京大学学报(自然科学版). 2019, 55(1): 102-109. https://doi.org/10.13232/j.cnki.jnju.2019.01.010
    摘要 ( ) PDF全文 ( )   可视化   收藏
    为度量在网络日志中网页分类模型的预测结果,将度量为可信的结果加入网址分类集合,提高网络日志中访问链接的分类效率,提出一种基于离群点检测的分类结果置信度的度量方法. 采用基于Bagging构建多个弱分类器对待分类数据进行预测,并对每个预测结果构建各类别的概率向量,根据离群点检测来度量模型的预测结果是否为可信. 在UCI公共数据集上,使用主流的基于k均值和基于局部密度的度量方法进行了对比实验. 实验结果表明,应用基于离群点检测的分类结果置信度,基于k均值的度量方法和基于局部密度的度量方法均显著提高了准确率. 另外,在工程项目爬取的网页分类中也取得了同样的效果.
  • 阚 威, 李 云
    南京大学学报(自然科学版). 2019, 55(1): 110-116. https://doi.org/10.13232/j.cnki.jnju.2019.01.011
    摘要 ( ) PDF全文 ( )   可视化   收藏
    已有研究表明,通过分析人类的脑电信号可以识别出其情绪信息. 近年来,机器学习技术的发展为基于脑电信号的情绪识别研究提供了可靠的技术手段. 传统的机器学习技术简单地从多个通道的脑电信号中提取特征,然后连接成单个特征向量,但是没有考虑到脑电信号中至关重要的时间动态信息. 深度学习技术中的长短时记忆(Long Short-Term Memory,LSTM)网络因其时间上的递归结构,可以很好地解决这个问题. 然而,脑电序列通常较长,直接用来训练LSTM模型所需的计算资源非常大且学习到的信息类型单一,而且忽略了许多对情绪识别非常重要的信息,如频域信息和非线性动力学信息. 为此提出一种新的基于LSTM的情绪识别模型. 脑电信号被分成多个非重叠的信号段,并从每段信号中提取多种时域、频域和非线性动力学特征,这些特征沿时间连接成特征序列并用来训练LSTM分类模型. 在DEAP数据集上验证了该模型在愉悦度、唤醒度和喜欢度上的二分类准确率,其中每个情绪维度分为低和高两类. 实验结果表明,该模型在愉悦度和喜欢度上的分类准确率均优于已有方法,在唤醒度上的分类准确率仅次于最先进的成果.
  • 李 巍, 王 鸥, 刚毅凝, 周杨浩, 郝跃冬
    南京大学学报(自然科学版). 2019, 55(1): 117-124. https://doi.org/10.13232/j.cnki.jnju.2019.01.012
    摘要 ( ) PDF全文 ( )   可视化   收藏
    介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别. 首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操作. 再使用固定大小的滑动窗口对缩放后的图像进行遍历,提取每个窗口图像HOG(Histogram of Oriented Gradient)特征,使用线性SVM(Support Vector Machine)分类器对窗口是否含有仪表进行判断. 然后对检测得到的仪表图像,通过图像处理的方法进行图像预处理,减少阴影的干扰,获取梯度、边缘等信息,再结合改进的霍夫变换,结合仪表图像的灰度信息检测指针的位置,以计算指针的角度. 最后,根据指针的角度以及量程信息,计算当前指针的读数. 实验证明,该方法具有较好的稳定性与准确性.
  • 顾健伟, 曾 诚, 邹恩岑, 陈 扬, 沈 艺, 陆 悠, 奚雪峰
    南京大学学报(自然科学版). 2019, 55(1): 125-132. https://doi.org/10.13232/j.cnki.jnju.2019.01.013
    摘要 ( ) PDF全文 ( )   可视化   收藏
    机器阅读理解(Machine Reading Comprehension,MRC)一直是自然语言处理(Natural Language Processing,NLP)领域的研究热点和核心问题. 近期,百度开源了一款大型中文阅读理解数据集DuReader,旨在处理现实生活中的RC(Reading Comprehension)问题. 该数据集包含1000 k的文本、200 k的问题和420 k的答案,是目前最大型的中文机器阅读理解数据集,在此数据集上发布的阅读理解任务比以往更具有实际意义,也更有难度. 针对该数据集的阅读理解任务,分析研究了一种结合双向注意力流与自注意力(self-attention)机制实现的神经网络模型. 该模型通过双向注意力流机制来获取query-aware上下文信息表征并进行粒度分级,使用自注意力机制捕捉文本和问题句内的词语依赖关系和句法信息,再通过双向长短期记忆(Long Short-Term Memory,LSTM)网络进行语义信息聚合. 实验结果最终得到相同词数百分比(BLEU-4)为44.7%,重叠单元百分比(Rouge-L)为49.1%,与人类测试平均水平较为接近,证明了该模型的有效性.
  • 安 晶, 艾 萍, 徐 森, 刘 聪, 夏建生, 刘大琨
    南京大学学报(自然科学版). 2019, 55(1): 133-142. https://doi.org/10.13232/j.cnki.jnju.2019.01.014
    摘要 ( ) PDF全文 ( )   可视化   收藏
    状态监测和故障诊断对于维护系统性能和保证运行安全具有重要意义. 针对传统智能识别方法需要复杂的特征提取过程和大量的诊断经验等问题,结合振动信号自身的一维性的特点,提出一种基于一维卷积神经网络(1-Dimensional Convolutional Neural Network,1DCNN)的旋转机械智能故障诊断方法. 首先将数据信号通过傅里叶变换转换成频域信号并进行预处理,然后训练卷积神经网络自动提取特征,最后通过Softmax回归进行分类. 在基准数据集上的实验结果表明,1DCNN模型不仅能有效地从原始信号中进行多种工况、多种故障位置、多种故障程度的特征提取和诊断,而且具有很高的故障识别精度,获得了优于主流故障诊断方法的结果.
  • 陆慎涛, 葛洪伟, 周 竞
    南京大学学报(自然科学版). 2019, 55(1): 143-153. https://doi.org/10.13232/j.cnki.jnju.2019.01.015
    摘要 ( ) PDF全文 ( )   可视化   收藏
    移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响. 针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法. 首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果. 将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.
  • 仲昭朝, 邹 婷, 唐惠炜, 庄 重, 张 臻
    南京大学学报(自然科学版). 2019, 55(1): 154-160. https://doi.org/10.13232/j.cnki.jnju.2019.01.016
    摘要 ( ) PDF全文 ( )   可视化   收藏
    为了揭示重金属铜对植物的伤害机制,对铜胁迫下蚕豆根尖细胞凋亡与线粒体功能关系进行了分析. 用1.0 mmol·L-1硫酸铜处理新萌发的蚕豆(Vicia faba)根尖4 h,根系生长抑制率达60%,根尖细胞活力明显受到抑制. 经荧光染料丫啶橙(AO)和溴化乙锭(EB)双染后,可见细胞凋亡特征,凋亡率达61.7%. 同时,线粒体膜通透性明显增大,线粒体膜电位和线粒体内Cyt c/a吸光度比值下降,说明在铜胁迫下线粒体膜受到损伤. 二氨基联苯胺(3,3′-diaminobenzidine,DAB)染色实验证明硫酸铜可以诱导蚕豆根尖活性氧的积累,根尖中H2O2的含量比对照组提高2.5倍. 利用过氧化氢酶(catalase,CAT)预处理分解铜胁迫诱导的活性氧,可以降低细胞凋亡率和线粒体膜损伤. 实验结果证明,活性氧可能介导铜胁迫造成的根尖生长抑制,是植物在遭受重金属铜胁迫时细胞凋亡和线粒体膜损伤的重要生理信号.