×
模态框(Modal)标题
在这里添加一些文本
关闭
关闭
提交更改
取消
确定并提交
×
模态框(Modal)标题
×
下载引用文件后,可以用常见的文献管理软件打开和编辑,包括: BibTex, EndNote, ProCite, RefWorks, and Reference Manager.
选择文件类型/文献管理软件名称
RIS (ProCite, Reference Manager)
BibTeX
选择包含的内容
仅文章引用信息
引用信息及摘要
导出
Toggle navigation
首页
学报介绍
下载中心
过刊浏览
联系我们
2019年, 第55卷, 第1期
刊出日期:2019-02-01
全选
|
Select
面向非平衡多分类问题的二次合成QSMOTE方法
韩明鸣, 郭虎升, 王文剑
南京大学学报(自然科学版). 2019, 55(1): 1-13.
https://doi.org/10.13232/j.cnki.jnju.2019.01.001
摘要
(
)
PDF全文
(
)
可视化
收藏
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况. 此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度. 为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE). 首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成. 在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升.
Select
基于特征选择的CP-nets结构学习
刘 素, 刘惊雷
南京大学学报(自然科学版). 2019, 55(1): 14-28.
https://doi.org/10.13232/j.cnki.jnju.2019.01.002
摘要
(
)
PDF全文
(
)
可视化
收藏
作为描述多属性之间定性条件偏好的一种图模型,条件偏好网(Conditional Preference networks,CP-nets)的结构学习问题在CP-nets的研究中起着重要的作用. 不同于传统的CP-nets学习方法,提出基于信息论和特征选择的方法来研究偏好数据库上的CP-nets的结构学习问题. 首先建立了偏好数据库上的互信息和条件互信息的求解方法,并将互信息看作一个属性和它的可行父亲之间的相关性,条件互信息看作可行父亲集中属性之间的冗余性,从而构造出极大相关极小冗余(Maximal Relevance Minimal Redundancy,mRMR)的目标函数,同时指出,一个属性的父亲集是由属性之间冗余度小,但对孩子属性的偏好却影响极大的属性子集组成的. 随后基于特征选择中的mRMR方法来实现CP-nets的结构学习,并设计相应的算法来完成从偏好数据中学习CP-nets的结构. 最后在电影推荐数据集上验证了算法的有效性. 研究结果表明,基于mRMR的特征选择方法可有效获取变量之间的因果关系,从而求取出每个属性的父亲集合,进而获得CP-nets的结构.
Select
基于深度神经网络的网络安全实体识别方法
秦 娅, 申国伟, 赵文波, 陈艳平
南京大学学报(自然科学版). 2019, 55(1): 29-40.
https://doi.org/10.13232/j.cnki.jnju.2019.01.003
摘要
(
)
PDF全文
(
)
可视化
收藏
基于安全知识图谱的网络安全威胁情报分析能够细粒度地分析多源威胁情报数据,因此受到广泛关注. 传统的命名实体识别方法难以识别网络安全领域中新的或中英文混合的安全实体,且提取的特征不充分,因此难以准确地识别网络安全实体. 在深度神经网络模型的基础上,提出一种结合特征模板的CNN-BiLSTM-CRF的网络安全实体识别方法,利用人工特征模板提取局部上下文特征,进一步利用神经网络模型自动提取字符特征和文本全局特征. 实验结果表明,在大规模网络安全数据集上,提出的网络安全实体识别方法,相关评价指标优于其他算法,F值达到86%.
Select
基于语义相似度的无监督图像哈希方法
王伯伟, 聂秀山, 马林元, 尹义龙
南京大学学报(自然科学版). 2019, 55(1): 41-48.
https://doi.org/10.13232/j.cnki.jnju.2019.01.004
摘要
(
)
PDF全文
(
)
可视化
收藏
哈希方法作为最近邻搜索中的一个重要算法,具有快速及低内存的优良特性,能够较好地解决现实图像数据库中存在的样本标签信息缺失、人工标注成本过高等问题,因此在图像检索领域得到广泛使用. 提出一种基于语义相似度的无监督图像哈希方法. 首先对原始图像进行语义聚类,然后基于图像的语义相似性,把原始图像特征映射到汉明空间;同时,为了增强哈希学习的鲁棒性,在所得到的目标函数中,采用了2,p范数(0