2021年, 第57卷, 第1期 
刊出日期:2021-01-30
  

  • 全选
    |
  • 曾宪华, 陆宇喆, 童世玥, 徐黎明
    南京大学学报(自然科学版). 2021, 57(1): 1-9. https://doi.org/10.13232/j.cnki.jnju.2021.01.001
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    风格迁移是一门将参考图像的风格迁移到目标图像上的技术,但将风格迁移算法应用于写实类照片时,生成的图像却会因为纹理扭曲严重而表现得不真实或是生成的图像整体缺少美感,为了解决此类问题,提出一种基于卷积神经网络的风格迁移算法.首先,为了高效融合不同层信息作为特征表达使生成图像饱满丰富,用聚合方法结合了图像较浅层和较深层的特征;然后,使用全局风格损失和局部风格损失来构建总风格损失项,这样能使生成图像保持风格全局一致性,同时也保留了局部细节信息,其中全局风格损失是由格拉姆矩阵表达,而局部风格损失由马尔科夫随机场表达.为了限制图像结构的变化,将图像变化约束在颜色空间的局部仿射中.还提出一种基于神经网络的语义分割模块来约束图像不同语义区域处的纹理溢出,该模块自动生成输入图像的语义分割映射,节约人为手工构造语义区域的时间.实验结果表明,该方法在不同的风格场景下均能产生真实且美观的图像.

  • 余方超, 方贤进, 张又文, 杨高明, 王丽
    南京大学学报(自然科学版). 2021, 57(1): 10-20. https://doi.org/10.13232/j.cnki.jnju.2021.01.002
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    近年来,深度学习在很多领域都得到了广泛的应用,然而基于深度学习的人工智能应用正面临严重的隐私泄露风险,虽然研究人员提出了很多相应的防御机制,但这些方法大都存在以下问题:对攻击者掌握的背景知识有过多的假设、不具有通用性以及高复杂度和高计算代价.尝试从差分隐私的角度出发构造一个通用隐私保护防御算法.目前在深度学习领域,应用最广泛的差分隐私算法是DPSGD(Stochastic Gradient Descent with Differential Privacy),但在应用DPSGD的过程中难以选择合适的参数以达到良好的拟合效果;此外,其隐私损失的度量机制也较为复杂.为解决这些问题,提出DPADAM(Adaptive Moment Estimation with Differential Privacy)算法,同时引入zCDP(Zero?Concentrated Differential Privacy)作为隐私损失的度量机制,使其在应用过程中更加简单灵活.实验证明,DPADAM算法能够有效解决参数依赖问题,在确保隐私性的同时提高模型的拟合效果.

  • 张萌, 韩冰, 王哲, 尤富生, 李浩然
    南京大学学报(自然科学版). 2021, 57(1): 21-28. https://doi.org/10.13232/j.cnki.jnju.2021.01.003
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    甲状腺癌是内分泌系统最常见的恶性肿瘤,甲状腺病理图像对于甲状腺癌的分级、预后和后续治疗有重要的指导作用.近年来,深度学习在病理图像分类分级中表现出色,然而,为了获得良好的分类性能,这些方法往往需要大量的标注数据.众所周知,医学图像的手动注释非常繁琐、耗时,并且需要领域知识的指导.为了降低标注成本,提出一种将卷积神经网络(Convolutional Neural Networks,CNN)和主动学习相结合的分类方法,无须标记所有数据,仅选择少量样本进行标注.此方法利用CNN提取病理图像的特征,进而使用该特征计算未标注样本的不确定性和相似性,选择“有价值”的样本;然后由病理学家对选定的样本进行标注,并不断微调网络以增强模型的分类性能.在甲状腺病理图像上的实验结果表明,该方法能够在不牺牲最终分类准确率的情况下降低标记成本.

  • 马明寅, 狄岚, 梁久祯
    南京大学学报(自然科学版). 2021, 57(1): 29-41. https://doi.org/10.13232/j.cnki.jnju.2021.01.004
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对具有复杂周期性图案的纺织品的瑕疵检测问题,提出一种基于图像校正和模板分割的纺织品瑕疵检测方法.该方法应用一种基于Hough变换和透视变换的图像校正方法,将周期性图案不规则的图像校正为单元排布规律的图像.通过周期计算的自适应分割的方法将无瑕疵的图像分割为单元图案,再使用模板校正的方法对分割后的图案进行校正,并以校正后的图案作为模板,对低秩分解后的图像使用GIS (Golden Image Subtraction)方法,计算图像的阈值.同样地,对有瑕疵的图像进行校正之后,再进行低秩分解以突出显示出瑕疵的部分,并将使用GIS方法检测后大于阈值的部分标记为瑕疵.通过实验表明,该方法对于箱形图的断端和粗条纹两种瑕疵类型以及星形图的粗条纹和细条纹两种瑕疵类型有较好的检测效果,尤其在查全率和f值上表现稳定并领先于其他对比方法.

  • 李一凡, 朱斐, 凌兴宏, 刘全
    南京大学学报(自然科学版). 2021, 57(1): 42-51. https://doi.org/10.13232/j.cnki.jnju.2021.01.005
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    心电监测已经成为临床诊断和健康监测的重要手段.作为心电分析的基础,心电图QRS波的自动检测备受关注.但是,由于动态心电数据体量大、有噪声,目前很多方法在动态心电图QRS波的检测任务中往往表现不佳,在实际应用场景下实际准确率不到80%.针对此问题提出具有窗口结构Bi?LSTM(Bidirectional Long Short?Term Memory)网络的心电图QRS波检测方法.通过增大采样窗口,在双向的LSTM结构中添加卷积层,给模型赋予了特征提取的能力,经过样本训练就能获得可以预测的模型.卷积Bi?LSTM模型可以自动学习和标注心电图中QRS波的位置,解决正样本稀疏和噪音干扰的问题.实验表明,具有窗口结构Bi?LSTM网络的心电图QRS波检测方法在适当增大取样窗口时,可以提高预测准确度并加快收敛速度.

  • 陈炳鑫, 陈黎飞
    南京大学学报(自然科学版). 2021, 57(1): 52-58. https://doi.org/10.13232/j.cnki.jnju.2021.01.006
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    隐马尔可夫模型(Hidden Markov Model,HMM)是一种双重随机概率模型,已广泛应用于序列数据建模.针对符号序列分类中距离度量定义的困难,提出一种符号序列的预训练HMM分类新方法.首先,定义一种基于HMM状态转移矩阵的序列距离新度量;其次,为得到不同序列在HMM隐状态共享条件下的状态转移矩阵,提出一种两阶段的预训练方法,先在所有序列上进行HMM预训练以学习所有序列共享的隐状态,再使用共享状态为每条序列进行训练得到各自的状态转移矩阵;最后用近邻分类器对符号序列进行基于距离的分类.在三个应用领域的真实序列上进行了实验,并与基于子序列、HMM变体模型等现有分类方法进行对比,结果表明,所提出的方法能使用较低的特征维度取得较理想的分类精度.

  • 李佳佳, 丁伟, 王伯伟, 聂秀山, 崔超然
    南京大学学报(自然科学版). 2021, 57(1): 59-67. https://doi.org/10.13232/j.cnki.jnju.2021.01.007
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着体育事业的发展,传统体育项目越来越受重视.作为我国传统体育运动的重要组成部分,民俗体育运动的发展显得尤为重要.为研究民俗体育项目对健身效果的影响,组织多个对象分别进行一段时间内的角力类、竞足类和技巧类三类民俗体育运动训练,并观察对象训练后在身体形态、身体机能、身体素质三方面共计32个代表性身体指标的变化情况.进一步,以身体指标变化情况作为特征表示观察对象,采用随机森林算法预测不同对象在训练阶段进行民俗体育运动的种类,在过程中基于信息增益进行特征选择,从而度量不同类别民俗体育运动对各项身体指标的影响程度.将获得的不同运动对各项身体指标的影响程度与真实影响情况进行评估分析,揭示民俗体育运动与人身体机能的关联关系.此外,实验结果证明,和基准线算法相比,提出的算法有更高的预测准确性.

  • 李金轩, 杜军平, 薛哲
    南京大学学报(自然科学版). 2021, 57(1): 68-74. https://doi.org/10.13232/j.cnki.jnju.2021.01.008
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    股票价格预测是金融行业中的一个重要研究内容,能够更准确地分析股票价格走势对于投资机构至关重要.目前,关于自动化预测股票价格发展的研究工作相对较少,还有许多问题需要解决.针对传统股票预测方法中视角单一、无法充分考虑数据的各特征重要度的问题,提出一种基于多视角股票特征的股票预测方法,通过计算股票数据的Ma,Macd,Kdj,Boll特征指标,训练每个指标下的弱学习器,并进行多个弱学习器的集成学习,最终用于预测股票价格走势.使用美国股票新闻数据集进行验证.结果表明,基于多视角股票特征的股票预测方法预测得到的股票价格与实际价格之间的平均误差与均方误差分别为1.9321和0.0581,优于传统的基于单一指标的股票预测结果.

  • 王一宾, 郑伟杰, 程玉胜, 曹天成
    南京大学学报(自然科学版). 2021, 57(1): 75-89. https://doi.org/10.13232/j.cnki.jnju.2021.01.009
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    多标签算法大多利用特征与标签嵌入等方法挖掘标签空间的语义信息,但这类方法没有利用特征与标签间可能存在的某种联系.类属属性的提出较好地诠释了特征与标签的联系,即标签可能对应一组自身的特征,然而这类方法未能给出特征与标签间可能存在的逻辑关系,也未证实标签与实例间可能存在同样的逻辑关系.因此,提出基于PLSA (Probabilistic Latent Semantic Analysis)学习概率分布语义信息的新型多标签分类算法.首先认为样本矩阵存在一种隐含变量作为标签,利用PLSA模型获取特征?标签与标签?实例条件概率分布矩阵,以条件概率分布的形式解释它们之间可能存在的联系;其次,建立模型学习概率分布矩阵中存在的语义信息,并应用于多标签算法的标签预测与分类;最后在13个公开的多标签文本类型的数据集上进行实验与统计假设检验,并与其他多标签分类算法对比.实验结果表明,提出的学习概率分布语义信息用于提高多标签算法的性能存在一定的合理性.

  • 温玉莲, 林培光
    南京大学学报(自然科学版). 2021, 57(1): 90-100. https://doi.org/10.13232/j.cnki.jnju.2021.01.010
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    股票市场预测可为投资决策提供重要依据,但在当前的量化投资领域,研究者大多基于单一行业对股票的金融时间序列进行预测研究,忽略了行业背景差异下的股票特征信息;同时,还存在难以有效提取股票时序数据特征、股票情感指标以及股票趋势预测不准确等问题.为解决上述问题,提出利用一种新的WBED(Word2vec?BiLSTM and Encoder?Decoder)混合模型对不同行业背景下的股票信息进行时间序列预测研究.该方法采用WB模型进行情感分类,计算情感值,获取情感指标;然后引入双注意力机制,在Encoder模型中利用特征注意力机制给股票时序数据特征赋予不同权重以区别不同特征的重要程度,在Decoder模型中利用时间注意力机制给Encoder模型中LSTM的隐状态赋予不同权重以区别不同时间维度信息的重要程度;最后,利用股票时序数据和情感指标进行股票预测.另外,考虑到不同行业背景下的股票对象对模型超参数的敏感度可能不同,所以为不同行业的股票对象选择合适的超参数使模型的预测性能更好.参考“2019中国上市公司500强”,选取三个行业中的九家上市公司股票作为研究对象,采用四种对比模型和四个模型评价指标进行实验分析.实验结果表明,提出的新的混合模型在行业背景差异下的金融时间序列预测研究中有一定的优越性.

  • 郑文萍, 刘美麟, 穆俊芳, 杨贵
    南京大学学报(自然科学版). 2021, 57(1): 101-109. https://doi.org/10.13232/j.cnki.jnju.2021.01.011
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    许多成功的社区发现算法已经被广泛应用于复杂网络社区发现任务中.随着数据复杂性的增加,网络中节点间的关系也呈现多样化的特点,因此提出一种基于信息熵的节点稳定性度量方法,衡量网络中节点在社区划分中的稳定性;并在此基础上提出一种基于节点稳定性的社区发现算法(Node Stability?based Algorithm,NSA).首先得到网络的t种社区划分,计算各节点的标签熵,选择熵小于一定阈值的节点作为网络的稳定节点集S;然后,利用所得到的稳定节点集S从原网络中抽取一个包含S的连通子图Gs,使Gs中节点的不稳定性尽可能低;在连通子图Gs上进行社区发现,得到初始聚类结果,再计算其他未聚类节点与初始类簇的距离,确定其社区归属,得到最终聚类结果.在四个带标签真实网络数据集和八个不带标签的真实网络数据集上,与LPA,Infomap,Walktrap,BGLL,LPA?S等经典算法的比较实验表明,所提出的NSA算法能够较好地进行社区发现,在NMI和模块度等方面表现良好.

  • 汪志峰, 赵宇海, 王国仁
    南京大学学报(自然科学版). 2021, 57(1): 110-120. https://doi.org/10.13232/j.cnki.jnju.2021.01.012
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    Flink是目前非常流行的流处理引擎.和先前的Hadoop,Spark,Storm等分布式计算框架相比,Flink能实现低延迟、高吞吐,保证Exactly Once.调度模块是保证集群高性能非常重要的一部分,但目前Flink调度默认把集群中所有节点看作是同等性能的,采用轮询调度策略.但在异构集群里这样的调度就会低效,因为计算资源少的节点运行的Task和计算资源多的节点运行的Task一样多,所以局部负载不均衡,影响Job的运行时间和吞吐量,造成延时.提出平滑加权轮询任务调度算法和基于蚁群算法的任务调度算法,解决运行过程中集群负载不均衡问题.平滑加权轮询任务调度算法在任务调度初始阶段根据集群资源按照权重平滑轮询调度.基于蚁群算法的任务调度算法是在运行过程中当集群已使用资源高于阈值时采用类似蚁群算法去执行任务调度,动态计算全局最优任务分配方案,能重新负载均衡.

  • 刘琼, 代建华, 陈姣龙
    南京大学学报(自然科学版). 2021, 57(1): 121-129. https://doi.org/10.13232/j.cnki.jnju.2021.01.013
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    特征选择是区间值信息系统中数据分析的研究热点,但是目前针对区间值数据提出的特征选择很少考虑数据自身的测试代价和误分类代价.为了解决这一问题,首先利用邻域粗糙集给出了区间值邻域的概念,进而重新定义了基于区间值邻域的熵结构,其次构造了区间值系统下的代价敏感函数,最后提出基于代价敏感的区间值特征选择方法.通过实验对比,证实了该方法的合理性和有效性.

  • 郑嘉文, 吴伟志, 包菡, 谭安辉
    南京大学学报(自然科学版). 2021, 57(1): 130-140. https://doi.org/10.13232/j.cnki.jnju.2021.01.014
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    粒计算模拟人类思考问题的自然模式是当今人工智能领域非常活跃的研究方向,在大数据挖掘和知识发现方面有独特的优势.针对多尺度决策系统的知识表示与知识获取问题,提出用信息熵角度研究多尺度信息系统的最优尺度选择问题.首先,定义多尺度信息系统的熵最优尺度与多尺度决策系统的广义决策熵最优尺度的概念;其次,讨论新提出的最优尺度概念与传统最优尺度概念之间的关系,证明在多尺度信息系统中传统的最优尺度与熵最优尺度是等价的;在协调多尺度决策系统中,证明传统的最优尺度与熵最优尺度也是等价的.而在不协调多尺度决策系统中,传统的最优尺度与熵最优尺度不等价,进而引入广义决策熵最优尺度,并证明广义决策最优尺度与广义决策熵最优尺度是等价的.

  • 郑文彬, 李进金, 张燕兰, 廖淑娇
    南京大学学报(自然科学版). 2021, 57(1): 141-149. https://doi.org/10.13232/j.cnki.jnju.2021.01.015
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    粒度约简是多粒度粗糙集的重要议题,现存的多粒度粗糙集粒度约简方法以考虑各种形式计算多粒度下的正域为主要的研究方法.然而对于多粒度粗糙集,因为同时存在悲观视角与乐观视角,不仅下近似会因悲观、乐观视角而产生差异,视角同样会影响上近似的大小.因此,提出一种可以保持多粒度上下近似不变的粒度约简方法,同时考量多粒度粗糙集的上近似与下近似的粒度重要度,基于重要度设计了用矩阵计算粒度重要度的方法,并提出相应的粒度约简算法.在UCI公开数据集上使用对比算法验证了所提算法的有效性和优越性.

  • 毛振宇, 窦慧莉, 宋晶晶, 姜泽华, 王平心
    南京大学学报(自然科学版). 2021, 57(1): 150-159. https://doi.org/10.13232/j.cnki.jnju.2021.01.016
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在邻域粗糙集的研究中,往往借助给定的半径来约束样本之间的相似性进而实现邻域信息粒化,需要注意的是,若给定的半径较大,则不同类别的样本将落入同一邻域中,易引起邻域中信息的不精确或不一致.为改善这一问题,已有学者给出了伪标记邻域的策略,然而无论是传统邻域还是伪标记邻域,都仅仅使用样本间的距离来度量样本之间的相似性,忽略了邻域信息粒内部不同样本所对应的邻域之间的结构关系.鉴于此,通过引入邻域距离度量,提出一种共现邻域的信息粒化机制,并构造了新型的共现邻域以及伪标记共现邻域粗糙集模型,在此基础上使用前向贪心搜索策略实现了所构造的两种模型下的约简求解.实验结果表明,与传统邻域关系以及伪标记邻域关系所求得的约简相比,利用共现邻域方法求得的约简能够在不降低分类器准确率的前提下产生更高的约简率.

  • 高春永, 柏业超, 王琼
    南京大学学报(自然科学版). 2021, 57(1): 160-166. https://doi.org/10.13232/j.cnki.jnju.2021.01.017
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对目前SAR(Synthetic Aperture Radar)图像中样本人工标记成本高、传统算法分类识别较低的情况,提出一种基于改进半监督阶梯网络(Semi?supervised Ladder Network,SSLN)的SAR图像分类识别方法.首先在原SSLN模型的解码器网络中使用卷积神经网络代替全连接层,对编码器输出的每层数据进行全局深度特征提取,这样做有利于图像降噪,实现对输出数据的重构.其次,为解决SAR图像各类数据集分布不均衡的问题,同时提高网络的泛化性能,对阶梯网络训练层中各类别损失函数的权重进行优化,根据各类别样本数所占总样本数的比重,对少样本类别损失函数调高权重,对多样本类别损失函数调低权重.在公开数据集MSTAR(Moving and Stationary Target Automatic Recognition)上的实验表明,改进后的半监督阶梯网络分类的识别准确度明显优于SSLN算法,且具有更好的泛化性.