随着互联网应用的蓬勃发展,一个人在不同的社交网络平台上都拥有账户是很常见的.如何在多个社交网络上找到同一个人的账户,对许多应用是很重要的问题,也被称为用户对齐问题.在用户对齐问题上,目前有两个主要的挑战:首先,收集手工对齐的用户对作为训练数据的代价非常大,但传统的有监督方法往往需要大量的标注数据才能获得较好的效果;其次,不同网络中的用户的结构和属性往往不太相同,进一步增加了用户对齐的难度.提出一种无监督用户对齐方法SPUAL(Soft Principle for User Alignment),设计了一种新颖的基于用户的属性与结构的软对齐一致性原则,通过无监督方法计算用户对是否服从此原则来推断用户对是否对齐.在几个公共数据集上的实验表明,该方法的性能比目前最先进的无监督方法都有明显提高.
采用以平面为原型来拟合样本的思想设计学习机,已在机器学习和数据挖掘等领域引起广泛关注,然而,如何利用少量标记样本,兼顾平面原型特点实现聚类,鲜见报道.以kPC(k?Plane Clustering)为切入点,在有标样本极端少的情况下,设计了半监督型平面聚类算法semi?kPC.考虑到L1范数较L2范数更为鲁棒的事实,在已有工作L1kPC (L1 norm kPC)的基础上,提出基于L1范数的半监督聚类方法semi?L1kPC.从每类仅有一个已标样本出发,在人工数据集和UCI数据集上的实验表明:(1)在XOR(Exclusive OR)问题上,平面型的聚类方法的聚类准确率均显著高于k?means算法,因为k?means无法利用平面特性;(2)在引入少量监督信息后,半监督型聚类方法semi?kPC和semi?L1kPC比其他聚类方法的聚类准确率更高;(3)采用L1范数的semi?L1kPC比semi?kPC的鲁棒性更好.
针对多标记学习算法中特征描述粒度导致的标记倾向性问题,大多数研究者从特征与所有标记之间的关联性入手,通过求解得出若干重要特征,并由此构造相应的特征子空间.这种做法会导致有些特征与某个标记有很强的相关性,但与整个标记空间的相关性却并不大,这样的特征丢失易造成分类器精度下降.如果将整个标记空间换成部分标记空间甚至单个标记空间来计算与特征之间的关联性,并把关联性很强的标记分开进行特征选择,就会降低算法的时间开销,提高算法的效率.同时,基于互信息的多标记学习算法多数采用传统熵的方法进行特征选择,由于传统熵不具有补的性质,计算方法较为复杂.引入粗糙熵的度量方法,提出基于粗糙互信息的多标记倾向性k特征核选择算法,实验和统计假设检验都证明该算法是有效的.
现有的多标记特征选择一般假设特征空间是固定已知的,然而实际应用中很多特征是需要在提取过程中实时地进行筛选.为此,提出基于邻域交互增益信息的多标记在线流特征选择算法.首先,基于多标记邻域互信息和邻域交互增益信息提出在线相关性分析与在线冗余性分析两种策略来评价特征;其次,基于邻域交互增益信息构建了在线流多标记特征选择的目标优化函数;最后,在六个多标记数据集和四个评价指标上,实验结果证明了该算法的有效性和稳定性.
针对传统蝗虫优化算法寻优精度低和收敛速度慢的问题,提出一种基于非线性调整策略的改进蝗虫优化算法.首先,利用非线性参数代替传统蝗虫算法中的递减系数,协调算法全局探索和局部开发能力,加快算法收敛速度;其次,引入自适应权重系数改变蝗虫位置更新方式,提高算法寻优精度;然后,结合limit阈值思想,利用非线性参数对种群中部分个体进行扰动,避免算法陷入局部最优.通过六个基准测试函数的仿真结果表明,改进算法的收敛速度和寻优精度均有明显提高.最后将改进算法应用于特征选择问题中,通过在七个数据集上的实验结果表明,基于改进算法的特征选择方法能够有效地进行特征选择,提高分类准确率.
近年来,距离度量学习已经成为图像分类领域的研究热点之一,图像到类距离的度量作为其中的一种方法,取得了不错的分类效果.该方法是一种非参数方法,但由于缺少训练学习,其分类性能很容易受干扰因素的影响,为此提出一种基于AdaBoost算法的图像到类距离学习的图像分类方法.首先将图像到类的距离进行阈值化处理,并使用线性分段函数作为图像到类距离的评价函数,然后将该评价函数作为弱分类器加入到AdaBoost算法中生成一个强分类器.为了选择最优的弱分类器,使用粒子群优化算法确定图像的相似性阈值,再基于权重错误误差最小化原则得到距离评价函数的两个评价值.最后通过实验验证,该方法在Scene?15和Caltech?101图像数据集上比其他方法有更好的分类效果.
为了描述和分析特定微博事件的情感变化,情感时间序列被应用在微博事件分析当中.情感时间序列是根据不同时间段内的情感强度生成的曲线,能够描述用户关于事件的情感随时间变化的趋势.为了使对微博的情感挖掘定位到更为精准的时间片,提出一种基于Shapelet的不相关情感子序列挖掘方法.首先通过事件和不同类别用户的微博生成相应的情感时间序列,然后利用基于Shapelet的思想将相应序列划分成不同的子序列,最后通过计算不同种类用户的子序列和事件子序列的相似性得到最不相关的情感子序列.通过基于微博事件数据集的实验展示了使用该方法挖掘出的情感子序列结果,并进一步通过情感相似度方法验证了该方法的合理性.
概念漂移会导致数据流分类模型的分类能力随时间发展而下降,这就要求分类模型有自适应的能力.现有的大多数自适应概念漂移的数据流分类模型往往假设数据输入分类模型得到预测标签之后就可以得到其真实标签,但这种假设在某些情况下是不合理的,因为数据标记往往成本高、耗时长.因此,针对数据流少量标签的问题,在考虑主动学习可能出现采样偏差的情况下,结合不确定性主动学习策略以及边界点和离群点检测方法(Boundary and Outlier Detection,BOD),提出一种新的主动学习方法ALBOD(Active Learning Based on Boundary and Outlier Detection).比较实验的结果表明,在概念漂移发生的情况下,与100%标记算法OzaBagAdwin(OBA)和HoeffdingAdaptiveTree(HAT)相比,ALBOD主动学习方法只需要平均20%左右的标签就可以使分类器保持同等分类精度,说明新方法ALBOD有良好的主动学习能力.
条件偏好网(Conditional Preference networks,CP?nets)是描述属性间条件偏好的图模型,多值无环CP?nets学习是重要的研究方向之一.区别于传统的CP?nets学习方法,提出基于贝叶斯方法和遗传算法的多值无环CP?nets学习.在偏好处理上以多值属性的完整偏序关系作为条件偏好,进行相关性关系判定.随后,基于贝叶斯方法,以单一父属性推出多父属性下的相关性关系,进行CP?nets结构学习.采用遗传算法在CP?nets结构搜索空间中进行搜索,求解最优结构.通过Delink算法进行去环,完成无环CP?nets学习.在寿司数据集上验证算法的有效性,实验结果表明,基于贝叶斯?遗传算法的CP?nets学习算法能够在有限时间内学习得到局部最优无环CP?nets.
自相似特性是复杂网络研究的重点,分形维数是度量其自相似特性的重要工具.针对带权图中节点权重与边权重可以为正实数、负实数、纯虚数及复数等多种不同数值的情形,给出各种不同带权图的多重分形维数,讨论了带权图的多重分形特性.研究表明,在不同类型的带权图中,除节点权重及边权重均为正实数的情形之外,其他类型的带权图均具有多重分形特性.最后分析了这些带权图多重分形维数的性质.
截断Hinge损失能够获得更为稀疏的支持向量,因此在鲁棒性上有显著的优点,但却由此导致了难以求解的非凸问题.MM(Majorization?Minimization)是一种求解非凸问题的一般框架,多阶段MM策略已经在稀疏性上取得了很好的效果,但是计算复杂度较高.另一方面,非精确线搜割平面方法可以高效求解线性支持向量机问题.针对截断L 1?SVM(L 1 Support Vector Machine)这一非凸非光滑问题,提出一种基于非精确线性搜索的多阶段割平面方法,避免每个阶段都进行批处理求解,克服了计算复杂度高的缺点,具有每个阶段求解速度快的优点.该算法适用于大规模问题的求解,也从理论上保证了其收敛性.最后,与其他多阶段算法进行了实验对比,验证了该方法的有效性.
人们通过社交关系构成一个庞大的社交网络,网络中的每个节点只能与其周围的节点进行通信,因此当网络中的某个节点进行物品拍卖销售时,在不借助第三方推广的情况下只能邀请其邻居节点参与.中心化机制能使网络中的其他非邻居节点都能参与拍卖,以此可以提高卖家节点的最终收益,然而在该机制中卖家可以轻易地与买家串通,并且买家需要将社交网络结构(买家的私人社交信息)完全透露给卖家,因此网络中的节点没有很强的动机来参与该机制.提出一种分布式的解决方案,可以防止卖家与买家勾结,同时保持网络结构不被泄露.实验证明,该分布式机制保留了传统机制的优点,而且不需要一个可以完全获得网络结构的中心机构来执行该机制.通过模拟实验还发现,在大多数情况下,社交网络越复杂,泄露的隐私信息就越少.
染色体核型分析是细胞遗传学研究的主要技术之一,在现代医学治疗和诊断中有重要的作用.通常在染色体核型分析的过程中,首先需要在染色体中期图像中分割出单条染色体,然后再对染色体逐一进行分析、比较、排序和分类.由于传统的基于几何及基于统计的分割和分类的辅助工具精度低,辅助作用有限,因此在实际工作中仍然需要医生花费大量的时间和精力进行人工核型分析.为此提出一种基于卷积神经网络和几何优化的染色体核型分析新方法,利用Mask R?CNN(Region?Convolutional Neural Networks)从染色体中期图像中分割出染色体,并训练一个新型多输入的卷积神经网络对分割后的单条染色体进行分类;还提出一种全新的基于局部特征的染色体分割数据合成方法对分割数据集进行扩充.此外,为了保证分类训练数据的一致性,提出一种基于中线的染色体伸直几何优化算法.实验结果表明提出的方法在自动核型分析中表现优秀.
新闻事件检测是自动检测新闻文本中出现的相关事件,需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN),针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.
针对多跑道机场起降航班难以进行跑道合理分配,尤其是混合跑道的使用问题,以降低航班延误损失为目标,提出一种基于跑道的航班优先系数计算策略,建立了一种多跑道进离港地面等待问题优化模型,并实现进离港队列延误费用的合理分配.同时,设计了一种启发式局部搜索算子并嵌入遗传算法,形成一种混合遗传算法对问题模型求解.通过对代表性算例的计算,结果表明,所提出的模型及算法不仅可以减少航班的延误损失,还可以显著优化延误损失在进离港队列之间的合理分配.
AQI (Air Quality Index)是判定空气质量好坏的重要指标,做好AQI的预测,对大气污染的治理有积极的推进作用,但目前预测AQI的算法通常没有综合考虑气象因素和周边城市对预测性能的影响.将气象因素和周边城市的污染物因素作为算法设计的基础,提出一种基于社区划分的空气质量指数预测的算法.首先根据气象特征计算城市之间的相似度,接着对各城市间的相似度矩阵进行社区划分;然后将属于同一社区的城市污染物时序信息作为预测目标城市空气质量指数的依据,并考虑目标城市的周边城市对其的影响;最后使用非线性回归的方法进行预测建模.通过对江苏省内20座城市的大气污染数据和气象数据的采集与分析,证明该算法不但预测精度有所提高,而且与传统的时间序列预测模型相比,降低了时间复杂度.
基于TSMC 65 nm CMOS工艺,设计了一种具有宽调谐范围的毫米波电感电容压控振荡器,振荡器采用开关电容阵列、大容值范围可调电容和大滤波电容实现频率调谐范围与相位噪声的双优化.通过三组开关电容阵列来获得八条子频段,优选容值范围较大的可调电容来细调每一个频段的振荡频率,获得较大的调谐增益K vco,从而最大程度地提高频率调谐范围.通过大滤波电容与尾电流源构成的低通滤波器抑制偶次谐波附近的噪声,从而优化相位噪声.仿真结果表明,在1.2 V的工作电源电压下,压控振荡器的频率调谐范围22.2 G~29.2 GHz,中心频率25.7 GHz,在1 MHz频率偏移处的相位噪声-100.9 dBc·Hz-1,功耗10.81 mW,芯片核心面积为0.056 mm2.