社交关系网络的复杂性和动态性为观点演化研究带来三大挑战:一是研究者在确定个体的观点交互集合时没有考虑个体的信任阈值,导致观点交互集合的准确性不足;二是现有研究通常忽略了非邻居节点之间的交互对社会群体观点演化的影响;三是现有研究通常基于个体间的观点距离来更新社交网络结构,没有考虑个体间的信任关系对网络结构的影响.为了应对上述挑战,提出一种社交网络中动态信任感知的观点演化模型(Dynamic Trust?Aware Opinion Evolu?tion Model in Social Networks,DTAOE).具体地,首先基于信任传播规则构建出社交群体的信任矩阵;之后,基于引入的信任度阈值和信任矩阵,从邻居节点以及非邻居节点中确定当前个体的信任集合,进而基于信任集合中观点相似的个体更新当前个体的观点;最后,根据个体间的观点距离和信任关系,动态地调整社交网络的拓扑结构.上述演化步骤被重复执行直到群体的观点达到稳定状态.开展了大量的仿真实验,实验结果证明了DTAOE模型的有效性和合理性,并揭示了网络结构和信任关系对观点传播的影响机制.
层次聚类是无监督学习的重点研究方向,由于其结果易于分析,因此被广泛应用于数据挖掘领域.目前大多数层次聚类算法都需要根据数据的成对距离进行簇合并操作,因此具有较高的复杂度(不论是时间或空间),无法用于大规模数据的处理.针对以上问题,提出了一种基于改进局部密度的可扩展层次聚类算法(Density?based Scalable Hierarchical Clustering,DBSC).该算法根据数据间的最近邻关系构造最近邻图,并在每个最近邻分量上根据互惠最近邻结点的局部密度选择代表点.为了降低孤立最近邻分量对计算局部密度的干扰,算法利用二阶最近邻将孤立最近邻分量重连至最近邻分量.通过以上步骤算法选择代表点,以迭代的方式自下而上地构建聚类树.大量真实数据集的实验结果表明,该算法可以在保证较高的聚类精度和较快的响应速度的前提下将处理数据的规模提升至数十万项.
链接预测旨在推断网络中缺失的边或预测未来可能出现的边.先前的链接预测研究主要集中在处理静态网络上,其目标是预测已知网络中缺失的边,然而,现实世界中许多复杂网络通常是动态变化的,使得动态网络中的链接预测任务往往比静态网络中更为复杂和困难.近年来,基于动态图表示学习的链接预测方法已经展现较好的结果,这类方法利用动态图表示学习方法学习节点的嵌入表示,以捕捉网络的结构和演化信息,从而在动态网络中实现有效的链接预测.现有方法主要采用循环神经网络或自注意力机制作为神经网络架构的组件,通过时间序列网络学习动态网络的演化信息,然而,动态网络的多样性和演化模式的可变性对基于复杂时序网络的方法提出挑战.这些方法可能很难适应不同动态网络中不断发展的演化模式,同时,在图表示学习领域,图对比学习因为其强大的自监督学习能力受到广泛关注,但是现有方法大多针对静态图,对于动态图的研究较少.为了解决上述问题,提出一种动态网络多视图对比学习的链接预测方法,不依赖额外的时序网络参数,实现动态网络的表示学习和链接预测.该方法将动态网络快照视为网络的多个视图,摆脱对比学习对数据增强的依赖.通过构建包含网络结构、节点演化以及拓扑演化三个视图的对比学习目标函数,挖掘快照内网络结构、快照间节点和网络高阶结构的演化模式学习节点表示,实现链接预测任务.最后,在多个真实数据集上进行了多类动态链接预测实验,实验结果显著优于所有基线方法,验证了所提方法的有效性.
针对基于进化方法的贝叶斯网络结构学习易陷入局部最优和寻优效率低的问题,提出一种利用遗传算法联姻策略学习贝叶斯网络结构的技术.首先设计了“同”联姻策略,两个种群使用相同的搜索策略和评估模型完成贝叶斯网络结构学习.对学习到质量最好的子代个体进行联姻,将所得的质量最佳的子代个体共同返回两个种群中进行迭代.由于联姻的子代保留了另一个种群的片段,对种群中基因的多样性起到很好的保障,有效规避了近亲繁殖造成的缺陷.针对同代理模型的联姻策略无法同时兼顾网络结构质量及学习效率的问题,提出基于集成的遗传算法联姻策略,两个种群分别使用不同的代理模型和搜索策略进行学习,对各自学习到的当代最优个体进行联姻迭代.实验表明,提出的算法在小、中和大规模网络上的学习精度和有效性都优于对比算法.
网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集?处理?标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web?Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web?Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%.
为了缓解能源性能的瓶颈,满足更多用户的资源需求,将移动边缘计算(Mobile Edge Computing,MEC)与能量收集(Energy Harvesting,EH)技术相结合,其中,EH技术可以通过捕获环境中的绿色能量来促进设备的可持续计算,提出一个具有随机能量收集的EH?MEC系统,以研究资源供给不确定性的投资和定价问题.用户可以租赁MEC系统的固有资源,也可以使用EH装置收集的资源.由于无线环境的时变性,EH收集的能源具有不确定性,所以,在MEC系统中找到MEC服务器和用户之间的平衡是值得研究的问题.针对这一问题,提出一种序贯决策方法,将用户的投资和MEC服务器资源定价的交互行为建模为一个四阶段的Stackelberg博弈,利用逆向归纳法得到用户与MEC服务器在利润最大化下的纳什均衡解,证明MEC服务器的最优能量收集时间、最优租赁资源和定价决策遵循良好的阈值结构.实验结果表明,绿色资源获取可以显著提高MEC服务器和用户的预期收益.
随着基于位置的社交网络在日常生活中的广泛应用,有效提取用户的隐藏兴趣和行为序列模式并向用户提供满足其个性化需求的下一个兴趣点推荐服务成为推荐领域的热点问题之一.针对下一个兴趣点推荐中的用户偏好挖掘问题,提出基于用户兴趣点类别周期性偏好和短期兴趣相结合的兴趣点推荐模型(Combining Periodic and Spatio?Temporal Intervals' Network,CPSTIN).该模型将用户的签到记录按小时时段模式嵌入时间窗口并使用多头自注意力机制提取用户结合用户兴趣点类别的周期性偏好;同时,将非连续时空间隔信息送入可学习矩阵,使用线性插值法提取用户基于高阶关联性的短期兴趣.最后,在两个真实数据集上验证了该模型的有效性,证明其能有效地利用用户高阶关联性短期兴趣和结合兴趣点类别的周期偏好,更准确地预测用户最有可能访问的下一个兴趣点.
金融领域的长时间序列预测正在面对复杂的市场和众多金融产品的挑战,传统的时序数据预测方法在处理线性分布数据时表现良好,但对于特征参数冗余和非线性长序列金融产品数据的预测效果有限.为了解决这一问题,提出一种长时间序列预测方法BSFinformer (Boruta?SHAP+Finformer),利用金融数据的时间相关性并综合运用Boruta?SHAP,Finformer等技术来完成特征选择及预测功能.该方法首先引入Boruta?SHAP模块,利用XgBoost和SHAP分析方法进行特征选择,从给定的特征集中识别出与金融时间序列预测任务相关的重要特征,并解释这些特征对预测的影响.其次,利用Transformer结构和自注意力机制,改进为Finformer模块,将长序列金融数据分解为趋势、周期和残差成分,结合稀疏自注意力机制.在多个真实金融数据集上进行了实验评估.实验结果显示,BSFinformer对金融产品的价格预测表现出优异的性能,与其他预测方法相比,能准确捕捉长期趋势和周期性来实现高质量的预测.具体地,和传统的Transformer模型相比,在三个实验数据集上,BSFinformer的均方误差分别降低了52%,16%和19%,平均绝对误差分别降低了34%,25%和11%,为金融数据的长期时间序列预测提供了一种有效的解决方案.
在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音相似度以及微调过的预训练BERT模型,能自动提取句子语义并利用汉字的相似性.具体地,通过对预训练的中文BERT模型进行微调,使之能适应下游的中文拼写纠错任务;同时,利用表意文字描述序列获取汉字的树形结构作为视觉信息,采用汉字的拼音序列作为语音信息;最后,利用编辑距离得出汉字的视觉和语音相似度,并将这些相似度数据与微调过的BERT模型融合,以实现纠错任务.在SIGHAN标准数据集上的测试结果显示,和基准模型相比,提出的ECS方法其F1?score提升巨大,在检错层面上提升2.1%,在纠错层面上提升2.8%,也验证了将汉字的语境信息、视觉信息与语音信息融合用于中文拼写纠错任务的适用性.
合成孔径雷达(Synthetic Aperture Radar,SAR)以其全天候、全天时、高分辨率、大幅宽的特点,成为对地观测的重要手段,图像分类是SAR图像解译的一个重要方向.和光学图像相比,SAR图像的成像机理较复杂,存在较多噪声干扰,导致图像清晰度较差、样本标注的难度大,无法保证深度学习算法对样本量的需求,因此,对小样本SAR图像进行图像分类成为当前SAR图像解译领域的重点研究问题之一.基于这一问题展开了基于元学习的SAR图像分类模型的研究,以实现小样本条件下SAR图像的高精度识别.构建基于注意力机制的原型网分类方法,设计了通道注意力模块来自动获取图像特征的重要程度,促进提取对图像分类更有判别力的特征;同时,对模型设计预训练网络,以充分利用已有数据的信息,学习更好的先验信息,提高分类的准确率.在自建的高分辨率SAR图像数据集上对该小样本分类模型进行了实验.消融实验表明,注意力模块和预训练模块对模型的性能均有一定的提升效果.通过对比实验,证明和当前常用的小样本学习方法相比,构建的分类方法能在SAR图像分类中获得较高的准确率,在第一组实验的5?way 1?shot实验中得到的分类精度提高了5.9%,在5?way 5?shot实验中提高了1.92%.
多分知识结构的提出有助于评价个体对于问题的掌握程度,而操作程序映射是构建多分知识结构的重要工具之一,操作程序映射是问题层次集到操作程序集的映射.着重考虑将操作程序映射转化为形式背景,并通过合取模型构建多分知识结构、寻找学习路径,指导个性化学习.首先,提出通过构建面向操作程序概念格求解合取操作程序映射诱导的多分知识结构的方法.其次,研究面向操作程序概念格中内涵之间的关系,给出逐步学习操作程序的路径图和个性化指导学习的方法,并给出了相应的算法.最后,选取“一元一次方程”这一章节作为知识域进行分析,验证了算法的可行性.
随着SaaS (Software?as?a?Service)软件中台化和业务服务范围的发展,跨租户的业务协作和数据共享需求愈发突出,对传统以租户数据隔离为主要内容的多租户数据存储模式带来了新的挑战,在已有多租户数据模式基础上支持跨租户的数据共享按需定制成为多租户数据存储模式设计的新问题.为此,提出一种支持可定制共享的多租户数据存储模式——共享宽表.该模式在传统宽表下扩展了用于存储租户之间关系的逻辑表,并增加了对于异构数据的映射机制,可以在保障租户数据隔离要求下同时适用于租户之间数据共享的灵活定制.实验表明,相对于传统宽表数据模式,提出的多租户数据存储模式可以更简单地支持跨租户的数据共享定义,并且具有更好的共享查询效率.
文本情感分析作为自然语言处理领域中的一个重要分支,在现实生活中具有重要的应用价值.传统深度学习模型在情感分析中主要根据概率值大小进行硬分类,忽略了极性不明显数据的影响,导致阈值边缘对象的分类准确率欠佳.为了解决这一问题,基于CNN (Convolutional Neural Networks)和BiLSTM (Bi?directional Long Short?Term Memory)模型,并引入序贯三支决策(Sequential Three?way Decisions,S3WD)的思想,提出了基于BiLSTM和CNN的序贯三支情感分类模型(BiLCNN?S3WD),该模型能更好地从多个粒度对极性不明显数据进行处理.通过在online_shopping_10_cat和微博数据集上进行多组实验与对比分析,验证了所提模型的有效性.实验结果表明,与七个基线模型相比,BiLCNN?S3WD在三个数据集上的每个评价标准都取得了更佳的效果.
离群点检测(又称异常点检测)是数据挖掘领域中一个重要的研究方向,其目的是找出显著区别于其他数据的数据点.针对基于传统粗糙集理论的离群点检测方法存在忽略样本的模糊性和邻域关系等问题,利用模糊邻域粗糙集弥补经典粗糙集的不足,并结合熵的不确定性,提出一种新的基于模糊邻域熵的离群点检测方法.首先,采用模糊邻域半径和混合模糊相似度构造模糊邻域近似空间;然后,定义一种特定的模糊邻域组合熵和相对模糊邻域组合熵来构建模糊邻域离群度,进而定义基于模糊邻域熵的离群因子实现离群点检测,并设计了基于模糊邻域熵的离群点检测算法(FNEOD).最后,将FNEOD算法与主要的离群点检测算法进行比较.实验结果表明,该方法具有较好的有效性和适应性.
准确描述声源结构的表面振速具有重要意义,振速描述的准确性主要依赖于声源表面的测点数,而增加测点数会导致测量成本增加.为了解决这一问题,提出一种基于数据驱动的声源表面振速的稀疏恢复方法.首先,通过等效源法利用数值仿真获得振速的训练样本;然后,通过K?SVD字典训练方法训练出声源表面振速的稀疏基;最后,通过稀疏正则化实现从有限的测量数据中恢复整个声源表面的振速.为了验证方法的有效性,给出了简支板的数值仿真,并在消声室内进行了实验验证.仿真与实验的结果表明,在测量点数较少的情况下,使用数据驱动的声源表面振速稀疏恢复方法相较于常规等效源法的恢复精度更高,且该方法的性能更加稳定,为声源表面振速的测量提供了新的方案.