热带气旋(Tropical Cyclone,TC)作为一种强烈的天气系统,其破坏力不仅受强度影响,也与其尺度密切相关.TC的移动速度如何影响其尺度仍缺乏系统研究.基于1988-2021年北大西洋的最佳路径(Extended Best Track,EBT)资料和ERA5再分析资料,分析了TC移动速度与最大风速半径(Radius of Maximum Wind,RMW)、17 m·s-1风圈半径(R17)之间的统计关系及其影响物理机制.结果表明,R17随移动速度增强呈显著增大趋势,且高分位R17对移速变化更敏感;RMW随移动速度增加而略有扩大,其变化主要由R17的变化造成.在影响物理机制上,发现快速移动TC显著削弱海温冷却,从而维持或增强表面焓通量,提升了大气的不稳定性;同时,显著增强前方低层辐合.热力和动力途径的协同作用驱动更强的上升运动,并促进螺旋雨带的发展,而雨带产生的非绝热加热增强角动量的向内输送,最终导致外围风场扩张、R17增大,RMW也随之增大.
考察了1981-2017年7-10月西北太平洋(WNP)和中国南海(SCS)热带气旋(TC)初始尺度的分布差异.发现WNP和SCS的TC初始尺度中值无明显差异,但WNP TC的尺度方差更大,呈现右偏分布,而SCS TC的初始尺度更接近正态分布.进一步分析表明,在北半球夏季季节内振荡(BSISO)的非对流相位期间,两区域TC的初始尺度中值差异不显著;在对流相位,WNP TC的尺度显著增大,SCS TC的尺度增幅则相对有限.环境场方面,SCS虽具有更优的低层相对涡度及湿度条件,但在更强的垂直风切变下TC对流结构呈现明显的一波非对称性.在BSISO对流相位,WNP区域的低层相对涡度、湿度等环境因子显著改善,TC对流活动系统性增强,角动量向内输送更有效,有利于大尺度TC生成.而SCS区域垂直风切变未明显减弱,其一波非对称结构加剧;TC环流和中心对流未能实现整体增强,尺度响应较弱.研究结果表明,BSISO对流相位对于WNP和SCS区域环境场及TC初始结构的不同调制作用,是导致两地TC初始尺度分布差异的重要原因.
不同的厄尔尼诺⁃南方涛动(ENSO)事件在衰减阶段表现出显著差异,其衰减速率的快慢可影响西北太平洋夏季热带气旋快速增强(RI)的发生位置.为了定量刻画ENSO衰减阶段的演变特征,提出新的变量——ENSO变化率(ENSO Changing Rate,ECR),并揭示了年代际太平洋涛动(IPO)对ECR与RI位置关系的调控作用.将1951-2024年划分为三个阶段(P1:1951-1978年;P2:1979-1998年;P3:1999-2024年),结果表明,ECR与RI发生经度的相关性存在明显的年代际变化,且与IPO位相转换同步.在IPO负位相(P1,P3阶段)两者呈显著正相关,在IPO正位相(P2阶段)则转为负相关.IPO通过调控ENSO衰减速率,使得西北太平洋大尺度环境因子在ENSO衰减年夏季出现不同响应.在IPO负位相下,ENSO事件倾向快速衰减,西北太平洋西部形成有利于RI发生的大气和海洋条件,因此ECR有效调控RI发生经度;在IPO正位相下ENSO衰减缓慢,西北太平洋海域大尺度环境抑制RI,RI的发生更多取决于移动路径上的环境条件.本研究为ENSO对RI影响存在年代际调控作用提供机理支撑,并为发展具有年代际适应性的RI季节预报模型提供科学依据.
利用两个实际典型个例分析了热带气旋(TC)生成过程中初始中层(MV)型和低层(LV)型涡旋的发展及作用差异.MV型TC Koinu前期存在持续正温度异常,而LV型TC Mawar中未出现,且Koinu中暖核的出现比Mawar早.由于Mawar中初始暖核高度比Koinu低,当暖核同等增强时,Mawar中低层风增强更快,因此海平面气压径向梯度也增强,产生更强的低层径向流入,更有利于强度增强;同时,Koinu初期中层的冷异常也会抑制其强度增强.Mawar暖核的出现与下沉增暖过程密切相关,而此过程在Koinu中未出现,因此Mawar和Koinu的暖核初始高度不同,最终导致LV型的TC生成效率(以暖核出现作为起始的定义)高于MV型.此外,Koinu和Mawar的暖核出现均早于TC明显增强和达到热带风暴强度,也说明暖核是TC生成的先决条件.
在全球气候变化背景下,提升东亚区域气候模拟的精度对理解气候变化影响具有重要意义.为了解决全球气候模式(Global Climate Model,GCM)空间分辨率不足的问题,采用区域气候模式模拟数据,基于深度学习神经网络构建了新型区域气候模拟器(RCM⁃Emulator),开展了东亚区域的高分辨率降尺度试验.模型结构引入高分辨率地形与海陆掩码约束,并针对气温和降水分别增加入射短波辐射与地表潜热通量输入,以增强模型对能量收支和水汽输送过程的响应能力.针对降水分布高度偏态的特征,引入伯努利⁃伽马损失函数,以提升极端降水的再现能力.试验结果表明,模拟器在以RegCM4模拟为训练样本的同源试验中能够高保真地重现近地面气温和降水场,RMSE显著低于双线性插值.以ERA5驱动的模拟器试验结果表明,模拟器能较好地再现地面气温和降水的空间分布和时间变化特征,表现出良好的跨资料泛化能力.总体上,该区域气候模拟器兼具物理一致性与计算高效性,可在分钟级时间尺度内生成多年区域气候场,为区域气候变化研究、多情景集合模拟及风险评估提供了一种高精度、低成本的新途径.
大气中的湍流耗散是指湍动能受分子黏性作用转化为热能的过程.湍流耗散率是量化湍流强度、混合和输运特性的关键参数,也是航空安全、风能发电等工程应用的重要指标.无线电探空是大气风、温、湿垂直观测的常用手段,但因湍流耗散发生在大气的最小连续性尺度(毫米和毫秒级),探空无法提供耗散率观测.为了突破这一限制,丰富湍流耗散率的垂直廓线观测,采用深度学习方法,基于大涡模拟获得的日间对流边界层高分辨率数据,训练XGBRegressor模型,以风、温、压等关键气象要素的垂直廓线及其垂直梯度为输入,诊断耗散率的垂直廓线,研究了该算法在特征提取和泛化能力方面的表现.结果表明,所提出的模型具有良好的诊断效果,优于传统的Thorpe耗散率诊断方法,且在不同的垂直分辨率数据集中表现出泛化能力.模型为依据探空廓线观测诊断湍流耗散率提供新的途径,也为数值模式中湍流耗散率的参数化提供新的机器学习思路.
阵风因子作为表征阵风强度的指标之一,常用于分析台风过程中的阵风特性.基于深圳石岩气象探测基地356 m高塔13层的二维超声风数据,对台风“山竹”过程的阵风因子的特征进行分析.结果表明,阵风因子主要分布在1~1.75,且随着高度的增加,阵风现象逐渐消失.阵风因子在台风登陆过程中有明显的时间变化特征,在强台风阶段,因台风中心距梯度塔较远、平均风速较低,阵风因子表现相对较大,台风登陆前后明显减小,转为热带风暴后明显增大.阵风因子随风速的增大而减小,在大风背景下,阵风因子趋近于1;不同高度层的阵风因子与十分钟平均风速均呈显著负相关,而同层相关性更强.此外,在低层、低风速背景下阵风现象更显著.在主导风向(偏北和偏东)下阵风因子较小,而偏南风和偏西风背景下,阵风出现频数少但强度大,风向在157.5°~292.5°范围内,低层的阵风因子占比约55%,并且阵风因子较大时,在10 m和20 m高度层有明显的风向转变.
随着互联网技术的快速发展,推荐系统在解决信息过载问题中发挥着越来越重要的作用,然而,传统推荐方法往往忽视了用户个性化特征与物品之间的复杂潜在关联,导致推荐效果不理想.针对这一问题,提出一种基于个人知识图谱的特征交互图神经网络推荐模型(PKGRec),将用户个人知识图谱与公共知识图谱进行融合,通过特征实体交互层捕获实体间的复杂交互模式.同时,设计了偏好感知注意力机制,根据用户对不同交互物品的权重信息进行细粒度的用户表示学习,有效提升了模型的表达能力.为了验证模型的有效性,在网易云音乐和KuaiRec两个真实大规模数据集上进行了实验.实验结果表明,和BPRMF,NFM,CKE等八种主流基线方法相比,PKGRec模型的三个评估指标Precision,Recall和NDCG均取得了显著提升,特别是在处理冷启动和长尾推荐问题时表现出明显优势,验证了个人知识图谱在增强推荐系统方面的有效性.
知识追踪根据学生的历史学习轨迹来实现对其知识掌握水平的实时评估与跟踪,从而预测学生未来的学习表现,是在线学习系统实现个性化学习体验的核心技术之一.与传统方法相比,现有的基于深度神经网络的知识追踪模型取得了显著优势,但其通常依赖大量训练数据.在学生答题早期,交互数据极度稀缺,所以训练一个复杂、有效的深度知识追踪模型十分具有挑战性.针对此问题,提出一种基于元学习增强的早期知识追踪框架(Meta⁃Learning⁃Enhanced Knowledge Tracing,MetaKT).给定目标知识追踪任务和其他若干个相关辅助任务,MetaKT首先在辅助任务上训练模型,然后利用目标任务的数据对预训练后的模型进行微调直至模型收敛.在七个公开数据集上以常用的DKT和DKVMN为基准进行实验,结果发现,提出的MetaKT框架使DKT和DKVMN模型分别在27和33 (共35)个测试场景中的AUC (Area under Curve)获得了提升.
大语言模型(Large Language Model,LLM)在生成表格数据任务中展现出巨大潜力,但其生成的数据往往难以准确保持数据列间的依赖关系.针对该问题,提出一种基于LLM概率提示词的方法TabProLLM,分别生成表格数据的数值列和分类列.使用高斯混合模型(Gaussian Mixture Model,GMM)切分数值列的概率密度曲线,将其划分为多个正态分布,并基于划分后的正态分布构造概率提示词用于大模型生成数值列数据.对于分类列,以某一数值列为基准进行分区,计算分类列中各类别在不同数值区间的条件概率分布,并根据条件概率分布生成提示词用于生成分类列数据.在提示词生成过程中,还引入相关系数等指标,用于校验生成数据中变量间的依赖关系是否符合原始数据的相关性模式.在10个公开数据集上的实验结果表明,TabProLLM在保证数据隐私性的同时,在SDMetrics工具中的RangeCoverage,CategoryCoverage,KSComplement,TVComplement等多个保真度评估指标上实现了18%左右的性能提升.其相关性指标CorrelationSimilarity与最优模型TabDDPM基本持平,和GPT⁃4o使用均值方差提示词方法相比,提升约4.1%.同时,在隐私性评估方面,TabProLLM的DCR和NNDR (取第5百分位数)指标整体表现为最优和次优.
糖尿病并发症是引起糖尿病患者死亡的重要因素,揭示并发症的关键特征能有效地帮助医生制定针对性干预策略,从而降低糖尿病患者并发症状况下的死亡风险.然而,既往研究大多集中在识别糖尿病单一并发症的风险因素上,忽略了并发症之间的潜在关联,因此,基于国家人口健康科学数据中心提供的糖尿病并发症预警数据集,采用皮尔逊相关系数和卡方检验筛选出显著相关的糖尿病并发症,并将其纳入多任务学习模型中进行联合建模.接着使用SHAP (SHapley Additive exPlanations)评估各特征的重要性,筛选出SHAP的值高于75%分位数的11个特征作为糖尿病联合并发症的重要风险因素.基于随机森林、逻辑回归、梯度提升模型、极限梯度提升模型、自适应增强算法以及类别特征梯度提升模型构建糖尿病联合并发症预测模型,输入变量为SHAP的值高于25%分位数的特征,结合网格搜索选择最优参数组合,并通过准确率、精确率、F1⁃score、AUC等指标评估模型的预测性能.结果表明,采用可解释的多任务学习模型筛选出来的特征是关键特征,六种预测模型的AUC均接近0.90.最后引入LIME (Local Interpretable Model⁃Agnostic Explanations)对模型进行解释,进一步验证所构建的可解释多任务学习模型筛选关键特征的有效性与可靠性.可解释多任务学习模型充分考虑了并发症之间的潜在关系,能够准确地识别糖尿病联合并发症的关键风险因素,辅助医生制定针对性干预策略,有助于减少患者因并发症导致的死亡.
在多实例学习(Multi⁃Instance Learning,MIL)中,数据对象以层次结构的形式被组织为由多个实例组成的包.传统的MIL嵌入方法通过选择具有代表性的实例来将每个包嵌入为向量以简化MIL问题,然而大多数现有方法忽略了包的层次结构,导致生成的关键实例集(Key Instance Set,KIS)中包含大量离群实例.此外,这些方法没有利用KIS去除包中的离群点,影响了包的嵌入效果.为此,提出一种层次化关键实例选择的多实例嵌入学习算法(Hierarchical Key Instance Selection for Multi⁃Instance Embedding Learning,HKMIL),其包括三个关键技术:首先,层次化实例选择技术(Hierarchical Instance Selection,HIS)结合子空间与相似度更新机制,用于识别和优化KIS,同时根据实例密度生成新的包;其次,Fisher向量嵌入技术(Fisher Vector Embedding,FVE)利用高斯混合模型从新包中提取关键统计信息,将其转化为向量;最后,集成分类技术(Ensemble Classification Technique,ECT)动态加权融合KIS更新前后的信息,以提升包级别标签预测的准确性.在六个典型的MIL任务上的实验结果表明,HKMIL优于九种当前最先进的算法,取得了更优异的分类性能.
近年来,机器学习的蓬勃发展推动了新型微分方程求解算法的探索,经过近30年的积累,大量针对特定场景具有显著性能优势的机器学习求解器相继问世.然而,最新研究表明,当前研究普遍存在对负面结果的系统性回避,所以对机器学习求解能力的评估存在过度乐观倾向,亟需通过更全面的数据对算法效能进行客观衡量,尤其需要建立对失败案例与性能边界的理性认知.选取广泛应用的物理信息内嵌神经网络(Physics⁃Informed Neural Network,PINN)针对微磁学核心方程,即朗道⁃利夫希兹⁃吉尔伯特方程(Landau⁃Lifshitz⁃Gilbert equation,LLG equation)进行求解,通过调节磁晶各向异性常数(
在实际的自适应滤波系统中普遍存在随机处理延迟和异质测量噪声(如高斯噪声、脉冲噪声等)的问题,而现有的变步长最小均方误差(Variable Step⁃Size Least Mean Square,VSSLMS)算法在分析时通常假设系统为无延时系统.为了解决上述问题,提出一种随机延迟容忍的鲁棒VSSLMS算法,利用Squareplus函数的两个优势:(1)在时延条件下对梯度估计稳定性具有固有平滑性;(2)针对多种类型分布的非线性干扰具有抑制能力.在理论上分析该算法的均方误差和稳态均方误差以评估其性能,并设计系统辨识实验仿真来验证该算法的有效性,且结果与理论分析一致,也优于现有的自适应滤波算法.因此提出的算法不仅表现出更好的稳态性能,在对抗随机时延和多类型测量噪声时也具有更好的鲁棒性.
