关于招生方向

目前团队感兴趣的研究方向如下:

 一、大模型微调

     大模型微调技术是指在预训练大规模神经网络模型的基础上,通过进一步调整模型参数,使其在特定任务或领域上表现更优。这种方法利用了预训练模型在大规模数据集上学到的广泛知识,并通过微调使其适应特定应用场景。大模型微调的核心在于有效地利用已有的模型能力,减少训练时间和资源,同时提升模型在特定任务上的性能。当下大模型微调的主要方法包括:

  • 全参数微调(Fine-tuning):对预训练模型的所有参数进行微调,使模型在特定任务上达到最优性能。这种方法灵活但计算资源需求高。
  • 层微调(Layer-wise Fine-tuning):仅微调模型的部分层(如最后几层),保持其他层的预训练参数不变,以减少计算需求和过拟合风险。
  • 参数高效微调冻结层(Layer Freezing):冻结大部分模型层,仅微调少数层的参数,减少计算开销。
  1. 适配层(Adapter Layers):在预训练模型的某些层之间插入小型适配层,微调这些适配层的参数以适应新任务。
  2. 提示学习(Prompt Tuning):通过微调输入提示(prompts)而不是模型本身的参数,来引导预训练模型执行特定任务。
  • 混合专家模型(Mixture of Experts):使用多个子模型(专家模型)处理不同的任务或数据子集,通过动态路由选择最适合的专家模型进行微调。
  • 蒸馏(Knowledge Distillation):通过将大模型的知识蒸馏到小模型中,实现高效微调和模型压缩,同时保持模型性能。

课题组在这一方向上感兴趣的研究点包括但不限于:

  • 参数高效微调技术:
  1. 适配层优化:研究如何设计和优化适配层,使其在各种任务中都能高效发挥作用。
  2. 提示学习改进:探索更有效的提示生成和优化方法,提高提示学习的适应性和效果。
  • 灾难性遗忘问题:
  1. 选择性遗忘机制:开发机制使模型在微调过程中选择性地保留和遗忘信息,以避免灾难性遗忘。
  2. 连续学习策略:研究如何在不断引入新任务和数据时,使模型保持对旧任务的良好性能。
  • 多模态微调:
  1. 多模态融合:探索如何在多模态大模型中有效融合不同模态的信息,提高模型的综合能力。
  2. 跨模态适应:研究如何使模型在不同模态间高效迁移和适应,提升多模态任务的表现。
  • 隐私保护微调:
  1. 差分隐私微调:在微调过程中加入差分隐私保护机制,确保数据隐私不被泄露。
  2. 联邦微调:在联邦学习框架下进行微调,保护各参与方的数据隐私,同时提升模型性能。
  • 优化算法:
  1. 自适应优化方法:开发适应微调需求的自适应优化算法,提高微调效率和效果。
  2. 最优策略正则化:研究基于最优策略的正则化方法,确保微调过程中模型参数的稳定性和一致性。
  • 高效计算与资源利用:
  1. 分布式微调:利用分布式计算资源进行高效微调,提升训练速度和模型规模适应性。
  2. 模型压缩与加速:结合微调过程中的模型压缩技术,减少计算资源需求,提高推理速度。

 

 二、 深度集成学习

 

   集成学习(Ensemble Learning)是一种通过组合多个模型来提升整体性能的机器学习方法。集成学习的核心思想是通过组合多个弱模型(通常是准确度不高的简单模型),使得组合后的模型(集成模型)的表现优于单个模型。在深度学习时代,集成学习的方法同样适用于深度神经网络,称为深度集成学习(Deep Ensemble Learning)。在深度学习时代,深度网络依然具有很高的方差,模型的结果对初始化参数 异常敏感。此现象会进一步影响其泛化性能。因此,大量工作利用集成学习的思 想来提升单个深度网络的性能。但是目前的研究方向都只是在计算力和数据资源充足的假设下进行模型的训练以及部署。更为严重的是,在实际中,昂贵的深度 集成系统犹如未上锁的车子,任何人都可以使用;一旦该神经网络集成系统被非法拷贝及使用,原主人无法证明和维护其发明的合法知识产权。这样企业的创新动力会受到伤害,进而给整个产业的发展前景蒙上阴影。因此,研究在数据、计算力和模型知识产权受限等非理想条件下的深度集成系统及其相关典型应用具有非常重要的研究价值。 目前课题组在深度集成学习方向上感兴趣的研究点包括但不限于:

  • 如何设计面向多深度学习系统的多样性的统一度量,并以数据驱动的方式实现“正确性-多样性”最佳平衡的集成学习;
  • 如何在保证“集成必然精度高”的前提下,突破“集成必然慢”的瓶颈,让深度集成系统在计算力资源受限场景依然可用;
  • 如何打破“大模型依赖大数据”的限制,减少集成系统对大量高质量数据的依赖,让深度集成系统在数据资源受限的情况下依然保持性能;
  • 在实际生活中,如何为昂贵的深度集成系统设计有效的保护措施,为系统的开发者提供灵活和高效的知识产权保护方案。
 

三、深度联邦学习

    深度联邦学习(Deep Federated Learning,Deep FL)是一种分布式机器学习方法,允许多个参与方在不共享数据的前提下,共同训练一个深度学习模型。每个参与方仅需在本地数据上训练模型,并与中心服务器或其他节点共享模型参数或梯度,而不是共享原始数据。这样可以保护数据隐私,提高数据安全性。深度联邦学习特别适用于数据隐私敏感的场景,如医疗、金融和移动设备数据。

深度联邦学习的研究方向当下深度联邦学习有许多值得研究的点,课题组感兴趣的点包括但不限于:

  • 隐私保护与安全性
  1. 差分隐私:在传输模型参数或梯度时加入噪声,以保护参与方的隐私数据不被推断。
  2. 安全多方计算(SMC):利用加密技术使得各方在不泄露数据的情况下进行协作计算。
  3. 同态加密:使数据在加密状态下也能进行计算,从而保护数据隐私。
  • 通信效率
  1. 模型压缩与剪枝:减少传输的模型参数数量,以降低通信开销。
  2. 梯度压缩:对传输的梯度进行压缩,如量化和稀疏化,减少通信带宽需求。
  3. 局部更新:增加每次全局通信前的本地更新次数,减少全局通信频率。
  • 异构数据
  1. 非独立同分布(Non-IID)数据处理:处理参与方数据分布不同的问题,如数据偏斜和异构性,确保模型在不同分布数据上都能有效训练。
  2. 数据分片与重组:研究如何在联邦学习框架中有效地进行数据分片与重组,提高模型的泛化能力。
  • 模型优化
  1. 自适应优化算法:开发适用于联邦学习场景的优化算法,如FedAvg、FedProx等,以提高模型训练的效率和效果。
  2. 个性化模型:研究如何在共享全局模型的基础上,为每个参与方生成个性化的模型,提高本地模型的性能。
  • 系统架构与实现
  1. 联邦学习框架开发:开发高效、易用的联邦学习框架,如TensorFlow Federated、PySyft等,以促进联邦学习的研究和应用。
  2. 分布式计算:利用边缘计算和云计算资源,优化联邦学习的系统架构和计算效率。
  • 应用场景
  1. 医疗健康:研究在医疗数据隐私保护下的联邦学习应用,如病历数据共享和联合诊断模型训练。
  2. 金融领域:在金融数据保密的前提下,利用联邦学习进行风险评估、欺诈检测等应用。
  3. 智能设备:在移动设备和物联网设备上应用联邦学习,进行个性化推荐、故障诊断等任务。
  • 鲁棒性与容错性
  1. 对抗攻击防御:研究如何在联邦学习中防御对抗攻击,确保模型的鲁棒性和安全性。
  2. 容错机制:开发应对参与方掉线或数据质量差等问题的容错机制,确保联邦学习过程的稳定性。
  3. 通过在这些方向上的研究,深度联邦学习技术能够不断发展,满足更多实际应用中的需求,提升深度学习模型在隐私保护和分布式环境中的适应性和实用性。

 

 四、神经网络轻量化

    神经网络的轻量化是指在保持模型性能的前提下,通过优化技术减少模型的参数量和计算复杂度,使其能够在资源受限的环境中高效运行。轻量化技术在移动设备、嵌入式系统和物联网设备等场景中尤为重要。轻量化神经网络的主要目标包括降低模型存储空间、减少计算资源需求和加速推理速度。

在神经网络轻量化方面,有多个值得研究的点,主要包括以下几个方面:

  • 模型剪枝(Model Pruning):
  1. 结构剪枝:通过剪掉不重要的神经元或连接,减少模型的参数量和计算量。例如,剪掉卷积核中的某些通道或过滤器。
  2. 非结构剪枝:剪掉权重值接近零的参数,这种方法虽然能减少参数量,但需要专门的硬件加速器来提高计算效率。
  • 量化(Quantization):
  1. 权重量化:将模型的浮点权重量化为低精度的整数表示(如8位或更低),以减少存储需求和计算复杂度。
  2. 激活值量化:将中间激活值量化为低精度表示,进一步减少计算需求。
  3. 训练时量化:在训练过程中直接使用量化权重和激活值进行训练,提高模型的量化适应性。
  • 蒸馏(Knowledge Distillation):
  1. 教师-学生模型:利用大模型(教师模型)的预测结果来指导小模型(学生模型)的训练,使小模型在保持性能的前提下大幅减少参数量。
  2. 对抗训练:通过对抗训练的方法,让学生模型更好地学习教师模型的知识,提高模型的泛化能力。
  • 高效架构设计:
  1. 轻量化架构:设计专门针对轻量化需求的神经网络架构,如MobileNet、ShuffleNet、EfficientNet等,这些架构通过优化卷积操作和网络结构实现高效性。
  2. 神经架构搜索(NAS):利用自动化搜索算法寻找最优的轻量化神经网络结构,避免人工设计的局限性。
  • 压缩与编码技术:
  1. 权重共享:通过共享网络层之间的权重,减少模型的存储需求。
  2. 低秩分解:将权重矩阵分解为低秩矩阵的乘积,减少参数量和计算复杂度。
  3. 哈夫曼编码和熵编码:对量化后的权重进行进一步的压缩编码,减少存储空间。
  • 动态网络(Dynamic Networks):
  1. 动态深度:根据输入数据的复杂性动态调整网络的层数或深度,如SkipNet。
  2. 动态宽度:根据计算资源的限制动态调整每层的宽度或通道数。
 
五、图像增强

 

    图像增强技术是通过处理图像数据来改善其视觉质量,使其更适合于特定应用或进一步的图像分析。图像增强在计算机视觉、医学影像、摄影和视频处理等领域有广泛应用。常见的图像增强技术包括去噪、去模糊、超分辨率、对比度调整、色彩增强和图像修复等。在图像增强技术方面,课题组感兴趣的研究点包括但不限于:

  • 无监督与自监督学习
  1. 无监督学习:探索无监督学习方法,通过无标签数据进行图像增强,如生成对抗网络(GAN)和变分自编码器(VAE)。
  2. 自监督学习:利用自监督学习策略,设计适合图像增强的预训练任务,如图像重构和拼图复原。
  • 轻量化模型
  1. 模型压缩:通过模型剪枝、量化和知识蒸馏技术,开发高效的轻量化图像增强模型,适用于移动设备和嵌入式系统。
  2. 高效网络架构:设计适合低计算资源环境的高效网络架构,如MobileNet和EfficientNet。
  • 多视觉增强任务的统一模型
  1. 生成扩散模型(Diffusion Model)的适应性与扩展:如何在多任务图像增强中有效应用生成扩散模型,并提升其生成质量和效率。
  2. 混合专家模型(Mixture-of-Experts)的动态路由与协同:开发高效的动态路由机制,使多个专家模型能够在统一任务中协同工作,提升模型的泛化能力。
  3. 视觉-语言模型的多模态融合:探索视觉信息和语言信息的高效融合策略,实现图像和文本的协同增强和理解。
  4. 模型的联合训练与优化:研究生成扩散模型、混合专家模型和视觉-语言模型的联合训练方法,提升整体模型的性能和鲁棒性。
  5. 实际应用场景的验证与优化:通过在实际应用场景中的测试和反馈,持续改进模型,使其更符合实际需求。

 

六、计算机视觉

    在当前大模型时代,计算机视觉技术在检测、分割和识别方面取得了显著进展,但仍有许多值得深入研究的领域。团队目前在计算机视觉方向涉及的任务包括基于图像/视频/点云的目标检测、语义/实例/全景分割、异常检测、行人再识别、目标计数、目标追踪等。以下是一些可以进一步探索的研究点:

  • 多模态融合
  1. 视觉与语言:将图像和文本结合进行检测、分割和识别,例如通过视觉问答(Visual Question Answering)和图文生成(Image Captioning)提升模型的综合能力。
  2. 面向自动驾驶场景的多传感器融合:结合视觉、深度、激光雷达(LiDAR)等多种传感器数据,提升复杂环境中的检测和识别精度。
  • 增强和感知联合优化

增强和感知联合优化是指同时优化low-level视觉增强任务和上层感知任务,以使得增强后的图像不仅在视觉上更清晰、质量更高,而且能显著提升上层感知任务的性能。联合优化的目标是通过协同训练,使得视觉增强模块和感知模块能够相互促进,提升整体系统的表现。

  1. 联合损失函数设计:设计一个综合的损失函数,包含low-level视觉增强和上层感知任务的损失,确保在训练过程中同时优化这两个目标。
  2. 多阶段训练策略:先分别预训练视觉增强模型和感知任务模型,然后进行联合微调,提升整体性能。在此基础上,采用交替训练策略,先训练增强模块,再训练感知模块,反复迭代,逐步优化两者的性能。
  3. 数据增强与多样化:设计联合数据增强策略,使增强后的图像更符合上层感知任务的需求,提升模型的鲁棒性和泛化能力。利用生成对抗网络(GAN)等方法生成合成数据,丰富训练数据,提高模型在不同场景下的表现。
  4. 任务间的知识迁移:研究如何在视觉增强和感知任务之间共享和迁移特征,使得一个任务学到的知识可以用于提升另一个任务的性能;通过一致性正则化等方法,确保增强后的图像在感知任务中保持一致的表现。
  • 高效模型
  1. 轻量化网络:设计高效的神经网络架构,如MobileNet、EfficientNet,以减少计算资源需求,适应移动设备和嵌入式系统。
  2. 模型压缩与加速:结合剪枝、量化、蒸馏等技术,优化大模型的计算效率和存储需求。
  • 自监督与无监督学习
  1. 自监督学习:利用大量无标签数据进行预训练,以提升模型的表征能力和下游任务性能。
  2. 无监督学习:开发无监督方法进行对象检测和图像分割,减少对大量标注数据的依赖。
  • 鲁棒性与安全性
  1. 对抗攻击防御:研究如何增强模型对抗对抗样本的鲁棒性,确保在恶意攻击下依然保持高性能。
  2. 模型稳健性:提高模型对各种环境变化(如光照、视角、遮挡等)的适应能力,确保在实际应用中的稳定表现。
  • 少样本学习与零样本学习
  1. 少样本学习:开发能够在少量标注数据下进行高效训练的模型,如元学习(Meta-learning)。
  2. 零样本学习:研究在没有标注数据的情况下,利用语义信息或先验知识进行对象检测和识别。

 

 七、基于SAM的医疗图像处理

    SAM(Segment Anything Model)是一个强大的图像分割模型,其设计目标是实现对任何物体的高效分割。将SAM应用于医疗图像处理,可以大幅提升医学图像分析的效率和准确性,促进自动化诊断和治疗规划。医疗图像处理中的常见任务包括器官和病灶的分割、病变检测、图像增强和重建等。课题组在基于SAM的医疗图像处理的研究方向上感兴趣的研究点包括但不限于:

  • 模型适配与优化
  1. 领域适配:针对医疗图像的特定特性(如噪声、高分辨率、多模态),优化SAM的架构和参数,提高在医学图像中的分割精度。
  2. 多模态融合:研究如何将SAM与其他医疗成像模式(如MRI、CT、超声)的数据结合起来,提高综合诊断能力。
  • 数据标注与训练
  1. 数据标注效率:利用SAM的强大分割能力,提高医学图像标注的效率,减少人工标注的工作量。
  2. 半监督与自监督学习:在有标注和无标注数据混合使用的场景下,探索半监督和自监督学习方法,进一步提升SAM在医疗图像分割任务上的表现。
  • 精细分割与小样本学习
  1. 精细结构分割:研究如何利用SAM实现对复杂和细小结构(如毛细血管、微小病灶)的精细分割,提高早期疾病检测的准确性。
  2. 小样本学习:开发能够在小样本标注数据下仍然保持高分割性能的方法,以适应医疗数据通常较少的现状。
  • 鲁棒性与泛化能力
  1. 跨机构泛化:提高SAM在不同医疗机构和设备生成的图像数据上的泛化能力,确保模型在多样化数据中的稳健表现。
  2. 对抗训练:研究对抗训练方法,提高SAM在面对噪声和伪影等挑战时的鲁棒性。
  • 实时处理与边缘计算
  1. 实时分割:优化SAM的计算效率,使其能够在临床应用中实现实时图像分割,支持即时诊断和治疗。
  2. 边缘计算:研究在边缘设备上部署优化后的SAM模型,提高医疗图像处理的便捷性和响应速度。
  • 多任务学习
  1. 联合任务优化:将分割任务与其他医疗图像处理任务(如分类、检测、增强)结合,通过多任务学习提升整体模型的性能。
  2. 任务迁移学习:探索如何利用SAM在一个医疗任务中学到的知识迁移到其他相关任务中,提高模型的适应性和效率。

 

八、时间序列分析

    基于深度学习的时间序列分析利用神经网络模型从时间序列数据中提取特征,以实现预测、分类、异常检测等任务。常用的深度学习模型包括递归神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)、一维卷积神经网络(1D-CNN)以及近年来兴起的Transformer模型。课题组在时间序列分析方面感兴趣的点是基于深度学习的时间序列统一大模型。具体包括但不限于:

  • 模型架构优化
  1. Transformer架构:进一步优化Transformer模型在时间序列数据中的应用,如自适应注意力机制和长序列建模能力的提升。
  2. 混合模型:结合RNN、LSTM、GRU和CNN的优势,设计混合模型以更好地捕捉短期和长期依赖关系。
  • 多任务学习
  1. 联合学习:开发能同时处理多种时间序列任务的统一模型,如预测、分类和异常检测,以提高整体模型的泛化能力和数据利用效率。
  2. 共享特征表示:研究如何在多任务学习中共享特征表示,避免任务间的负迁移。
  3. 预训练与微调:利用大量无标签时间序列数据进行自监督预训练,通过设计合适的预训练任务(如时间步预测、数据重构),提高模型在下游任务中的表现。
  4. 对比学习:通过对比学习方法学习时间序列数据的有效表征,提升模型在少量有标签数据下的性能。
  • 长序列处理
  1. 高效注意力机制:研究新的注意力机制,如线性注意力、稀疏注意力,以提高长序列数据处理的效率和效果。
  2. 内存增强模型:结合外部记忆模块,设计能够高效处理和记忆长序列信息的模型。
  • 鲁棒性与泛化能力
  1. 对抗训练:通过对抗样本生成和对抗训练,提高模型在噪声和异常数据下的鲁棒性。
  2. 跨域迁移学习:研究如何在不同时间序列数据域之间进行有效的迁移学习,提高模型的泛化能力。
  • 少样本学习与零样本学习
  1. 元学习:探索元学习方法在时间序列分析中的应用,使模型能够在少量标注数据下迅速适应新任务。
  2. 零样本学习:研究利用先验知识或辅助信息(如语义描述)进行时间序列任务的零样本学习。
  • 数据增强与合成
  1. 时间序列数据增强:开发针对时间序列数据的增强方法,如时间步扰动、频域变换,以增加数据多样性和模型鲁棒性。
  2. 生成对抗网络(GANs):利用GANs生成高质量的合成时间序列数据,解决数据稀缺问题。
  • 解释性与可解释AI
  1. 模型解释性:研究如何解释深度学习模型在时间序列分析中的决策过程,提高模型的透明度和用户信任度。
  2. 可解释性技术:开发可解释性工具和方法,帮助用户理解模型输出,并在异常检测和诊断中提供有价值的反馈。
  • 高效计算与资源利用
  1. 分布式计算:研究分布式训练和推理技术,以处理大规模时间序列数据,提高计算效率。
  2. 模型压缩与加速:通过模型剪枝、量化和知识蒸馏等技术,减少模型计算资源需求,提升部署效率。

 注意事项

  • 你需要:每周参与组会,与课题组交流进度,有特 殊情况及时向老师说明;
  • 希望你:性格乐观积极向上,服从团队管理,具备良好的抗压能力。掌握深度学习基础知识,有较好的数学与英语基础,熟练掌握常见的深度学习框架。具备分析和解决问题的能力,脚踏实地,勤于思考,具有一定的自我驱动力与团队协作意识。