高俊龙,博士,现为厦门大学信息学院计算机科学与技术系助理教授,硕士生导师。2024年7月于北京大学获得计算机应用技术理学博士学位,2024年8月至2025年3月于商汤科技研究院担任算法研究员,2025年3月加入厦门大学信息学院。

教学方面:担任《人工智能技术与应用》课程助教,设计《人工智能引论》课程改革方案,为后续开设课程做好准备。以饱满的热情投身其中,坚守教书育人的初心,力求为学生的成长和学科发展贡献智慧与力量。
科研方向:目前的主要研究方向为图像视频处理与分析,包括多模态大模型、图像视频生成与编辑、图像视频编码等领域。迄今共发表多篇顶级国际期刊会议论文,在国内视频压缩标准AVS接收技术提案多项。任国际知名期刊、会议审稿人。作为核心成员与盐课堂合作成立了厦门大学信息学院-盐课堂人工智能(AI)教育联合实验室,探索教育行业大模型研究。
主要研究内容:
(1)多模态大模型研究与应用
针对多模态大模型的基模型构建,参与完成多模态大模型数据收集整理与分析、模型分布式训练、模型全方位评测与模型上线部署等全过程。针对多模态大模型的垂类模型构建,探究教育领域的多模态大模型,围绕手写体识别精度低、标注数据少、模型批改意见准确度低等问题,收集互联网和模型生成的融合数据,研究大模型微调方法,研发批改智能体,完整研发一套创新性系统。研究内容示意图如图1所示。

图1 多模态大模型研究与应用示意图
(2)图像生成与编辑
图像生成可采用不同控制信息生成图像。针对基于文本的图像生成,围绕生成模型的指令跟随能力差等问题,提出图文生成与文图生成的交替优化方法。针对基于输入图像与文本的图像编辑,首先探究图像风格迁移,探究自监督学习的方式实现风格迁移粒度,其次探究图像编辑在电商领域的落地应用,并围绕生成模型在生成可控性差、可用度低等问题,收集实地拍摄和模型生成的融合数据,研究生成模型的可控微调方法。研究内容示意图如图2所示。

图2 图像生成与编辑示意图
(3)高效图像视频编码
高效图像视频编码包含面向机器视觉的高效视觉编码和面向人眼重建效果的高效视觉编码。针对面向机器视觉的高效视觉编码,在当前多模态大模型和智慧城市治理的背景下,围绕视觉数据的存储成本高和推理复杂度高问题,探究基于低存储成本和低复杂度的机器视觉编码。针对面向人眼重建效果的高效视觉编码,在当前数据量指数级增长的背景下,探究极低码率和低复杂度的生成式视觉编码。研究内容示意图如图3所示。

图3 高效图像视频编码示意图