上海交通大学首届 AIGC Class取得丰硕成果
上海交通大学 AIGC Class由上海交通大学学生创新中心、上海交通大学人工智能研究院联合华为技术有限公司、联想集团与上海莉莉丝科技股份有限公司共同创立。
首届AIGC Class于2023年12月成立,共招募了全校各个专业的25名同学,由上海交通大学学生创新中心主任助理楚朋志,上海交通大学人工智能研究院助理教授晏轶超,上海交通大学学生创新中心教师赵伟明担任班主任。目前,首届AIGC Class学生完成了多个科目工作坊项目,参与到了多项AIGC项目实践或论文研究,已取得了丰硕成果。
创赛引领
“伴奂 CyberLife——时刻在场,更懂你的数字伙伴” 获中国国际大学生创新大赛(2024)上海市赛金奖
项目简介:
项目团队致力于通过构建长期与用户进行交互的Agent来达成对用户个人习惯、性格特征的解耦与适配,构建人机交互全新的生态位,致力于打破人工智能仅仅用于问答的格局,使AI Agent真正进入人类的生活。团队基于现有的多模态大语言模型进行用户级别的特化微调,同时将服务部署到可穿戴式硬件当中,意在构建一套完善的生态链。目前,项目已获知名创业投资公司“奇绩创坛”等知名风投机构融资。
“学深智能——新一代生成式数字人平台”获中国国际大学生创新大赛(2024)上海市赛金奖
项目简介:
项目团队一直以来致力于成为全栈式数字人技术方案提供商,为各类数字人上游应用需求方提供个性化的数字人技术服务,创立了上海学深智能科技有限公司。团队利用生成式人工智能技术,大规模、高效地生成可泛化的二维、三维高拟真的个性化数字人,并且可以通过视听文等跨模态方式驱动,结合垂类行业小模型训练,实现全自动全链路的数字人技术服务,提供企业级全栈式数字人技术解决方案。
“‘交育’——AI驱动的数字人交互式智慧教学平台”获第十四届挑战杯大学生创业计划竞赛(市赛)铜奖
项目简介:
项目团队立足于高校可交互智慧教育市场,面向高校师生,提出“智·通·伴”方案,即AIGC技术智能生成教学内容、数据驱动的学情互通以及数字人助教陪伴启发式学习。团队从打造教学专业AI和数字人交互两大模块入手,基于现有开源大模型框架并结合RAG技术,提高教学垂直领域内容的生成精度。同时,团队采用FAY数字人应用框架,接入Llama、GPT等多种模型驱动数字人助教应对多种学科任务。通过AI驱动的数字人交互技术赋能教学,致力于促进教学模式的革新和教育资源的融合开放,打造智能、交融的未来教育。
中医诊疗机器人Traditional Chinese Medicine Diagnosis and Treatment Robot获2024中美青年创客大赛上海分赛区特等奖、中美青年创客大赛总决赛主赛道优秀奖
项目简介:
中医诊疗机器人项目旨在应对人口老龄化、中医资源短缺及数字化需求。通过脉诊、舌诊和面诊数据采集,以及大语言模型(LLM)微调,项目实现了中医诊疗的标准化和智能化。该机器人集成了多模态数据分析,可生成个性化诊疗报告,为基层社区医院和出行不便的患者提供便捷的中医诊疗服务,有助于推动中医资源的均衡化和普及化。
科研推动
AIGC Class学生朱腾杰,在顶级国际会议NeurIPS发表论文
论文名称:
Multi-times Monte Carlo Rendering for Inter-reflection Reconstruction(来源:NeurIPS 2024)
论文简介:
逆向渲染方法在重建具有解耦几何、材质和环境光照的高保真3D物体方面取得了显著的成果。然而,它们在反射表面重建上仍然面临巨大挑战。在本研究中,我们提出了Ref-MC2,引入了多次蒙特卡洛采样,全面计算环境光照的同时考虑物体表面的反射光。为了解决随着蒙特卡洛采样次数增加而带来的计算挑战,本文提出了自适应镜面反射采样策略,显著降低了计算复杂度,并进一步引入了反射感知表面模型,在逆向渲染过程中初始化几何结构并对其进行优化。本文还构建了一个包含多个物体和相互反射场景的挑战性数据集。实验表明,该方法在各种物体组上优于其他逆向渲染方法,在各种下游编辑任务上也更自然灵活。
项目主页:
https://zhutengjie.github.io/Ref-MC2/
AIGC Class学生徐聪晟、刘伊天,参加由ECCV主办的第八届 HANDS 工作坊 ARCTIC 挑战赛,获得第二名
相关简介:
Hands 2024 ECCV是由国内外知名人体重建与生成领域的科研专家组建的工作坊,其下分挑战ARCTIC 挑战赛是主要面向基于双手与物体交互的重建质量评估的竞赛,来自AIGC Class的徐聪晟和刘伊天、复旦大学的崔益通过使用SAM-2基座模型提供更加精确的训练真知,同时,通过使用时序信息的注入以及双手之间的联合关系的注入方法达成了高于baseline 14%的领先评估指标,并有幸受邀参加了工作坊的汇报。
AIGC Class学生徐聪晟,参加由IEEE CVPR主办的EGO-Exo4D人体姿势挑战赛,获得第三名
相关简介:
Ego-Exo4D是由Meta Fair牵头的大规模、多样化的多模态多视角数据集基准和挑战,其子领域挑战Body Pose Estimation是CVPR 2024的Teaser Challenge(头版挑战),要求从RGB视频信息以及相机的四元数参数中准确预测出3D Body Pose信息,团队采用了层级化ViT架构进行训练,有效分析画面中的不同粗粒度信息进行全面整合,最终收获第三名的成绩。
AIGC Class学生卢嘉成参加2024 INFORMS Data Mining Society Data Challenge 获得全球第三名
项目名称:
Multi-modal and Metadata Capture Model for Micro Video Popularity Prediction
项目简介:
本项目深入研究并预测微视频的流行度,提出了一个名为RecMMR的多模态检索增强型流行度预测模型。该模型通过结合推荐机制与反应增强模型,综合分析微视频的多模态特征(包括音频、文本描述、评论及视频内容)以及推荐系统对微视频传播的影响。通过大规模的TikTok微视频多模态数据集验证了模型的有效性,与现有基准方法相比,RecMMR在微视频流行度预测的关键评价指标上实现了12.9%的显著提升。该研究不仅为社会科学研究者提供了理解微视频流行度的新视角,也为营销机会识别等领域的实际应用提供了支持。
AIGC Class学生徐聪晟参与发表CVPR、ECCV论文
论文名称:Inter-X: Towards Versatile Human-Human Interaction Analysis (来源:CVPR 2024)
相关简介:
该项工作是目前最大的人与人交互数据集,具有准确的肢体动作、多样的交互模式和详细的手势。该数据集包含11K个交互序列和810多万帧图像。此项工作还为Inter-X配备了多功能注释,包括超过34K个细粒度的人类部分级文本描述、语义交互类别、交互顺序以及主体的关系和个性。在详细注释的基础上,此项工作从感知和生成两个方向提出了由4类下游任务组成的统一基准。广泛的实验和综合分析表明,Inter-X是促进多功能人机交互分析发展的试验平台。
项目主页:
https://liangxuy.github.io/inter-x/
论文名称:HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects(来源:ECCV 2024)
相关简介:
该项工作是一个大规模的动作捕捉数据集,记录了全身人体与多个物体的交互,包含3.3K个4D人体-物体交互序列和4.08M帧,还通过详细的文本描述和时间片段对HIMO进行了标注,为基于整体文本提示或分段文本提示的HOI合成提供了基准,作为细粒度的时间线控制。为了解决这些新任务,此项工作提出了一个带有相互交互模块的双分支条件扩散模型,用于HOI合成。此外,这项工作还设计了一个自回归生成流程,以获得HOI片段之间的平滑过渡。实验结果表明,该模型具有对未见物体几何形状和时间组合的泛化能力。
项目主页:
https://lvxintao.github.io/himo
首届上海交通大学AIGC Class取得了丰硕的成果,培养出了一批在AIGC领域具备创新能力的优秀学生。上海交通大学第二届AIGC Class即将开启招募,我们期待更多对生成式人工智能充满热情的同学加入,与我们一起探索AIGC前沿技术!
AIGC Class,等你加入!