大模型评估专员
2-3.5万元/月岗位职责:
(一)构建AI4S领域多模态评测体系
1.面向AIforScience应用场景,设计并搭建覆盖科学文本、图谱、图像、序列等多模态数据的高质量评测数据集与Benchmark体系,涵盖如蛋白质结构预测、材料显微图像解析、科研文献图表识别等典型任务;
2.建立涵盖性能指标、准确率、跨模态对齐能力及科学逻辑合理性的多维度评估准则。
(二)专业技术评估与方法研究
1.对主流开源单模态与多模态模型及其评测工具开展技术分析,形成针对AI4S方向的专业化评估结论与报告;
2.持续追踪学术界与产业界前沿动态,研究新型多模态评测机制(如跨模态一致性校验)并参与相关算法研发。
(三)自动化评测平台开发
负责大模型(含多模态架构)评测工具链的开发与维护,构建CI/CD集成流程,提升评测系统的自动化水平、执行效率与结果可复现性。
任职要求:
(一)基本要求
1.计算机科学、人工智能、自然科学(物理/化学/生物/材料等)相关专业硕士及以上学位;
2.拥有2年以上软件开发、测试工程、DevOps或模型部署落地相关工作经验。
(二)核心能力要求:
1.专业能力:
(1)具备扎实的英文科技文献阅读与理解能力;
(2)掌握自然科学某一领域知识背景(如生物信息学、计算化学、天体物理、材料模拟等);
(3)能够将科学研究问题转化为可量化的AI评测任务,有构建科学类数据集或评测集的实际经历;
(4)具有处理多模态科学数据的经验(如图像与文本、图谱与序列的联合处理)。
2.技术能力:
(1)熟练掌握Python/Rust/C++中至少一门编程语言,具备良好的程序开发与脚本编写能力;
(2)深入理解主流大语言模型及多模态模型的技术架构,具备模型评测或实际应用经验。
3.符合以下条件者优先考虑:
(1)熟悉pytest/RobotFramework/Junit等自动化测试框架;
(2)具备Jenkins/GitLabCI/CD平台的实际配置与运维经验;
(3)了解Kubernetes/ArgoCD等云原生技术工具的使用场景与操作方式。