您当前的位置：首页 > 职位列表 > 职位详情

大模型评估专员

2-3.5万元/月

投递简历

浙江-杭州

1-3年

2025-12-14 00:22:07 更新被浏览：501 次

之江实验室

最近在线时间：2025-12-14 00:22:07

电话：184********

地址：杭州市文一西路1818号

职位描述

岗位职责:
（一）构建AI4S领域多模态评测体系
1.面向AIforScience应用场景，设计并搭建覆盖科学文本、图谱、图像、序列等多模态数据的高质量评测数据集与Benchmark体系，涵盖如蛋白质结构预测、材料显微图像解析、科研文献图表识别等典型任务；
2.建立涵盖性能指标、准确率、跨模态对齐能力及科学逻辑合理性的多维度评估准则。

（二）专业技术评估与方法研究
1.对主流开源单模态与多模态模型及其评测工具开展技术分析，形成针对AI4S方向的专业化评估结论与报告；
2.持续追踪学术界与产业界前沿动态，研究新型多模态评测机制（如跨模态一致性校验）并参与相关算法研发。

（三）自动化评测平台开发
负责大模型（含多模态架构）评测工具链的开发与维护，构建CI/CD集成流程，提升评测系统的自动化水平、执行效率与结果可复现性。

任职要求:
(一)基本要求
1.计算机科学、人工智能、自然科学（物理/化学/生物/材料等）相关专业硕士及以上学位；
2.拥有2年以上软件开发、测试工程、DevOps或模型部署落地相关工作经验。

（二）核心能力要求：
1.专业能力：
（1）具备扎实的英文科技文献阅读与理解能力；
（2）掌握自然科学某一领域知识背景（如生物信息学、计算化学、天体物理、材料模拟等）；
（3）能够将科学研究问题转化为可量化的AI评测任务，有构建科学类数据集或评测集的实际经历；
（4）具有处理多模态科学数据的经验（如图像与文本、图谱与序列的联合处理）。

2.技术能力：
（1）熟练掌握Python/Rust/C++中至少一门编程语言，具备良好的程序开发与脚本编写能力；
（2）深入理解主流大语言模型及多模态模型的技术架构，具备模型评测或实际应用经验。

3.符合以下条件者优先考虑：
（1）熟悉pytest/RobotFramework/Junit等自动化测试框架；
（2）具备Jenkins/GitLabCI/CD平台的实际配置与运维经验；
（3）了解Kubernetes/ArgoCD等云原生技术工具的使用场景与操作方式。