系统运维工程师(人工智能项目方向)
1.2-2万元/月
投递简历
广东-广州
1-3年
2026-01-14 14:08:29 更新
被浏览:341 次
广东盈峰正和数字科技有限公司
最近在线时间:2026-01-14 14:08:29
电话:134********
地址:广州市南沙区东涌镇庆沙路96号二层B区204-5房
职位描述
工作职责:
1、负责AI模型服务器的全周期运维管理,涵盖模型上线部署、运行监控、日常维护及性能调优;
2、基于Kubernetes搭建高可用的AI推理服务架构,实现Docker容器化封装与集群资源调度;
3、主导在异构计算环境下的模型部署任务,熟练运用NVIDIAGPU与昇腾芯片进行大模型加速处理;
4、推进AI基础设施建设,包括训练平台部署、分布式存储配置以及网络性能优化;
5、开发自动化运维工具,使用Python实现模型健康状态检测、资源动态扩缩容及日志解析功能;
6、深入参与模型性能优化工作,利用Profiling工具识别性能瓶颈并优化计算图结构;
7、与产品和算法团队紧密协作,推动模型工程化落地,提升大语言模型交互响应效率;
8、搭建CI/CD流水线,实现模型版本管理与持续集成交付。
基础要求
1、计算机科学、人工智能或相关专业本科及以上学历,具备1年以上AI系统运维经验;
2、熟练掌握Python编程语言,具有较强的脚本开发与自动化运维实践能力;
3、理解Kubernetes核心机制,可独立完成集群部署及常见故障排查;
4、熟悉Docker镜像制作规范,了解容器网络与存储工作原理;
5、具有大模型(如Transformer系列)部署经历,掌握VLLM/SGlang等主流推理框架;
6、精通NVIDIACUDA与昇腾MindSpore运行环境的配置与调试;
7、熟悉Prometheus结合Grafana构建监控系统,掌握ELK技术栈进行日志分析。
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
该公司的其他职位
您可能感兴趣的职位
搜索更多相似职位 >
推荐企业
职位专题
微信求职找工作
手机扫一扫
随时随地找工作