
openai
Software Engineer, Reliability
인프라·DevOps개발
AI 요약
OpenAI의 Applied Engineering 팀에서 AI 기술의 안정적인 배포와 확장을 책임질 Reliability Engineer를 채용합니다. 대규모 인프라의 성능, 신뢰성, 확장성을 관리하며, Kubernetes 및 IaC 도구를 활용해 자동화된 시스템을 구축하고 운영하는 역할을 수행합니다.
주요 업무
급증하는 수요에 대응하기 위한 인프라 확장성 솔루션 설계 및 구현, 개발 팀과 협업하여 시스템 신뢰성 강화, 운영 환경의 이슈 식별을 위한 모니터링 시스템 구축 및 관리, 시스템 신뢰성 측정을 위한 SLO 및 SLI 개발 및 유지, 서비스 중단 최소화를 위한 결함 허용(Fault-tolerant) 및 회복탄력적 설계 패턴 적용, 반복 작업 효율화를 위한 자동화 도구 구축 및 유지관리, 연구원·엔지니어·PM·디자이너와 협력하여 새로운 기능 및 연구 성과 배포, 24/7 시스템 가용성 확보를 위한 온콜(On-call) 로테이션 참여.
자격 요건
컴퓨터 과학 또는 관련 분야 학사 학위(또는 이에 준하는 경력), 빠르게 성장하는 기업에서의 Reliability Engineer 또는 유사 직무 경력, 클라우드 인프라에 대한 높은 숙련도, 프로그래밍 및 스크립팅 언어 능숙, Kubernetes 등 컨테이너화 및 오케스트레이션 플랫폼 경험, Terraform 또는 CloudFormation 등 IaC 도구 지식, 뛰어난 문제 해결 및 트러블슈팅 능력, 원활한 커뮤니케이션 및 협업 능력, DataDog, Prometheus, Grafana, Splunk, ELK stack 등 관측성(Observability) 도구 경험, 마이크로서비스 아키텍처 및 서비스 메시 기술 경험, 클라우드 환경 보안 베스트 프랙티스 지식.
기술 스택
KubernetesTerraformCloudFormationDataDogPrometheusGrafanaSplunkELK stackMicroservicesService MeshCloud InfrastructurePythonGo
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&DB2B Marketing Lead, Korea
마케팅