新規登録・ログインをしてスカウトメールや保存した求人を確認しよう
新規登録・ログインをして求人を探そう
求人ID : 1573182 更新日 : 2026年01月22日

≪みなとみらい駅直結≫インフラプラットフォームエンジニア |AI課題を解決するエンジニア|クラウド・AI開発経験歓迎

採用企業 株式会社Unsung Fields
勤務地 神奈川県, 横浜市西区
雇用形態 正社員
給与 800万円 ~ 1400万円

ワークスタイル

服装カジュアル 残業少なめ

募集要項

インフラプラットフォームエンジニア

【職務概要】

インフラストラクチャエンジニアとして、本番環境の推論を実行するGPUプラットフォームを担当します。クラスタアーキテクチャ、デプロイの信頼性、オブザーバビリティ、キャパシティ管理、インシデント対応メカニズムまでを含め、ハードウェア、モデル、テナント、トラフィックパターンのスケールアップ時でも、プラットフォームを予測可能かつ高信頼に保つことがミッションです。

サービング/ランタイムチームやゲートウェイチームと密接に連携し、適切なアイソレーションが強制され、必要なテレメトリが提供され、ダウンタイムなしで安全な変更が可能となるようプラットフォームを設計・運用します。本ポジションは、強いシステム直感と実運用に根ざした規律を併せ持ち、信頼性の高いロールアウト、整備された運用ツール、迅速なインシデント対応を実現する役割です。

【業務内容】

  • GPUクラスタのアーキテクチャおよび運用を担当:プロビジョニング、ノードイメージ管理、ドライバ/ランタイムのライフサイクル管理、GPU プラグイン/オペレーターのライフサイクル、サービングプールおよびシステムサービス向けの標準化されたデプロイパターン。
  • 本番環境のベースラインを定義・維持:ゴールデンノード構成、クラスタ・ハードニング、アップグレードパス、「既知の良好な」互換性マトリクス(ドライバ ↔ CUDA ↔ ランタイム ↔ カーネル)。
  • プラットフォームに信頼性を組み込む:SLO/SLI、アラート品質、運用手順書、インシデント対応ツール、そして再発防止までを含む実効性のあるポストモーテム(自動化、ガードレール整備、再発要因の排除)。
  • 安全なデリバリーを実現:カナリアデプロイ、段階的ロールアウト、ロールバック経路、設定の安全性(検証、ガードレール、変更管理、セーフ・デフォルト)。
  • フリート全体の健全性および保守ワークフローの管理を担当:ノードドレイン、GPU の隔離、自動修復、計画メンテナンス、監査可能な「ブレークグラス」手順。
  • キャパシティおよび利用効率の管理:スケジューリング制約、ビンパッキング/断片化管理、ウォームプール、オートスケーリングのプリミティブ、プロダクトのティアや公平性目標と整合したクォータ適用フック。
  • オブザーバビリティの確立:ゲートウェイ → サービング → GPUにまたがるメトリクス/ログ/トレーシング、レイテンシ内訳、飽和シグナル、キュー深度、GPU メモリ/計算メトリクス、顧客の症状と根本原因を結び付けるフリート健全性ダッシュボード。
  • 異種混在環境における本番運用に耐える状態の確保:ハードウェア世代や進化するサーバープラットフォーム間の差異を管理し、信頼性リスクを最小化しながら利用効率を向上。
  • セキュリティベースラインの確立:シークレット管理、最小権限アクセス、オペレーター操作の監査証跡、安全な運用ワークフロー。
  • ネットワーキングチームとの連携:トポロジー、障害ドメイン、ロードバランシング、テールレイテンシや可用性に影響する性能重視のトラフィック経路設計。
  • 運用ツールの構築:フリート管理、デバッグワークフロー、安全な管理操作、キャパシティ管理ツール、MTTR を削減しオペレーター効率を高めるメンテナンス自動化。
  • チーム横断での協業:ロールアウト計画、ヘルスセマンティクス、キャパシティシグナル、障害対応方針を整合させ、全体プラットフォームが高負荷下でも予測可能に振る舞うようにする。

【雇用形態】
正社員
※試用期間あり、3ヶ月

【給与】
年収:800万円~1,400万円
月収:66.6万円~116.6万円(月額基本給:66.6万円~116.6万円)
■昇給:あり

【就業時間】
09:00 ~ 18:00(休憩時間 60分)

【勤務地】
〒220-6010 神奈川県横浜市西区みなとみらい2丁目3番1号 クイーンズタワーA 10階
■アクセス:各線 桜木町 駅から徒歩7分、東横線・みなとみらい線 みなとみらい 駅から直結
■就業場所全面禁煙
■勤務地変更範囲:会社の定める事業所
■転勤・出向:無し

【休日休暇】

  • 年間休日 120 日
  • 完全週休二日制
  • 年間有給休暇(入社7ヶ月目には最低10日以上)

【待遇・福利厚生】

  • 交通費 一部支給 ( 上限月1万5千円 )
  • 社会保険(健康保険、厚生年金、雇用保険、労災保険)
  • 残業手当:通常の残業代

応募必要条件

職務経験 3年以上
キャリアレベル 中途経験者レベル
英語レベル 日常会話レベル
日本語レベル ビジネス会話レベル
最終学歴 大学卒: 学士号
現在のビザ 日本での就労許可は必要ありません

スキル・資格

【必須要件】

  • 本番分散システムを対象としたインフラ/SRE/プラットフォームエンジニアリングの経験5年以上。
  • 本番環境におけるKubernetes(または同等のオーケストレーション基盤)の豊富な運用経験と、実運用のオーナーシップ。
  • GPUクラスタやその他の高性能コンピューティング基盤(または同等に敏感なインフラ)の運用経験。
  • Linux、ネットワーク、分散システムの障害モードにまたがる高いデバッグ能力。
  • 高い運用規律:自動化ファーストの思考、定量的に測定可能な信頼性、慎重な変更管理、インシデント時の明確なコミュニケーション。
  • 担当システムに対するオンコールローテーションへの参加意欲。

【歓迎要件】

  • 高スループットなゲートウェイ/サービスメッシュの利用・運用経験(例:Envoy)、ならびに OpenTelemetry やマルチリージョンアーキテクチャの経験。
  • SlurmなどのHPC系スケジューリング、RDMA/InfiniBand、または性能要件に敏感なネットワーキングに関する経験。
  • 社内向けデベロッパープラットフォームの構築経験および、一貫したデプロイ/ロールバックを実現する「ゴールデンパス」の整備経験。
  • GPUドライバ/ランタイムのアップグレードをフリート全体で安全に管理した経験(互換性テスト+段階的ロールアウト)。
  • レイテンシに敏感なシステム向けのオブザーバビリティ設計パターンへの理解(リクエスト相関、サンプリング戦略、高カーディナリティメトリクスの制御)。

勤務地

  • 神奈川県, 横浜市西区
  • みなとみらい線、 みなとみらい駅

労働条件

雇用形態 正社員
給与 800万円 ~ 1400万円
業種 ソフトウエア

職種

会社概要

会社の種類 中小企業 (従業員300名以下)