CareerCross uses cookies to enhance your experience on our websites. If you continue to view our sites without changing your browser settings, then it is assumed that we have your consent to collect and utilise your cookies. If you do not want to give us your consent, then please change the cookie settings on your browser. Please refer to our privacy policy for more information.
CareerCross uses cookies to enhance your experience on our websites. If you continue to view our sites without changing your browser settings, then it is assumed that we have your consent to collect and utilise your cookies. If you do not want to give us your consent, then please change the cookie settings on your browser. Please refer to our privacy policy for more information.
Location | Tokyo - 23 Wards, Setagaya-ku |
Job Type | Permanent Full-time |
Salary | 6.5 million yen ~ 12 million yen |
About the Organization:
GSD is a leading provider of professional IT managed services, dedicated to delivering exceptional 24/7/365 support and operational excellence for mission-critical business applications. We partner with innovative clients like yours to help their platforms achieve maximum uptime and optimal performance. Join our dynamic team and contribute to a fast-paced, high-impact environment.
About the Role:
The L1/L2 Support Engineer plays a critical role in ensuring the continuous availability and optimal performance of our key applications, particularly our cutting-edge eSIM services running on AWS. You will handle initial response to incidents (L1 duties) and escalate complex technical issues for detailed troubleshooting and resolution (L2 duties).
This role bridges initial response and advanced problem-solving, driving incident resolution, contributing to problem management, and enhancing stability across supported platforms.
We seek individuals with proactive problem-solving skills, a strong customer service mindset, deep foundational to applied understanding of cloud environments and modern application architectures, and a drive for continuous improvement.
Primary Responsibilities:
1. 24x7 Monitoring and Alert Management (L1 Focus):
・Rigorously monitor application and service health, infrastructure (AWS, Kubernetes), and network alerts across all platforms, including eSIM services.
・Identify anomalies and incidents using monitoring tools such as Grafana, Loki, Sentry, AWS CloudWatch, and automated email reports.
・Analyze platform behavior to clearly identify potential issues and prevent service disruptions.
2. Incident Management and Primary Response (L1 Focus):
・Serve as the primary point of contact for all incoming incidents reported via monitoring alerts or by users/B2B customers.
・Perform initial logging, triage, prioritization, tracking, and routing of incidents within the ticketing system (Jira, ServiceNow, Telna Ticketing Platform, Zendesk).
・Strictly adhere to defined Service Level Agreements (SLAs) for first response times.
・Perform initial troubleshooting using defined runbooks and Standard Operating Procedures (SOPs).
・Accurately document events, issues, and their resolutions in logs and ticketing systems.
3. Advanced Incident Resolution (L2 Focus):
・Serve as the primary escalation point for incidents unresolved by L1, performing advanced troubleshooting and diagnostics.
・Resolve incidents within agreed SLAs and timelines by leveraging runbooks, MOPs, and deep technical knowledge.
・Conduct detailed troubleshooting for issues related to applications, data, integrations, and underlying infrastructure.
・Analyze logs (application, system, AWS, Kubernetes, microservices) using tools like Loki, Sentry, and AWS CloudWatch to identify root causes.
・Collaborate with other support or dependent groups (internal or our L3/DevOps) when incidents have links.
4. Communication and Escalation:
・Classify incidents based on severity and impact, promptly escalating high-priority issues to the L2 team (for L1) or the Incident Manager/our L3/DevOps team (for L2).
・Directly convey unresolved issues to the appropriate next-level support personnel.
・Provide timely and professional updates to end-users and stakeholders regarding incident status and solutions.
・Collect customer feedback and suggestions, relaying them to the responsible team.
5. Interactions with B2B Customers (eSIM Services - L1/L2 Focus):
・Professionally handle complaints and inquiries from B2B customers, primarily following defined playbooks and MOPs.
・Escale B2B issues beyond L1 scope to the appropriate internal team (L1) or resolve complex B2B issues (L2).
6. Problem Management and Stability (L2 Focus):
・Actively participate in problem management activities, including identifying recurring issues and contributing to Root Cause Analysis (RCA).
・Proactively identify potential issues, analyze technical problems, and propose permanent fixes or solutions.
・Contribute to stability analysis and continuous service improvement initiatives.
・Design and execute audit plans to ensure system health and compliance.
・Create logical diagrams to improve performance issues and identify RCAs.
7. Operational Execution and Collaboration (L2 Focus):
・Execute complex operational tasks such as playbook execution, switchover/failover activities, and troubleshooting cluster failures (e.g., Kubernetes, DR-related issues).
・Collaborate closely with our DevOps and software development teams, providing necessary information for pipeline support and responding with rollback strategies in mind.
・Stay updated on relevant changes from third-party providers (e.g., Telna API changes, service updates, operational guidelines provided by us) for troubleshooting purposes.
・Perform pre-checks and post-checks after service releases, patches, and hotfixes based on our MOP and playbooks.
8. Knowledge Management and Mentorship:
・Contribute to the knowledge base by documenting solutions and common issues (L1).
・Create and update detailed knowledge base articles, runbooks, and troubleshooting guides for L1 and end-users (L2).
• Provide guidance and mentorship to L1 support engineers for each application (L2).
• Facilitate training/education for L1 staff and receive training from application teams to enhance domain expertise (L2).
• Accurately document all incidents, solutions, and RCAs for future reference and knowledge sharing.
組織について:
GSDは、専門的なITマネージドサービスを提供するリーディングカンパニーであり、重要なビジネスアプリケーションに対して卓越した24時間365日のサポートと運用上の優位性を提供することに尽力しています。当社のような革新的なクライアントと提携し、そのプラットフォームが最大限の稼働時間と最適なパフォーマンスを達成できるよう支援しています。当社のダイナミックなチームに参加し、ペースの速い、影響力の大きい環境に貢献してください。
職務について:
L1/L2サポートエンジニアは、当社の重要なアプリケーション、特にAWS上の最先端のeSIMサービスの継続的な可用性と最適なパフォーマンスを確保する上で極めて重要な役割を担います。発生するインシデントに対する一次対応(L1業務)を担当し、複雑な技術的問題については詳細なトラブルシューティングと解決策を提供するためにエスカレートします(L2業務)。
この役割は、初期対応と高度な問題解決の橋渡しとなり、インシデント解決を推進し、問題管理に貢献し、サポートされるプラットフォーム全体の安定性を向上させます。
私たちは、積極的な問題解決能力、強力な顧客サービス精神、クラウド環境や最新のアプリケーションアーキテクチャに関する基礎から応用までの深い理解、そして継続的な改善への意欲を持つ方を求めています。
主な職務内容:
1.24時間365日の監視とアラート管理(L1中心):
・eSIMサービスを含む、すべてのプラットフォームでアプリケーション、サービスの状態、インフラストラクチャ(AWS、Kubernetes)、およびネットワークアラートを厳重に監視します。
・Grafana、Loki、Sentry、AWS CloudWatch、および自動化された電子メールレポートなどの監視ツールを利用して、異常やインシデントを特定します。
・プラットフォームの動作を分析し、サービスの中断を防ぐために潜在的な問題を明確に特定します。
2.インシデント管理と一次対応(L1中心):
・監視アラートまたはユーザー/B2B顧客によって報告された、すべての着信インシデントの主要な連絡窓口となります。
・チケットシステム(Jira、ServiceNow、Telna Ticketing Platform、Zendesk)内でインシデントの初期ログ記録、トリアージ、優先順位付け、追跡、ルーティングを実行します。
・最初の応答時間について定義されたサービスレベル契約(SLA)を厳守します。
・定義済みのランブックと標準操作手順(SOP)を使用して初期トラブルシューティングを実行します。
・イベント、問題、およびその解決策をログとチケットシステムに正確に記録します。
3.高度なインシデント解決(L2中心):
・L1では解決できないインシデントの主要なエスカレーションポイントとして機能し、高度なトラブルシューティング行い、診断します。
・ランブック、MOP、および深い技術的知識を活用して、合意されたSLAとタイムライン内でインシデントを解決します。
・アプリケーション、データ、統合、および基盤となるインフラストラクチャ関連の問題について、詳細なトラブルシューティングを行います。
・Loki、Sentry、AWS CloudWatchなどのツールを使用して、ログ(アプリケーション、システム、AWS、Kubernetes、マイクロサービス)を分析し、根本原因を特定します。
・インシデントにリンクがある場合、他のサポートまたは依存するグループ(内部または当社のL3/DevOps)と連携します。
4.コミュニケーションとエスカレーション:
・重大度と影響に基づいてインシデントを分類し、緊急性の高い問題については、L2チーム(L1の場合)またはインシデントマネージャー/当社のL3/DevOpsチーム(L2の場合)へ速やかに連携します。
・未解決の問題を適切な次のレベルのサポート担当者に直接伝達します。
・インシデントのステータスと解決策について、エンドユーザーとステークホルダーに対し、タイムリーかつ専門的な情報共有を行います。
・顧客からのフィードバックや提案を収集し、担当チームに伝達します。
5.B2B顧客とのやり取り(eSIMサービスの場合 - L1/L2中心):
・主に定義されたプレイブックとMOPに従って、B2B顧客からのクレームや問い合わせを専門的に処理します。
・L1の範囲を超えるB2Bの問題を適切な当社チームにエスカレートするか(L1)、高度なB2Bの問題を解決します(L2)。
6.問題管理と安定性(L2中心):
・繰り返し発生する問題の特定や根本原因分析(RCA)への貢献など、問題管理活動に積極的に参加します。
・潜在的な問題を積極的に特定し、技術的な問題を分析し、恒久的な修正または解決策を提案します。
・安定性分析と継続的なサービス改善イニシアチブに貢献します。
・システムの健全性とコンプライアンスを確保するために監査計画を設計および実行します。
・パフォーマンスの問題を改善し、RCAを特定するための論理図を作成します。
7.運用実行とコラボレーション(L2中心):
・プレイブックの実行、切り替え/フェイルオーバー活動の実行、クラスター障害(例:Kubernetes、DR関連の問題)のトラブルシューティングなど、複雑な運用タスクを実行します。
・当社のDevOpsおよびソフトウェア開発チームと密接に連携し、パイプラインサポートに必要な情報を提供し、ロールバック戦略を踏まえた上で対応します。
・トラブルシューティングのために、サードパーティプロバイダー(例:TelnaのAPI変更、サービスアップデート、当社が提供する運用ガイドライン)からの関連する変更について常に最新情報を把握します。
・当社が提供するMOPとプレイブックに基づいて、サービスリリース、パッチ、ホットフィックス後の事前チェックと事後チェックを実施します。
8.知識管理とメンターシップ:
・解決策や一般的な問題を文書化することで、ナレッジベースに貢献します(L1)。
・L1およびエンドユーザー向けの詳細なナレッジベース記事、ランブック、およびトラブルシューティングガイドを作成および更新します(L2)。
・各アプリケーションのL1サポートエンジニアにガイダンスとメンターシップを提供します(L2)。
・L1スタッフへのトレーニング/教育を促進し、アプリケーションチームからトレーニングを受けてドメインの専門知識を向上させます(L2)。
・将来の参照と知識共有のために、すべてのインシデント、解決策、およびRCAを正確に文書化します。
Minimum Experience Level | Over 3 years |
Career Level | Mid Career |
Minimum English Level | Fluent (Amount Used: English usage about 50%) |
Minimum Japanese Level | Business Level |
Minimum Education Level | Associate Degree/Diploma |
Visa Status | Permission to work in Japan required |
Required Qualifications:
・This position is not open to applicants residing outside of Japan.
・Bachelor of Science (BSc) degree in Computer Science, Information Technology, or a related technical field from an internationally recognized/accredited university.
・3-5+ years of hands-on experience in technical support, network operations, or IT service desk roles (preferably in a 24x7x365 environment).
・Proven experience in advanced configuration and troubleshooting of complex IT systems.
・Extensive hands-on experience with AWS cloud infrastructure and monitoring (e.g., EC2, VPC, S3, CloudWatch, Lambda).
・Experience with containerization technologies, particularly Kubernetes, and microservices architecture.
・Proficiency with monitoring tools such as Grafana, Prometheus, ELK Stack, Loki, and Sentry.
・Deep understanding of networking concepts, Linux/Unix administration, and system log analysis.
・Experience with database queries and basic operations.
・Skilled in scripting (Shell/Bash, Python) for automation and troubleshooting.
・Experience with ticket systems (e.g., Jira, ServiceNow, Zendesk).
・Excellent analytical, problem-solving, and critical thinking skills.
・Strong communication and interpersonal skills to clearly explain complex technical issues.
・Excellent customer service skills and a commitment to delivering a positive customer experience.
・Ability to work effectively within a team and independently in a fast-paced, constantly changing environment, including shift work and on-call rotations for 24/7 operations.
・High accountability, strong work ethic, and proactive attitude.
・Excellent communication skills in both English and Japanese (Japanese communication skills are a significant plus, especially for our group accounts).
Preferred Qualifications:
・Experience with CI/CD pipelines and understanding of DevOps methodologies.
・ITIL Foundation certification.
・AWS certifications (e.g., Solutions Architect Associate, SysOps Administrator Associate).
・Experience with basic troubleshooting and escalation of issues within network environments.
・Ability to multitask efficiently and manage competing priorities.
Work Environment and Benefits:
・Opportunity to work with cutting-edge technology and critical communication services.
・Challenging work with opportunities for deep technical growth.
・Collaborative and supportive team environment.
・Opportunities for continuous learning and professional development.
・Competitive salary and benefits package.
必須要件:
・国際的に認められた/認定された大学で、コンピューターサイエンス、情報技術、または関連する技術分野の理学士号(BSc)。
・技術サポート、ネットワーク運用、またはITサービスデスクの役割で3〜5年以上の実務経験(24時間365日体制の環境が望ましい)。
・複雑なITシステムの高度な設定とトラブルシューティングの実証された経験。
・AWSクラウドインフラストラクチャと監視(例:EC2、VPC、S3、CloudWatch、Lambda)に関する豊富な実務経験。
・コンテナ化技術、特にKubernetes、およびマイクロサービスアーキテクチャの経験。
・Grafana、Prometheus、ELK Stack、Loki、Sentryなどの監視ツールに精通していること。
・ネットワークの概念、Linux/Unix管理、およびシステムログの分析に関する深い理解。
・データベースクエリと基本的な操作の経験。
・自動化とトラブルシューティングのためのスクリプト作成(Shell/Bash、Python)に熟練していること。
・チケットシステム(例:Jira、ServiceNow、Zendesk)の経験。
・優れた分析、問題解決、および批判的思考スキル。
・複雑な技術的問題を明確に説明できる強力なコミュニケーション能力と対人スキル。
・優れた顧客サービススキルと、ポジティブなカスタマーエクスペリエンスを提供することへの献身。
・シフト勤務や24時間365日体制のためのオンコールローテーションを含め、ペースの速い、常に変化する環境でチーム内および単独で効果的に作業する能力。
・高い説明責任、優れた労働倫理、および積極的な姿勢。
・英語と日本語での優れたコミュニケーションスキル(特に当グループアカウントの場合、日本語でのコミュニケーション能力は大きなプラスとなります。)。
歓迎要件:
・CI/CDパイプラインの経験とDevOps手法の理解。
・ITILファンデーション認定。
・AWS認定(例:ソリューションアーキテクトアソシエイト、SysOpsアドミニストレーターアソシエイト)。
・ネットワーク環境における基本的な障害特定と障害エスカレーションの経験。
・効率的にマルチタスクをこなし、競合する優先順位を管理する能力。
働く環境と福利厚生:
・最先端のテクノロジーと重要な通信サービスを扱う機会がある。
・深い技術的成長の機会を伴う、やりがいのある仕事。
・協力的でサポート的なチーム環境。
・継続的な学習と専門能力開発の機会。
・競争力のある給与と福利厚生パッケージ。
Job Type | Permanent Full-time |
Salary | 6.5 million yen ~ 12 million yen |
Salary Bonuses | Bonuses included in indicated salary. |
Work Hours | 9:00~17:30 1 hour break *Mondays: 8:00-16:30 |
Holidays | Sat, Sun, national holyday Summer&Winter vacation paid holid etc |
Industry | Communication |
Company Type | Large Company (more than 300 employees) |
Non-Japanese Ratio | Majority Non-Japanese |