
Een internationaal onderzoeksinstituut moest weg van een end-of-support compute grid. We hebben een geautomatiseerde HPC-omgeving op Azure neergezet, zodat onderzoekers workloads zelf kunnen draaien zonder handmatig werk: met cost- en security controls in het platform zelf.
Cloud-native compute grid op Microsoft Azure als doelplatform.
HPC-workloads via Azure Batch voor parallel processing op aanvraag.
Infrastructure as Code in Terraform, uitgerold via GitLab CI/CD-pipelines.
Configuration management en orchestration via Ansible en AWX.
Serverless compute voor event-driven automation en workflowstappen.
Rekentijd voor één specifieke berekening van 2 maanden teruggebracht naar 46 uur.
Een onderzoeksinstituut moest naar de cloud omdat de bestaande compute grid end-of-support was. Het internationale team gebruikte de grid voor uiteenlopende wetenschappelijke use cases, met workloads die deels lang draaiden. Een MVP met Azure Compute en Azure Batch liet de waarde van public cloud voor deze workloads direct zien; daarna hebben we het platform met end-to-end cloud automation self-service gemaakt voor de onderzoeksteams.
De opdracht was om de tools en services te bouwen waarmee onderzoekers hun workloads consistent op Azure draaien, inclusief begeleiding op sizing en het benutten van services als Azure Batch en Azure Functions. Cost- en security controls moesten ingebouwd zijn in het platform zelf, en wijzigingen moesten autonoom richting meerdere omgevingen uitgerold kunnen worden.
We zijn begonnen met een solution design: services, componenten, networking requirements en naming-/tagging-conventies. Op basis daarvan hebben we de complete landing zone gebouwd in Terraform en Ansible/AWX, uitgerold via GitLab CI/CD-pipelines. Voor verschillende researchgroepen zijn blueprints gedefinieerd die op basis van inputparameters automatisch worden gedeployed.
De blueprints leveren automatisch dashboards en billing alerts mee, zodat projectleiders zichtbaar grip hebben op budget en resource allocation. Secure access loopt via een Site-to-Site VPN naar de on-prem omgeving en een Point-to-Site VPN voor remote workers.
Door deze services te benutten zijn doorlooptijden flink korter geworden en zijn kosten beter beheersbaar. Voor één specifieke berekening daalde de runtime van 2 maanden naar 46 uur.
The Factory heeft veel workloads van on-prem naar public cloud gemigreerd. We helpen met cloudstrategie (cloud-first of hybride), het ontwerp van het operating model, de migratie zelf, en het daarna efficiënt, veilig en kostbewust runnen.
Bekijk de dienst