
La Norvège adopte 2 PB de stockage Huawei pour un LLM national
Spécialiste LLMs, AI Agents et Infrastructure IA

Spécialiste LLMs, AI Agents et Infrastructure IA
La Norvège a choisi le système Huawei OceanStor Dorado pour stocker 2 PB de données destinées à l'entraînement d'un modèle de langage en norvégien. Ce projet vise à préserver la richesse linguistique et culturelle du norvégien, tout en soulevant des débats sur la dépendance technologique de l'Europe envers des technologies chinoises, dans un contexte géopolitique tendu.
La Bibliothèque Nationale de Norvège a récemment annoncé l'acquisition de 2 pétaoctets (PB) de stockage flash Huawei OceanStor Dorado. Cette infrastructure servira à soutenir l'entraînement d'un modèle de langage (LLM) dédié à la langue norvégienne. Ce projet innovant a pour objectif de préserver les subtilités linguistiques et culturelles propres au norvégien, une langue marquée par ses deux formes écrites officielles (bokmål et nynorsk) et ses nombreux dialectes régionaux.
Contrairement aux langues globales comme l'anglais, le norvégien est sous-représenté dans les bases de données utilisées pour l'entraînement des modèles de langage internationaux, tels que GPT-4 d'OpenAI ou Bard de Google. Ce projet vise donc à combler ce manque, tout en affirmant la souveraineté culturelle et linguistique de la Norvège dans un monde de plus en plus numérique.
Le stockage Huawei OceanStor Dorado se distingue par son architecture SmartMatrix 4.0, qui offre une fiabilité de 99,99999 % et une haute disponibilité, répondant ainsi aux besoins des charges de travail intensives. Ces caractéristiques sont particulièrement adaptées aux processus d'entraînement de modèles de langage, qui nécessitent le traitement de vastes volumes de données.
Selon Blocks and Files, le projet norvégien devra traiter jusqu'à 60 PB de données brutes. Ces données seront ensuite nettoyées, normalisées et réduites pour être utilisées dans le processus d'entraînement. Le choix de Huawei a été motivé par les performances élevées et l'efficacité énergétique du OceanStor Dorado, une solution particulièrement adaptée pour des projets de cette envergure.
Créer un modèle de langage pour une langue comme le norvégien comporte des défis uniques. Outre les deux formes écrites officielles, le norvégien est caractérisé par une grande diversité dialectale, rendant complexe la création d'un modèle qui puisse comprendre et représenter toutes ses nuances.
D'après Tekna, ce projet revêt une importance stratégique pour la Norvège. Il s'agit de garantir que sa langue nationale reste pertinente dans une ère où les technologies de l'IA façonnent de plus en plus les interactions linguistiques et culturelles.
Le recours à Huawei pour un projet aussi vital pose des questions sur la dépendance technologique de l'Europe vis-à-vis de la Chine. Huawei a été au centre de controverses liées à des accusations d'espionnage, particulièrement de la part des États-Unis, qui ont imposé des sanctions à l'entreprise chinoise. Bien que Huawei nie ces accusations, le débat sur la souveraineté technologique européenne reste d'actualité.
Pour la Norvège, ce choix témoigne d'une volonté de prioriser la performance et l'efficacité technologique, même si cela implique de travailler avec une entreprise étrangère controversée. Toutefois, cette décision pourrait exposer le pays à des risques en cas d'escalade des tensions entre l'Europe et la Chine.
Le projet offre aux chercheurs norvégiens une plateforme unique pour développer un modèle linguistique adapté aux besoins culturels et linguistiques de leur pays. Cette initiative pourrait également inspirer d'autres pays à entreprendre des projets similaires afin de préserver leur patrimoine linguistique dans un monde de plus en plus dominé par les grandes langues mondiales.
Le choix de la Norvège pourrait encourager une augmentation de la demande pour des solutions de stockage et d'infrastructure spécialisées dans toute l'Europe. Cependant, cela souligne également l'importance de développer des alternatives technologiques européennes afin de réduire la dépendance vis-à-vis de fournisseurs extra-européens.
Huawei OceanStor Dorado a été sélectionné pour sa fiabilité (99,99999 %), ses performances élevées et son efficacité énergétique, essentielles pour traiter les 60 PB de données nécessaires à l'entraînement du modèle.
Le norvégien est une langue complexe avec deux formes écrites officielles (bokmål et nynorsk) et de nombreux dialectes régionaux, ce qui rend difficile la création d’un modèle qui capture toutes ses nuances.
Le choix de Huawei soulève des inquiétudes concernant la souveraineté technologique européenne, car l’entreprise chinoise fait face à des accusations d’espionnage et des sanctions dans certains pays.
💡 Dica Pro: Les modèles de langage spécialisés, comme celui développé par la Norvège, nécessitent non seulement des données localisées, mais aussi des stratégies de réduction et de normalisation des données pour répondre aux contraintes de stockage et d'entraînement.