Ingénieur Développement Bases de données H/F

  • Assystem Energy & Infrastructure
  • 26700 Pierrelatte, France
  • oct. 27, 2020
STAGE

Description

Contexte : 1.1. GDI La solution GDI (Global Data Inquire) est un ensemble d’applications pour l’exploitation optimale des informations contenues dans des documents texte, plan et image. La solution permet de : A· Numériser les documents de tous types avec rectification d’image et amélioration de la lisibilité B· Trier et classifier automatiquement par métier et domaine les documents et leurs contenus C· Structurer dans des ontologies ou des bases de données les connaissances et les informations contenues dans les documents D· Trouver immédiatement les réponses les plus pertinentes dans la masse de document à l’aide d’un moteur de recherche sémantique (sur EleasticSearch), d’un Chatbot universel de Questions/Réponses en langage naturel ou de requêtes spécifiques 1.2. Lecture des tableaux A. Lors de la lecture des documents par la chaine de traitement de GDI, tous les tableaux contenus dans les documents sont extraits. Après : B. Ils sont regroupés par cluster suivant le nombre et les noms de colonnes et les mots contenus dans les tableaux. C. Les clusters des tableaux sont validés par les experts comme pertinent pour le domaine d’étude. D. Les tableaux des clusters validés servent pour alimenter une ontologie/base de données. Le modèle de données de cette ontologie/base de données est déduit des noms des colonnes des clusters des tableaux. Une colonne pouvant être ou un(e) classe/objet ou un(e) attribut/propriété. Les relations entre classes/objets sont déduites de la signification des tableaux. Par exemple si le tableau localise des équipements dans des salles, la relation entre la (l’) classe/objet « Équipement » et la (l’) classe/objet « Salle » sera « est localisé dans » avec une cardinalité 1-n. E. L’(la) ontologie/base de données est peuplée/alimentée par les données contenues dans les tableaux. 1.3. Labélisation des documents D’autre part pour permettre une recherche plus ciblée et pertinente, des filtres sont appliqués sur les documents qui sont labélisés à partir des répertoires qui les contiennent et une taxonomie générique du domaine. La taxonomie générique a été composée manuellement par des experts du domaine à partir d’un corpus de documents traitant du domaine. Sujet du stage : 2.1. Constitution de l’(la) ontologie/base de données issue des tableaux La première tâche du stage est de poursuivre le développement des point D et E de 1.2 Lecture des tableaux. À savoir : Travailler avec les experts pour valider les clusters des tableaux Définir avec les experts les classes/objets et les relations déduits des clusters des tableaux Générer automatiquement les ontologies/base de données des tableaux et les peupler 2.2. Outil d’interrogation l’(la) ontologie/base de données Développer dans GDI un outil d’interrogation ergonomique de l’(la) ontologie/base de données générée. Cet outil devra être intégré Durée: 6 mois Niveau de formation : Bac +2/5 (BTS informatique, Licence / Master Informatique, École d’Ingénieurs) Spécialisation : Informatique Langues étrangères : Anglais apprécié Compétences : Vous avez une expérience significative d’au moins 3 ans en développement web front/back.Autonomie, esprit de synthèse, aisance relationnelle

Description entité

Depuis 50 ans, nous sommes animés par la conviction que les ingénieurs, par leur audace, leur expertise et leur capacité à faire bouger les lignes sont les architectes du monde de demain. Tous les jours, nos 5 700 collaborateurs innovent au contact de leurs clients. Ils accompagnent les plus grands projets de l'ingénierie mondiale dans les domaines de l'énergie, de la santé, des sciences de la vie et des transports. Groupe international en forte croissance, nous sommes présents dans 14 pays (Europe, Moyen-Orient, Asie, Afrique). L'arrivée de la digitalisation dans les infrastructures industrielles a créé de nouveaux besoins et de nouvelles opportunités. Le monde du SI industriel est en pleine mutation et l'avancée de la digitalisation s'appuie sur une quantité massive de données exploitables. Au sein de son Pôle Innovation&Digital, Assystem accompagne ses clients sur des prestations de conseil et d'expertise, de gestion de contenu et de documents, d'ingénierie d'applications et de business intelligence.

Entité

Digital & Innovation

Mission

Contexte : 1.1. GDI La solution GDI (Global Data Inquire) est un ensemble d’applications pour l’exploitation optimale des informations contenues dans des documents texte, plan et image. La solution permet de : A· Numériser les documents de tous types avec rectification d’image et amélioration de la lisibilité B· Trier et classifier automatiquement par métier et domaine les documents et leurs contenus C· Structurer dans des ontologies ou des bases de données les connaissances et les informations contenues dans les documents D· Trouver immédiatement les réponses les plus pertinentes dans la masse de document à l’aide d’un moteur de recherche sémantique (sur EleasticSearch), d’un Chatbot universel de Questions/Réponses en langage naturel ou de requêtes spécifiques 1.2. Lecture des tableaux A. Lors de la lecture des documents par la chaine de traitement de GDI, tous les tableaux contenus dans les documents sont extraits. Après : B. Ils sont regroupés par cluster suivant le nombre et les noms de colonnes et les mots contenus dans les tableaux. C. Les clusters des tableaux sont validés par les experts comme pertinent pour le domaine d’étude. D. Les tableaux des clusters validés servent pour alimenter une ontologie/base de données. Le modèle de données de cette ontologie/base de données est déduit des noms des colonnes des clusters des tableaux. Une colonne pouvant être ou un(e) classe/objet ou un(e) attribut/propriété. Les relations entre classes/objets sont déduites de la signification des tableaux. Par exemple si le tableau localise des équipements dans des salles, la relation entre la (l’) classe/objet « Équipement » et la (l’) classe/objet « Salle » sera « est localisé dans » avec une cardinalité 1-n. E. L’(la) ontologie/base de données est peuplée/alimentée par les données contenues dans les tableaux. 1.3. Labélisation des documents D’autre part pour permettre une recherche plus ciblée et pertinente, des filtres sont appliqués sur les documents qui sont labélisés à partir des répertoires qui les contiennent et une taxonomie générique du domaine. La taxonomie générique a été composée manuellement par des experts du domaine à partir d’un corpus de documents traitant du domaine. Sujet du stage : 2.1. Constitution de l’(la) ontologie/base de données issue des tableaux La première tâche du stage est de poursuivre le développement des point D et E de 1.2 Lecture des tableaux. À savoir : Travailler avec les experts pour valider les clusters des tableaux Définir avec les experts les classes/objets et les relations déduits des clusters des tableaux Générer automatiquement les ontologies/base de données des tableaux et les peupler 2.2. Outil d’interrogation l’(la) ontologie/base de données Développer dans GDI un outil d’interrogation ergonomique de l’(la) ontologie/base de données générée. Cet outil devra être intégré Durée: 6 mois

Profil

Niveau de formation : Bac +2/5 (BTS informatique, Licence / Master Informatique, École d’Ingénieurs) Spécialisation : Informatique Langues étrangères : Anglais apprécié Compétences : Vous avez une expérience significative d’au moins 3 ans en développement web front/back.Autonomie, esprit de synthèse, aisance relationnelle

Métier

Conception / Etudes / Développement / Méthodes

Date de publication

oct. 27, 2020

Secteur

Nucléaire