Assystem Energy & Infrastructure
92400 Courbevoie, France
Les données tabulaires sont une forme cruciale d'expression de l'information, qui permet d'organiser les données dans une structure standard pour faciliter la recherche et la comparaison des informations.
La tâche de compréhension des tableaux vise à détecter et à reconnaître la structure interne d'un tableau, ce qui est une étape clé pour extraire les informations nécessaires. Il existe plusieurs études sur cette tâche pour différents formats de fichiers tels que pdf, image, word. Toutefois, les méthodes existantes ne permettent pas de reconnaître avec précision la structure de tableaux complexes dans les fichiers PDF ou les fichiers image et ne sont pas généralisables car elles reposent sur des caractéristiques conçues à la main qui ne sont pas robustes aux variations de mise en page.
Pour résoudre ce problème, nous avons l'intention de mettre au point une solution permettant de convertir toutes les structures de tableaux en structures de graphiques. Plus précisément, la solution...