Journées du Logiciel Libre 2023

Indexer ses documents bureautique avec la suite Elastic et FSCrawler
02/04/2023 , La fosse aux ours

Venez découvrir par la pratique comment rechercher vos documents d'entreprise facilement.


Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images... et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ? Surtout depuis l'annonce de la fin de Google Search Appliance.

Dans cette session, David vous fera découvrir par la pratique comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec elasticsearch :


Intervention tout public – oui Catégorie de public visée

Associatif, Entreprise

Nom de l'association ou entreprise

Elastic

Depuis 2013, David Pilato est développeur et évangéliste chez elastic.co, après avoir passé les deux années précédentes à promouvoir le projet open-source Elasticsearch. Il en anime la communauté française et organise des BBLs au sein des entreprises. Egalement auteur du projet FSCrawler qui permet d'indexer des documents pdf, open office, etc. dans elasticsearch en utilisant Apache Tika.

Autre(s) intervention(s) de l'orateur :