Apache Tika

Apache Tika est une librairie permettant d'extraire le contenu texte de nombreux type de fichiers (PDF, documents Office, documents iWorks, ...).
Il permet d'extraire leur METADATA mais aussi d'en déterminer le type, est-ce réellement un PDF ou un docx renommé ?