Apache Tika

Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

Homepage POM file JAR file Javadoc

'org.apache:tika:0.2'

<dependency>
	<groupId>org.apache</groupId>
	<artifactId>tika</artifactId>
	<version>0.2</version>
</dependency>

<dependency org="org.apache" name="tika" rev="0.2"/>

"org.apache", "tika", "0.2"

Dependencies