Apache Tika

Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

Homepage POM file JAR file Javadoc

'org.apache.tika:tika:0.3'

<dependency>
	<groupId>org.apache.tika</groupId>
	<artifactId>tika</artifactId>
	<version>0.3</version>
</dependency>

<dependency org="org.apache.tika" name="tika" rev="0.3"/>

"org.apache.tika", "tika", "0.3"

Dependencies

Compile dependencies

asm » asm » 3.1
com.ibm.icu » icu4j » 3.8
commons-codec » commons-codec » 1.3
commons-io » commons-io » 1.4
commons-lang » commons-lang » 2.1
commons-logging » commons-logging » 1.0.4
log4j » log4j » 1.2.14
net.sourceforge.nekohtml » nekohtml » 1.9.9
org.apache.geronimo.specs » geronimo-stax-api_1.0_spec » 1.0
org.apache.poi » poi » 3.5-beta5
org.apache.poi » poi-ooxml » 3.5-beta5
org.apache.poi » poi-scratchpad » 3.5-beta5
pdfbox » pdfbox » 0.7.3

Test dependencies

junit » junit » 3.8.1