Apache Tika parsers

Apache Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

Homepage POM file JAR file Javadoc

'org.apache.tika:tika-parsers:0.7'

<dependency>
	<groupId>org.apache.tika</groupId>
	<artifactId>tika-parsers</artifactId>
	<version>0.7</version>
</dependency>

<dependency org="org.apache.tika" name="tika-parsers" rev="0.7"/>

"org.apache.tika", "tika-parsers", "0.7"

Dependencies

Compile dependencies

asm » asm » 3.1
com.drewnoakes » metadata-extractor » 2.4.0-beta-1
commons-logging » commons-logging » 1.1.1
log4j » log4j » 1.2.14
org.apache.commons » commons-compress » 1.0
org.apache.geronimo.specs » geronimo-stax-api_1.0_spec » 1.0.1
org.apache.pdfbox » pdfbox » 1.1.0
org.apache.poi » poi » 3.6
org.apache.poi » poi-ooxml » 3.6
org.apache.poi » poi-scratchpad » 3.6
org.apache.tika » tika-core » 0.7
org.bouncycastle » bcmail-jdk15 » 1.45
org.bouncycastle » bcprov-jdk15 » 1.45
org.ccil.cowan.tagsoup » tagsoup » 1.2

Test dependencies

junit » junit » 3.8.1
org.mockito » mockito-core » 1.7