[PHP] Convert PDF to text

Berikut akan saya paparkan bagaimana cara melakukan konversi sebuah file PDF menjadi text. Konversi yang saya maksud adalah bagaimana caranya agar kita dapat menangkap isi text yang ada dalam suatu file PDF agar kemudian dapat kita olah sesuai kebutuhan kita..

Pertama-tama, download lah sebuah library yang bernama xpdf disini. Sebelumnya perlu saya jelaskan, xpdf sendiri memiliki beberapa batasan dalam mengkonversi sebuah file PDF. Xpdf tidak akan mengkonversi sebuah text pada pdf file yang file tersebut tidak mengizinkan/diproteksi.

Okeh, setelah anda download xpdf, silahkan letakkan pada sebuah folder dimana anda ingin melatekaannya. Misal saya meletakkannya pada drive “C:/”. Lalu untuk menjalankannya agara dapat mengkonversi PDF file menjadi text, buatlah kode berikut :

$content = shell_exec('C:/xpdf/pdftotext -enc "UTF-8" '.$path.' -');

Penjelasan : $content adalah sebuah variabel yang isinya adalah text hasil konversi dari PDF file. Di dalam $content sendiri kita akan menjalankan library xpdf lalu kode tersebut akan mengkonversi file PDF yang sudah ada pada variabel $path. Variabel $path sendiri tentu dapat anda gunakan untuk mengarahkan file PDF yang akan di konversi. Jadi anda bisa membuat $path menjadi seperti berikut misalnya :

$path='C:\buku\namaebook.pdf';

anda dapat lihat bahwa $path sendiri berisi path dari file PDF yang akan dikonversi..

Selesai..

Selamat mencoba,,,

Semoga membantu,,…😀

12 Responses to [PHP] Convert PDF to text

  1. jun says:

    cara installnya di windows gmn ya mas? saya cb copy aja folder xpdf, tp kok ga bs dipake ya shell_exec itu…? thx

  2. tinggal di copy aja kok mbak.. ga bisa nya gmana mbak?

  3. jun says:

    saya cb jalanin shell_execnya, saya masukin ke $content, tapi saya cb echo $content, ga muncul apa2.
    btw pdftotextnya itu yg file .c kan? ato saya yg salah download ya.

  4. oh, nggak.. dia .exe tipe nya gan..

  5. jun says:

    oh iya, makasi mas, ini udah bisa.. tapi saya coba pake zend malah ga bisa di index hasilnya karena ada ilegal character yg mau di parse ke ASCII..
    trus saya coba ubah perintahnya jadi
    $content = shell_exec(‘C:/xpdf/pdftotext -enc “ASCII” ‘.$path.’ -‘);

    malah ga mau menghasilkan text, ada solusi ga mas agar setelah dijadikan text, $content tsb tetap bisa diindex?

    • jun says:

      udah bisa ni mas, ternyata setelah melakukan pdftotext, hasilnya harus di ubah ke utf_8 versi php dulu ya menggunakan utf_8_decode($data);

      makasi banget mas turorialnya membantu sekali…

  6. iya mas, emang harus ubah ke utf 8 dulu..

  7. brian says:

    numpang tanya mas… ni abis dunlud xpdf nya, trus ni di install ato cm langsung copy aja ke folder?? soalnya ni mw di buat Tugas akhir😀 hahaha hbs dari teks trus langsung ke html😀 makasi sebelumnya😀

  8. brian says:

    maaf mas saya tanya lagi, setelah di konversi ke text dengan code yang mas kasi di atas itu, apakah tampilan dari hasil konversi sama dengan aslinya?? maksud saya tampilan dari konversi sama rapi nya dengan yang pdf… maaf mas, saya termasuk baru dalam php🙂 terima kasih….

  9. Sori2 saya lama bales nya karena lagi banyak kerjaan..
    ga mas, tampilannya ga rapi. Dia hanyalah jadi teks biasa..

    • brian says:

      iya mas ga apa2… ni sudah jadi… sudah aq pakai buat konvert pdf ke html😀 tp lewat 2 jalan, text dulu baru ke html…😀 thx atas perhatiannya dan tutorialnya mas😀 semoga sukses🙂

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: