Python: Ubuntu 24.04 read pdf

From OnnoWiki
Jump to navigation Jump to search

Untuk membaca file PDF di Ubuntu 24.04 menggunakan Python, Anda dapat memanfaatkan pustaka `PyPDF2`. Berikut adalah langkah-langkah yang perlu Anda ikuti:

Instalasi PyPDF2:

Pastikan Anda telah menginstal `pip`, manajer paket Python. Jika belum, instal dengan perintah berikut:

sudo apt update
sudo apt install python3-pip

Setelah itu, instal `PyPDF2` menggunakan `pip`:

pip3 install PyPDF2
  ```

Membaca File PDF:

Setelah instalasi selesai, Anda dapat menggunakan kode berikut untuk membaca dan menampilkan teks dari file PDF:

import PyPDF2
# Buka file PDF
with open('nama_file.pdf', 'rb') as file:
     reader = PyPDF2.PdfReader(file)
     # Mendapatkan jumlah halaman
     num_pages = len(reader.pages)
     # Membaca setiap halaman
     for page_num in range(num_pages):
         page = reader.pages[page_num]
         text = page.extract_text()
         print(f"Halaman {page_num + 1}:\n{text}\n")

Gantilah `'nama_file.pdf'` dengan path atau nama file PDF yang ingin Anda baca.

Perlu dicatat bahwa `PyPDF2` memiliki keterbatasan dalam mengekstrak teks dari beberapa file PDF, terutama yang memiliki format kompleks atau teks yang dienkripsi. Jika Anda mengalami masalah dalam mengekstrak teks, pertimbangkan untuk menggunakan pustaka lain seperti `pdfplumber` atau `PyMuPDF` (`fitz`) yang mungkin menawarkan hasil yang lebih baik untuk kasus tertentu.

Untuk informasi lebih lanjut tentang penggunaan `PyPDF2`, Anda dapat merujuk ke dokumentasi resmi di [1](https://pythonhosted.org/PyPDF2/).

Pranala Menarik