Scrapping: Google Search

From OnnoWiki
Jump to navigation Jump to search

Berikut ini adalah script Python sederhana untuk scraping hasil pencarian Google berdasarkan keyword, lalu menyimpan hasilnya ke file (CSV atau TXT).

Catatan: Kita tidak bisa scraping langsung dari `https://www.google.com` karena Google melindungi halamannya dengan anti-bot. Sebagai alternatif legal dan lebih stabil, kita bisa gunakan SerpApi (gratis hingga 100 permintaan/bulan) atau Bing Search sebagai fallback. Namun, untuk langsung scraping halaman Google, kita bisa pakai `googlesearch` dari `googlesearch-python`.

✅ Script dengan `googlesearch-python` (tanpa API)

pip install googlesearch-python nltk matplotlib wordcloud


from googlesearch import search
import csv

def google_scrape(keyword, num_results=40, 
output_file='results.csv'):
    print(f"Searching Google for: {keyword}")

    # Lakukan pencarian dan ubah hasil ke dalam list
    results = list(search(keyword, num_results=num_results)) 

    # Simpan ke file CSV
    with open(output_file, mode='w', newline=, encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Keyword', 'URL'])
        for url in results:
            writer.writerow([keyword, url])

    print(f"Saved {len(results)} results to '{output_file}'")

# Contoh penggunaan
keyword = "berita terbaru teknologi Indonesia"
google_scrape(keyword, num_results=40)

Output

File `results.csv` akan berisi:

Keyword,URL
berita terbaru teknologi Indonesia,https://tekno.tempo.co/...
berita terbaru teknologi Indonesia,https://inet.detik.com/...

Opsi Lain: Versi Tanpa `googlesearch`, Full Scraping (Lebih Riskan)

Kalau kamu ingin versi yang benar-benar scraping HTML dari Google, kamu bisa pakai `requests` dan `BeautifulSoup` tapi kemungkinan akan diblokir atau gagal karena Google deteksi bot. Rekomendasi: pakai proxy atau API seperti SerpApi jika ingin lebih stabil dan legal.


Pranala Menarik