Scrapping: Google Search

From OnnoWiki
Revision as of 06:07, 29 March 2025 by Onnowpurbo (talk | contribs) (Created page with "Berikut ini adalah '''script Python sederhana''' untuk scraping hasil pencarian Google berdasarkan '''keyword''', lalu '''menyimpan hasilnya ke file (CSV atau TXT)'''. '''Cat...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Berikut ini adalah script Python sederhana untuk scraping hasil pencarian Google berdasarkan keyword, lalu menyimpan hasilnya ke file (CSV atau TXT).

Catatan: Kita tidak bisa scraping langsung dari `https://www.google.com` karena Google melindungi halamannya dengan anti-bot. Sebagai alternatif legal dan lebih stabil, kita bisa gunakan SerpApi (gratis hingga 100 permintaan/bulan) atau Bing Search sebagai fallback. Namun, untuk langsung scraping halaman Google, kita bisa pakai `googlesearch` dari `googlesearch-python`.

✅ Script dengan `googlesearch-python` (tanpa API)

pip install googlesearch-python


from googlesearch import search
import csv

def google_scrape(keyword, num_results=10, output_file='results.csv'):
    print(f"Searching Google for: {keyword}")
    
    # Lakukan pencarian
    results = search(keyword, num_results=num_results)
    
    # Simpan ke file CSV
    with open(output_file, mode='w', newline=, encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Keyword', 'URL'])
        for url in results:
            writer.writerow([keyword, url])
    
    print(f"Saved {len(results)} results to '{output_file}'") 

# Contoh penggunaan
keyword = "berita terbaru teknologi Indonesia"
google_scrape(keyword, num_results=20)

Output

File `results.csv` akan berisi:

Keyword,URL
berita terbaru teknologi Indonesia,https://tekno.tempo.co/...
berita terbaru teknologi Indonesia,https://inet.detik.com/...

Opsi Lain: Versi Tanpa `googlesearch`, Full Scraping (Lebih Riskan)

Kalau kamu ingin versi yang benar-benar scraping HTML dari Google, kamu bisa pakai `requests` dan `BeautifulSoup` tapi kemungkinan akan diblokir atau gagal karena Google deteksi bot. Rekomendasi: pakai proxy atau API seperti SerpApi jika ingin lebih stabil dan legal.


Pranala Menarik