Scrapping: Google Search
Berikut ini adalah script Python sederhana untuk scraping hasil pencarian Google berdasarkan keyword, lalu menyimpan hasilnya ke file (CSV atau TXT).
Catatan: Kita tidak bisa scraping langsung dari `https://www.google.com` karena Google melindungi halamannya dengan anti-bot. Sebagai alternatif legal dan lebih stabil, kita bisa gunakan SerpApi (gratis hingga 100 permintaan/bulan) atau Bing Search sebagai fallback. Namun, untuk langsung scraping halaman Google, kita bisa pakai `googlesearch` dari `googlesearch-python`.
✅ Script dengan `googlesearch-python` (tanpa API)
pip install googlesearch-python nltk matplotlib wordcloud
from googlesearch import search import csv def google_scrape(keyword, num_results=40, output_file='results.csv'): print(f"Searching Google for: {keyword}") # Lakukan pencarian dan ubah hasil ke dalam list results = list(search(keyword, num_results=num_results)) # Simpan ke file CSV with open(output_file, mode='w', newline=, encoding='utf-8') as file: writer = csv.writer(file) writer.writerow(['Keyword', 'URL']) for url in results: writer.writerow([keyword, url]) print(f"Saved {len(results)} results to '{output_file}'") # Contoh penggunaan keyword = "berita terbaru teknologi Indonesia" google_scrape(keyword, num_results=40)
Output
File `results.csv` akan berisi:
Keyword,URL berita terbaru teknologi Indonesia,https://tekno.tempo.co/... berita terbaru teknologi Indonesia,https://inet.detik.com/...
Opsi Lain: Versi Tanpa `googlesearch`, Full Scraping (Lebih Riskan)
Kalau kamu ingin versi yang benar-benar scraping HTML dari Google, kamu bisa pakai `requests` dan `BeautifulSoup` tapi kemungkinan akan diblokir atau gagal karena Google deteksi bot. Rekomendasi: pakai proxy atau API seperti SerpApi jika ingin lebih stabil dan legal.