NLTK: membuang kata yang tidak penting dan jarang dipakai
Revision as of 05:31, 5 February 2017 by Onnowpurbo (talk | contribs) (Created page with "Untuk membuang kata2 yang tidak penting, langkah-nya * print kata yang frekuensi penggunaannya kecil, misalnya <20 * masukan ke dalam daftar corpus, misalnya, ~/nltk_data/...")
Untuk membuang kata2 yang tidak penting, langkah-nya
- print kata yang frekuensi penggunaannya kecil, misalnya <20
- masukan ke dalam daftar corpus, misalnya,
~/nltk_data/corpora/stopwords/indonesia
cara yang sederhana, menggunakan Python script berikut
import os,nltk,os.path,re,string import argparse from nltk.stem.porter import PorterStemmer from collections import Counter import re ps=PorterStemmer() def hanya_huruf( input ): r=re.match('^[a-zA-Z]+$', input) if r==None: return False else: return True def parse_args(): parser = argparse.ArgumentParser() parser.add_argument('-i', '--infile', default=, help='input filename') return parser.parse_args() args = parse_args() infile = args.infile words = re.findall(r'\w+', open(infile).read().lower()) wordfreqs = Counter(words) for word, count in wordfreqs.items(): if count < 10: # ganti 10 dengan frekuensi yang kita inginkan print word