Kako napraviti web bota
Tražilice, poput Googlea ili Yahooa!, povlače web-stranice u svoje rezultate pretraživanja pomoću web-botova (koji se ponekad nazivaju i pauci ili pretraživači), koji su programi koji skeniraju internet i indeksiraju web-stranice u bazu podataka. Web botovi mogu se izraditi pomoću većine programskih jezika, uključujući C, Perl, Python i PHP, a svi oni omogućuju softverskim inženjerima da pišu skripte koje obavljaju proceduralne zadatke, kao što su web skeniranje i indeksiranje.
1. korak
Otvorite aplikaciju za uređivanje običnog teksta, kao što je Notepad, koja je uključena u Microsoft Windows, ili TextEdit za Mac OS X, gdje ćete stvoriti Python web bot aplikaciju.
2. korak
Pokrenite Python skriptu uključivanjem sljedećih redaka koda i zamjenom primjera URL-a s URL-om web stranice koju želite skenirati i naziva primjera baze podataka s bazom podataka koja će pohranjivati rezultate:
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
3. korak
Uključite sljedeće retke koda kako biste definirali redoslijed operacija koje će web-bot slijediti:
def uniq(seq):set ={} map(set.setitem , seq, []) vrati set.keys()
4. korak
Nabavite URL-ove u strukturi web stranice pomoću sljedećih redaka koda:
def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', content) urls =[] return urls
Korak 5
Definirajte bazu podataka koju će web-bot koristiti i navedite koje informacije treba pohraniti da dovrši izradu web-bota:
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
Korak 6
Spremite tekstualni dokument i prenesite ga na poslužitelj ili računalo s internetskom vezom gdje možete izvršiti skriptu i započeti skeniranje web stranica.