Commit 6f1d415f by Paktalin

finished script for extracting and saving text from urls

parent 5c87a32c
Prast vestlust Theresa Mayga psivad meie positsioonid teineteisest kaugel. Minu valitsus kaitseb alati Hispaania huve. Kui muudatusi ei tehta, siis paneme Brexitile veto, kirjutasSnchez Twitteris prast saabumist Kuubale.
Madrid taotleb leppes vetoigust Gibraltari tulevase staatuse le, kuid leppe visandis seda otsesnu riigile antud ei ole.
Ent olude sunnil tuli kodumaa kutsel siiski hrjal sarvist haarata. Nii lendaski Tobreluts eile peatreenerina elu esimesele MK-etapile Sloveeniasse Pokljukasse, vahetult enne seda rkis Postimehele tehtust ja eelseisvast.
Indrek, mullu samal ajal olid novembrivuntsiga abitreener. Nd oled vuntsita pealik. Kui palju on sinu jaoks muutunud?
Sel aastal pole testi enam mahti vuntsile keskenduda. Varem jlgisin protsessi pigem krvalt ega sekkunud eriti, nd saan vastavalt oma kogemusele ja ngemusele ke klge panna ja otseselt mjutada. Peame tdema, et tulemuste kver liigub jrjekindlalt allamge. Kas suudan olukorda parandada, seda nitab aeg. Igatahes oleme lhenemist muutnud.
Milles muutused seisnevad?
Oleme suurendanud treeningute intensiivsust ning erialase ju ja vastupidavuse osakaalu. Nen, et nende tegurite arvelt viks areng eelkige toimuda. Aga liigume vikeste sammudega, sest muidu jrgneks suure tenosusega terviserikked vi muud hdad. Mul on jnud mulje, et Eestis leidub sportlasi, kes pavad harjutada samamoodi nagu niteks Martin Johnsrud Sundby vi Marit Bjrgen ja tegelikult seal oma karjri ka lpetavad. ritame selliseid riske vltida ning kia ja uskuda oma tee igsusse. Esimesi vahekokkuvtteid saab teha kevadel.
Kas saan igesti aru, et peamine mte on parandada suusakiirust?
Eile hommikul prast rkamist avas Arnold Rutto esimese asjana arvuti, et kontrollida politsei- ja piirivalveameti (PPA) kodulehelt, kas ema saab viimaks ktte oma passi ja ID-kaardi. See on viimasel ajal kujunenud osaks tema pevarutiiniks.
Taotlus on menetlusse vetud, on kiri ekraanil elnud juba aga viimased kolm kuud. Nii ka eile, mil tema ema Alli Rutto pass kaotas kehtivuse.
Pev prast finaalmati ja hbemedali kaelariputamist siinkirjutajaga vesteldes oli Mgisalu ikka veel emotsionaalne ja snade leidmine vttis aega. Kik see tundub mulle endiselt uskumatu! rkis vndralane, kes tunnistas, et EMi hbemedal andis talle kvasti enesekindlust ja indu armastatud alaga edasi tegelda ja sihte seada. Kuna meil oli niikuinii plaanis kaalu vahetada, sai nd selgeks, et saame seda teha tunduvalt varem ja positiivse emotsiooni pealt. Sihime Tokyo 2020. aasta olmpiat juba uues kaalus.
Seatud eesmrgi ja kaaluvahetuse taga oli tsiasi, et olmpiamngude kavas pole kuni 55kilostel maadlejatel kohta, kll on seda 60kiloste kategoorias. Nd on Ivar Kotka 21 aastasel pilasel uues kaalus, kuni 60kiloste seas tuleristsed juba saadud: juunis U23 EMil oli ta 12. ja eelmisel ndalal sama vanade MMil 23.
Tagasihoidlikud tulemused, kui arvestada, et tiskasvanute EMilt tuli hbe, kuid nagu maadleja jutust selgub, vajab ndne kaalukategooria veel harjumist.
Ndal tagasi ti politsei Tallinnas Tuukri tnavale rajatava hoone katuselt alla grusiin Zurab Kakavili, kes lubas visata Molotovi kokteili ja seejrel alla hpata. Oleg Ossinovski ehitusfirma objektil kipsitid teinud grusiinide meeskonna juhi ajas nii ekstreemse sammuni pikalt kdenud tli raha prast.
Arendusteks on ettevtetel aega olnud pool aastat. Riigi infossteemi amet (RIA) korraldas jaanipeva eel koolituse, kus selgitati, mis uute ID-kaartidega muutub, ja jagati abistavaid juhendeid.
Lne-Virumaal on kaheksa omavalitsust. Mjukate edetabeli koostamiseks saatis Virumaa Teataja ksimustiku igale kohalikule rahvasaadikule ning valla- ja linnajuhile. Selleks et valikut lihtsustada, reastas Virumaa Teataja toimetus heksakmmend nime, kes toimetuse meelest vastavad enim mjukuse eelmainitud kriteeriumitele. Samas ji rahvasaadikuile vabadus lisada nimekirja nende inimeste nimesid, kes vrivad esiletstmist. Tasub mrkida, et aktiivseimad kaasaljad olid just viksemate omavalitsuste ning maapiirkondade esindajad.
Traditsiooniline salaami, Matsimoka O
Voldemar Hallikmaa, O Fenix Group
Allhanketde tegemist ehitus- ja laevandussektorile alustati Arkna vanas katlamajas 2001. aasta sgisel, 2006. aastal ka metsatehnika tootjatele. Arknal oli vaba pinda, mille saime rile vtta ja hiljem ka endale osta, phjendas ettevtte juhataja Aivo Saar, miks valiti just see paik. Ndseks on hooned, kus esimestel aastatel tegutseti, kokku lkatud ja nende asemele pstitatud moodne tootmiskompleks.
Top Marine tegutses esimesed paar aastat vahendusfirmana. Otsisime Eestis tootjad-tarnijad ja vahendasime sadamakaupa Soome, rkis Andry Prodel. Kuni 2007. aastani tegutseti Sauel, siis aga avanes vimalus osta kunagine Rakvere KEK-i puidutsehh Npil.
Tiheda konkurentsi tingimustes tuleb Vetiku tlusel vaadata tnasest pevast ettepoole. Eritellimusel mbli valmistamine on nii talle kui ka vend Tnule hingelhedane, kuid pelgalt tellimustdele panuseid panna ning loota, et niimoodi psima jdakse, ei pea mehed mistlikuks. Tuleb ikkagi minna seda teed, et meil on oma kollektsioon ja mingid standardtooted, tleb Janek Vetik.
import pandas as pd import pandas as pd
from util import get_postimees_urls, get_text from util import get_text, write_to_file
from preprocessing import get_preprocessed_verbs from preprocessing import get_preprocessed_verbs
from postimees import get_postimees_urls
import progressbar import progressbar
import numpy as np import numpy as np
from tqdm import tqdm from tqdm import tqdm
print("getting verbs...") print("getting verbs...")
verbs = get_preprocessed_verbs() verbs = get_preprocessed_verbs()
print(verbs)
# retrieve liks to postimees articles
print("getting postimees urls...") print("getting postimees urls...")
postimees_urls = get_postimees_urls() postimees_urls = get_postimees_urls()
print("extracting text from the urls...") print("extracting text from the urls...")
articles = [] articles = []
for i in tqdm(range(len(postimees_urls))): for i in tqdm(range(len(postimees_urls))): # loading bar
url = postimees_urls[i] url = postimees_urls[i]
articles.append(get_text(url)) articles.append(get_text(url))
write_to_file(articles, 'articles.txt')
# try to find a verb in an article # # try to find a verb in an article
for column in verbs: # for column in verbs:
verb_form = verbs.iloc[2][column] # verb_form = verbs.iloc[2][column]
if type(verb_form) is str: # if type(verb_form) is str:
print(verb_form) # print(verb_form)
print(str(articles[0].find(verb_form))) # print(str(articles[0].find(verb_form)))
\ No newline at end of file \ No newline at end of file
from util import get_soup, write_to_file
def get_postimees_urls():
return open("postimees_urls.txt", "r").read().split('\n')
def save_postimees_urls():
urlpage = 'https://www.postimees.ee/search?sections=81&page='
url_list = []
page_index = 0
while True:
print("Scraping page " + str(page_index))
try:
soup = get_soup(urlpage + str(page_index))
results_list = soup.find_all("span", {'class': "search-result__headline flex--equal-width"})
for result in results_list:
url_list.append(result.find("a", href=True)['href'])
except Exception as e:
print("Extracted links from %i pages" % page_index)
break
page_index += 1
write_to_file(url_list, 'postimees_urls.txt')
return url_list
\ No newline at end of file
This source diff could not be displayed because it is too large. You can view the blob instead.
...@@ -18,22 +18,10 @@ def get_soup(url): ...@@ -18,22 +18,10 @@ def get_soup(url):
page = urllib.request.urlopen(url) page = urllib.request.urlopen(url)
return BeautifulSoup(page, 'html.parser') return BeautifulSoup(page, 'html.parser')
def get_postimees_urls(): def write_to_file(list, path):
urlpage = 'https://www.postimees.ee/search?sections=81&page=' with open(path, 'w') as file:
links_list = [] for line in list:
page_index = 248 file.write(line + "\n")
while True:
print("Scraping page " + str(page_index))
try:
soup = get_soup(urlpage + str(page_index))
results_list = soup.find_all("span", {'class': "search-result__headline flex--equal-width"})
for result in results_list:
links_list.append(result.find("a", href=True)['href'])
except Exception as e:
print("Extracted links from %i pages" % page_index)
break
page_index += 1
return links_list
def get_text(article_url): def get_text(article_url):
article_text = "" article_text = ""
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or sign in to comment