logi sisse meist KKK

Alustasin äsja oma pythoni-õpinguid. Et ennast motiveerida mõtlesin katsetada algeise eesti keele lemmatiseerijaga. Mõte on alustada EKI lemmatiseerijaga väikese sõnastiku koostamisest, millest saaks hiljem pythonis "sõnaraamatu" luua. Probleem on selles, et mul ei ole õnnestunud EKI lemmatiseerijat tööle saada. Piinlik lugu, aga mul ei ole käsurealt käskluste andmisega kogemusi. Kuivõrd Pinus oli sellest teemast varem juttu olnud, siis äkki keegi oskab aidata. Kuna punkte ei ole, siis ei saa kahjuks algse teema juurde kommentaari lisada:).

küsitud Feb 15 '12 at 17:01

stem's gravatar image

stem
3112

Kui küsimus on mingi süsteemi kasutamise kohta, siis on alati vaja panna kirja, mis süsteem on. Käsurea ettesaamine on erinevates operatsioonisüsteemides erinev.

(Feb 15 '12 at 23:39) Ahto Truu ♦♦

Vabandan. Platvorm on DOS ja mina üritan jooksutada windowsis. Programmi erinevad moodulid on vastavalt pascalis, c-s või c++'s.Kuna ma ei ole päris kindel, milline osa infost on oluline ja milline mitte, siis ma lisan lingi täpsema 'õpetusega': ftp://ftp.eki.ee/pub/keeletehnoloogia/estmorf/99/estmorf.htm . Programm ise leitav: ftp://ftp.eki.ee/pub/keeletehnoloogia/estmorf/

(Feb 16 '12 at 00:06) stem

Algoritm võiks olla umbes selline:

  1. Tee oma arvutisse uus kaust, näiteks c:\temp\estmorf
  2. Lae alla ftp://ftp.eki.ee/pub/keeletehnoloogia/estmorf/estmorf.zip
  3. Ava estmorf.zip, Ctrl-A (select all), Ctrl-C (copy), navigeeri punktis 1 tehtud kausta, Ctrl-V (paste)
  4. Ava käsurida: Win-R (run), kirjuta avanevasse aknasse cmd, vajuta OK
  5. Tipi käsureale cd c:\temp\estmorf
  6. Nüüd saad programmi käivitada, tippides käsureale estmorf

Mingi faili analüüsimiseks on kõige lihtsam kopeerida see c:\temp\estmorf kausta ja siis tippida eelkirjeldatud viisil avatud käsureale estmorf failinimi.laiend. Väljund tehakse vaikimisi faili failinimi.mrf. Näiteks faili test.txt analüüsimiseks tipi estmorf test.txt ja tulemus väljastatakse faili test.mrf.

Vaikimisi Windows ei tea, kuidas mrf laiendiga faile avada. Üks võimalus on avada fail käsurealt, tippides notepad test.mrf. See pole kuigi mugav, sest estmorf produtseerib faili, milles on kasutusel Unixi stiilis reavahetused, aga Notepad ei saa neist aru ning näitab kogu faili ühe pika reana; Wordpad tunneb Unixi stiilis reavahetusi, aga asub uuematel Windowsidel natuke nurgataguses kaustas ja lihtsalt käsureale wordpad test.mrf tippimine ei tööta.

Teine võimalus on teha failil topeltklõps, valida avanevas dialoogiaknas variant Select a program from a list, klõpsata OK, valida järgmisena avanevast nimekirjast Wordpad ja klõpsata veelkord OK. Nüüd avatakse mrf laiendiga failid edaspidi Wordpadi abil.

link

vastatud Mar 05 '12 at 15:44

Ahto%20Truu's gravatar image

Ahto Truu ♦♦
6596711

edited Mar 05 '12 at 15:47

Suur tänu, kõik töötab probleemideta:)

(Mar 06 '12 at 14:29) stem

Veel üks variant lemmatiseerimiseks on TreeTagger, mis oskab ka teha morfoanalüüsi, kuid minu hinnangul kehvemini kui EKI morfoanalüsaator. Ning kahjuks ei oska TreeTagger päris suurt osa sõnu lemmatiseerida.

Näide kasutamisest:

$ tree-tagger-estonian 
        reading parameters ...
        tagging ...
Mängu viimasel veerandajal leidis aset vahejuhtum, kui kalevlaste poolel lõi Keith McLeod Rapla tagameest Martin Dorbekut ning eemaldati mängust.
Mängu   S.com.sg.gen    <unknown>
viimasel        A.pos.sg.ad     viimane+l
veerandajal     S.com.sg.ad     <unknown>
leidis  V.main.indic.impf.ps3.sg.ps.af  leid+is
aset    S.com.sg.part   ase+t
vahejuhtum      S.com.sg.nom    vahe_juhtum+0
,       Z.Com   ,
kui     J.sub   kui+0
kalevlaste      S.com.pl.gen    <unknown>
poolel  S.com.sg.ad     pool+l
lõi     V.main.indic.impf.ps3.sg.ps.af  loo+i|löö+i
Keith   S.prop.sg.nom   <unknown>
McLeod  S.prop.sg.nom   <unknown>
Rapla   S.prop.sg.gen   Rapla+0
tagameest       S.com.sg.part   <unknown>
Martin  S.prop.sg.nom   Martin+0
Dorbekut        S.prop.sg.nom   <unknown>
ning    J.crd   ning+0
eemaldati       V.main.indic.impf.imps.af       eemalda+ti
mängust S.com.sg.el     mäng+st
.       Z.Fst   .
         finished.

Parim lemmatiseerija/morfoanalüsaator eesti keele jaoks on tegelikult Filosofti t3mesta. Kahjuks on tegemist kommertstarkvaraga, kuid neil on olemas veebiliides nii morfoanalüsaatori kui ka lemmatiseerija jaoks.

link

vastatud May 02 '13 at 07:17

Timo%20Petmanson's gravatar image

Timo Petmanson
11

edited May 02 '13 at 07:24

Sinu vastus
lülita eelvaade

Jälgi seda küsimust

By Email:

Pärast sisselogimist saad tellida muudatuse teavitusi siit

By RSS:

Answers

Answers and Comments

Markdown Basics

  • *kaldkiri* või __kaldkiri__
  • **paks kiri** või __paks kiri__
  • link:[tekst](http://url.com/ "pealkiri")
  • pilt?![alt tekst](/path/img.jpg "pealkiri")
  • nummerdatud nimekiri: 1. Foo 2. Bar
  • to add a line break simply add two spaces to where you would like the new line to be.
  • põhilised HTML märgendid on samuti toetatud

Pinu tööpakkumised

kõik pakkumised »

Küsimuse sildid:

×5
×1

küsitud: Feb 15 '12 at 17:01

nähtud: 4,870 korda

viimati uuendatud: May 02 '13 at 07:24

Litsents: Creative Commons Attribution License | Kontakt: info@pinu.ee