newsmix

Motorasul de cautare cel viteaz

In Uncategorized on Octombrie 9, 2008 at 11:15 am

____Problema noastra parea integrarea de tehnologii. Sau cel putin asa credeam.

____Obiectivul era construirea unui motor care sa permita atat strangerea de informatii din mass media cat si, mai ales, data mining in aceste date.

____Cand spun integrare nu ma refer la lipirea cu banda scotch a catorva softulete open source. Asa fac mai toti, e banal. Noi ne-am ridicat stacheta mai sus. Mai exact, ponderea componentelor software „fermentate in distileria proprie” este foarte mare.

____Am folosit material academic, alaturi de experienta si inspiratie proprie, am vanat idei atat din articolele stiintifice gazduite de reviste de specialitate cat si din discutii cu ziaristi si cititori de factura clasica (IT-proofed).

***

____Ce face motorul/tehnologia dezvoltata de noi?

Una la mana:

____Descompunem informatia continuta de articolele de presa, precum un macelar transeaza mielul de Paste. Cuvintele comune sunt puse deoparte pentru drob, cele proprii altundeva pentru ciorba, mizeriile necomestibile, precum cuvintele de legatura, sunt aruncate la gunoi. Nimic nu scapa neetichetat, nenumarat si necuratat.

____Bunica avea o gluma uzata: „- Unde devine boul vaca?”, „- La macelarie!”. Dupa aceasta logica hecatombica, cuvintele sunt indexate dupa radacina lor, prin „taierea” partii terminale. Uh, that’s gotta hurt!

____Astfel, branza, branzica, branzei, branzelor sunt vazute ca reprezentante ale aceluiasi concept mioritic. ATENTIE!, un lingvist ar zice ca ceea ce facem noi e reducerea cuvintelor la radicalul lor etimologic. FALS! Noi ne-am rupt spinarea sa inventam un algoritm care sa reduca cuvintele la radicalul lor semantic. Des-sufixizarea propusa de lingvisti nu este utila in demersul nostru; pentru ei branzoaica este in aceeiasi familie cu cheese-urile de mai sus, in vreme ce noi o socotim aparte, ca un concept derivat dpdv lingvistic, dar de sine statator ontologic.

Doua la mana:

____Preluam masa de cuvinte extrase din fiecare articol si construim replici/imagini alternative sintetice ale articolelor, asa cum bucatarii folosesc maruntaiele transate de macelar pentru prepararea bucatele traditionale de Craciun. Alcatuim asa numitele de noi „radiografii” ale articolelor. Tot aici se fac cuplarile termenilor proprii in sintagme, apar timid ceea ce mai tarziu vom recunoaste drept personaje, locuri, institutii … Miroase a sarmale? E de la noi!

Trei la mana:

____Asezam toata informatia de sinteza statistica intr-o baza de date, creand legaturi intre toate elementele naturale ale acestui sistem: articole, surse, dictionare de termeni comuni si proprii, elemente de sinonimie directa si de etichetare sinonimica. Asta seamana clar cu bagatul la cuptor al bucatelor. Gusturile se intrepatrund, fibrele se imoaie … Houston, we have a meal!

Patru la mana:

____Folosind baza de date, raspundem rapid la o serie de intrebari specifice: cautari de termeni, asocieri de termeni, ierarhizari de personaje, evolutia cotelor de vizibilitate, rezumate de texte, asocieri de articole. Uuuh-haaaa! E clara imaginea? Am schimbat pe rand sortul de macelar cu boneta de bucatar, iar acum e vremea sa ne punem uniforma de chelner si servetul pe mana. Ne sosesc primii clienti! Intri si tu sa gusti ceva?

de Catalin Cucu-Dumitrescu

Anunțuri
  1. Ideea asta am avut-o si eu acum un an jumate. A rezultat deocamdata un site care aduna stiri din presa romaneasca si straina. http://www.news-blog.ro . Are peste un milion de titluri, majoritatea catalogate pe domenii iar sursele html salvate in baza de date. Partea de cautare si indexare a acestor informatii am abandonat-o, din pacate, din lipsa unui server puternic care sa faca aceasta operatiune. V-ar interesa o colaborare de vreun fel?

Lasă un răspuns

Completează mai jos detaliile tale sau dă clic pe un icon pentru a te autentifica:

Logo WordPress.com

Comentezi folosind contul tău WordPress.com. Dezautentificare / Schimbă )

Poză Twitter

Comentezi folosind contul tău Twitter. Dezautentificare / Schimbă )

Fotografie Facebook

Comentezi folosind contul tău Facebook. Dezautentificare / Schimbă )

Fotografie Google+

Comentezi folosind contul tău Google+. Dezautentificare / Schimbă )

Conectare la %s

%d blogeri au apreciat asta: