SenDiS

   
 

Programul Operaţional Sectorial Creşterea Competitivităţii Economice

Investiţii pentru viitorul dumneavoastră”

<<Concepţia, proiectarea şi implementarea unui sistem general de dezambiguizare
cu aplicaţie pentru limba română şi engleză>>

 „Proiect cofinanţat prin Fondul European de Dezvoltare Regională”

Conţinutul acestui material nu reprezintă în mod obligatoriu poziţia oficială a Uniunii Europene sau a Guvernului României.    

           Departamentul R&D din cadrul SC SOFTWIN SRL continuă cercetarea în domeniul prelucrării limbajului natural (NLP -Natural Language Processing), cu implementarea unui proiect de cercetare, cu titlul “Concepţia, proiectarea şi implementarea unui sistem general de dezambiguizare cu aplicaţie pentru limba română şi engleză”, acronim SenDiS, proiect cofinanţat prin Fondul European de Dezvoltare Regională, Programul Operaţional Sectorial „Creşterea Competitivităţii Economice”, Axa prioritară 2 - Competitivitate prin cercetare dezvoltare tehnologică şi inovare, Operatiunea 2.1.2: Proiecte C-D de inalt nivel stiintific la care vor participa specialisti din strainatate.

     Scopul proiectulului SenDiS este concepţia, proiectarea şi implementarea unui sistem de dezambiguizare cu caracter general (i.e. utilizabil pentru orice limbă naturală), urmărind obţinerea unui API cu un grad înalt de aplicabilitate ulterioară şi cu şanse reale de a fi exploatat cu succes în aplicaţii comerciale. Pentru aceasta se va parcurge întreg procesul de cercetare-dezvoltare: dezvoltare de metodologii noi de abordare, îmbunătăţirea tehnicilor existente, proiectare, realizare experimentală (prototip) şi testare/validare. Datorită vastei experienţe în domeniu a întreprinderii gazdă, SOFTWIN, fiind lider de piaţa în Romania în materie de soluţii informatice, rezultatele obţinute vor putea fi aplicate direct în economie, răspunzand la o cerere de piaţă din ce în ce mai diversă.  Aplicarea acestui sistem pentru limbile română şi engleză prin crearea bazelor de cunoştinţe de dezambiguizare va demonstra funcţionalitatea şi va stabili parametrii de funcţionare a algoritmilor propuşi. Exploatarea acestei componente pe piaţa comercială de către instituţia gazdă, SOFTWIN, se va face prin integrarea sa într-un set de aplicaţii de prelucrare a limbajului natural (Natural Language Processing - NLP), dintre care un rol important îl va avea sistemul de traducere automată. Prin realizarea obiectivului proiectului SenDiS şi apoi prin intregrarea acestui modul cu alte componente NLP dezvoltate de echipa de cercetare a instituţiei gazdă, în vederea obţinerii de produse cu un grad ridicat calitativ, se prevăd premisele unor noi standarde de calitate şi de performanţă în industria aplicaţiilor care oferă servicii de lingvistică computaţională, traducere şi chiar căutarea informaţiilor.

     Prin obiectivele specifice care vor fi realizate în cei 3 ani de cercetare - dezvoltare, proiectul este adecvat ariei tematice 6 - “Tehnologia informaţiei şi comunicaţii” din cadrul operaţiunii 2.1.2:
  - Definirea unor metode şi tehnici de dezambiguizare a limbilor naturale, bazate cu precădere pe exploatarea şi prelucrarea cunoştinţelor deduse dintr-un lexicon.
  - Realizarea unor instrumente care permit crearea, mentenanţa şi utilizarea resurselor lingvistice privind dezambiguizarea, independente de limba de exploatare a cunoştinţelor lingvistice.
  - Realizarea unor module (API – Application Program Iterface) care să permită execuţia dezambiguizării, utilizabile în diverse aplicaţii care implică prelucrarea limbajului natural.
  - Dezvoltarea unor baze de cunoştinţe complexe de dezambiguizare pentru limbile română şi engleză.
  - Demostrarea viabilităţii sistemului de dezambiguizare dezvoltat, prin aplicarea lui pe modelul experimental pentru cele două limbi din sistem.
Sistemul SenDiS se bazează pe sistemul GRAALAN (a se vedea S. Diaconescu: Crearea resurselor lingvistice cu ajutorul unui limbaj specializat, in Workshop on Linguistic resources and tools for Romanian language processing, Iassi, 2006), precum şi pe o serie de aspecte specifice de dezambiguizare.
  1) Sistemul GRAALAN oferă sistemului SenDiS o bază atât teoretică (gramaticile de tip generativ şi de dependenţe GDG – "Generative Dependency Grammars" - , arbori de dependente DT – "Dependency Tree", arbori de tip atribut / valoare AVT – "Attribute Value Tree"), cât şi practică, prin intermediul bazelor de cunoştinţe lingvistice deja create.
  2) Aspectele specifice de dezambiguizare privesc o modalitate de abordare cu caracter general care implică:
     - structurarea lexiconului ca o reţea de sensuri (înţelesuri);
     - modalităţile de reprezentare a lexiconului ca reţea, ţinând cont de volumul sau/şi necesităţile de exploatare rapidă (circa 150.000 – 250.000   sensuri, 2.000.000 – 3.000.000 relaţii între sensuri);
    - modalităţi de ordonare a reţelei lexicon pentru a obţine un optim după diverse criterii: număr de niveluri în reţeaua ordonată, număr de primitive (sensuri la definirea cărora nu participă alte sensuri, deci care se acceptă fără definiţie), număr de universali (sensuri care nu contribuie la definirea altor sensuri);
    - stabilirea mulţimilor de definiţie pentru fiecare sens (mulţimea sensurilor care contribuie direct sau indirect la definiţia sensului curent);
    - stabilirea mulţimilor de competenţă pentru fiecare sens (mulţimea sensurilor la definiţia cărora sensul curent participa direct sau indirect);
   - obţinerea propriu-zisă a dezambiguizării prin exploatarea tuturor informaţiilor de mai sus (prin operaţii cu mulţimile de definiţie şi de competenţă).
     Aceste probleme necesită studii aprofundate privind proprietăţile şi optimizarea, astfel încât algoritmii stabiliţi să fie eficient implementaţi în instrumentele cu care să se creeze şi să se prelucreze cunoştinţele necesare dezambiguizării, precum şi în aplicaţiile efective de dezambiguizare.

    Arhitectura sistemului
Sistemul SenDiS conţine trei subsisteme descrise şi la capitolul Descrierea componentelor proiectului:
   i) Subsistemul de creare a DLKB (Disambiguation Linguistic Knowledge Base). Acest susbsistem primeşte ca intrare un lexicon (GRAALAN sau eventual, prin mecanisme specifice de conversie, alte tipuri de lexicoane care conţin însă informaţiile minimale necesare structurate într-un mod adecvat: cuvinte, sensuri, glose) şi produce sub controlul utilizatorului lingvist o reţea lexicon neordonată cu anumite relaţii între diversele sensuri prezente.
   ii) Subsistemul de prelucrare a reţelei lexicon. Acest susbsistem primeşte ca intrare o reţea lexicon neordonată (un graf aproape complet) şi produce la ieşire o reţea lexicon ordonată (un graf ordonat pe niveluri, cu un număr minimal de legături), cu un număr de niveluri, un număr de primitive, un număr de vârfuri (universalii) şi un număr de legături inverse "tăiate".
   iii) Subsistemul de dezambiguizare propriu-zisă. Acesta este de fapt un API integrabil într-o aplicaţie de dezambiguizare care, primind ca intrare un text oarecare şi o reţea lexicon ordonată, va produce la ieşire un text dezambigizat în care fiecare cuvânt va fi adnotat cu sensul corespunzător.
     Principiul de funcţionare al acestor subsisteme este cel reprezentat în schema de mai jos:

  

     Proiectul va fi împărţit în 6 etape de cercetare-dezvoltare, la sfârşitul cărora se vor face raportări ale stadiului şi ajustări, dacă este nevoie, a planificării fazelor următoare. Fiecare dintre aceste etape este bine determinată de intrări din etapa anterioară şi ieşiri caracteristice activităţilor derulate care vor fi utilizate în fazele ulterioare. Prima etapă va avea ca intrare propunerea de proiect şi planul de afaceri şi va produce la ieşire planul de proiect, un studiu detaliat privind metodele de dezambiguizare utilizate în aplicaţiile existente şi specificaţia preliminară a sistemului de dezambiguizare. Etapele 2 şi 3 sunt etapele în care se vor specifica algoritmii utilizaţi şi se vor implementa modele experimentale pentru următoarele componente: instrumentul pentru crearea bazelor de cunoştinţe de dezambiguizare, metode de ordonare a reţelei de sensuri şi algoritmi pentru aplicaţia de dezambiguizare. În etapele 4 şi 5 se vor descrie, utilizându-se instrumentul din etapa 2, modele experimentale, baze minimale de dezambiguizare, pentru limbile română şi engleză şi se va efectua evaluarea şi ajustarea algorimilor de optimizare a reţelei şi de dezamiguizare din etapa 3, conform rezultatelor obţinute pe cele două baze de cunoştinţe. Etapa 6 va utiliza algoritmii optimizaţi din etapele 4 şi 5 şi îi va integra într-un modul API, care va fi apoi integrat într-un prototip de sistem de dezambiguizare aplicat pe o bază completă de dezambiguizare a limbii române, care va reprezenta atingerea obiectivului final al fazei de cercetare şi dezvoltare din proiectul SenDiS şi verificarea practică a acestuia.

   Proiectul implică activităţi de cercetare industrială şi dezvoltare tehnologică, care se vor desfăşura pe o perioadă de 36 de luni, având un buget total de aproximativ 500.000 Euro. Finanţarea nerambursabilă obţinută la semnarea contractului în 2010 fiind în valoare de 935.413 Lei, din care 776.392,79 Lei din FEDR şi 159.020,21 Lei din bugetul naţional.     

Pentru informaţii detaliate despre celelalte programe cofinanţate de Uniunea Europeană, vă rugăm vizitaţi www.fonduri-ue.ro.
 

Acest site foloseşte cookie-uri. Folosim cookie-uri pentru analiza şi îmbunătăţirea site-ului, personalizarea vizitei, marketing şi reclamă. Prin navigarea pe acest site, vă exprimaţi acordul asupra folosirii cookie-urilor în aceste scopuri. Citiți mai mult.