Limbile moarte sunt descifrate, traduse prin algoritmi de învățare automată - Rocket
Societatea Limbilor Moarte
Majoritatea limbilor care au existat odată nu mai sunt vorbite de oameni astăzi. Printre limbile dispărute, moarte, le putem găsi în principal pe cele pe care le considerăm pierdute sau „nedescifrate”, nu știm suficient despre gramatica, vocabularul, sintaxa lor pentru a înțelege textele lor.
Cercetătorii MIT au studiat limba ugră legată de ebraică, pe care lingviștii au descifrat-o anterior, pentru a crea un sistem adecvat pentru descifrarea limbilor pierdute. (Foto: SRK Branavan)
Cercetarea limbilor pierdute este necesară, deoarece fără aceasta, cunoașterea întregului grup etnic care a trăit odată va fi pierdută pentru omenire. Din păcate, știm atât de puține despre majoritatea lor, încât oamenii de știință nici măcar nu le pot descifra folosind algoritmi avansați de învățare automată precum Google Translate. Unii dintre ei nu au nici măcar o persoană asemănătoare bine cercetată cu care să se compare și adesea le lipsesc separatorii tradiționali, cum ar fi spațiile și punctuația.
Sistemul de cercetare al Laboratorului MIT de Informatică și Inteligență Artificială (CSAIL) este capabil să descifreze automat un limbaj mort, astfel încât relația sa cu alte limbi să fie cunoscută. Prin excluderea conexiunii dintre limbile iberică și bască, s-a demonstrat, de asemenea, că noul sistem este capabil să determine conexiunile dintre limbi în mod independent.
Scopul cercetătorilor este ca sistemul lor să poată descifra orice limbă moartă folosind câteva mii de cuvinte care au rezistat eforturilor lingviștilor de zeci de ani.
Scrierea liniară B, o scriere în silabe folosită de civilizația grecească miceniană adică Din 1450. (imagine: Wikipedia)
Diavolul în detalii
„Sistemul se bazează pe o serie de principii bazate pe cunoștințe din lingvistica istorică, cum ar fi faptul că limbile pot evolua de obicei doar într-un anumit mod previzibil. De exemplu, în timp ce o anumită limbă rareori adaugă sau șterge un sunet întreg, anumite substituții sonore „Cuvântul„ p ”se poate schimba în„ b ”în limba maternă, dar schimbarea la„ k ”este mai puțin probabilă din cauza decalajului semnificativ de pronunție”, a spus Regina Barzilay, profesor MIT condus de echipa de cercetare.
Încorporând alte constrângeri lingvistice ca aceasta, Barzilay și Jiaming Luo, doctorand la MIT, au dezvoltat un algoritm de descifrare care poate gestiona marea vastă de transformări posibile și inadecvarea principiului de organizare a datelor de intrare. Algoritmul învață să insereze sunetele limbajului într-un spațiu multidimensional în care diferențele de pronunție se reflectă în distanța dintre vectorii corespunzători. Acest design structural permite ca modelele relevante ale schimbării limbajului să fie surprinse și exprimate ca o specificație de calcul.
Modelul rezultat este capabil să separe fiecare cuvânt în limba antică și să-l mapeze, traducându-l practic în echivalenții unei limbi înrudite.
Proiectul în sine se bazează pe studiul de anul trecut realizat de Barzilay și Luo, în care limbile Ugar și B liniare au fost descifrate ca test. Descifrarea celor din urmă a durat decenii. Cu toate acestea, în aceste limbi, echipa știa că acestea sunt legate de primele forme ale ebraicii și respectiv ale grecești.
Investigează software-ul
În timpul funcționării noului sistem, relația dintre limbi este dedusă doar de algoritm. Această caracteristică este, apropo, una dintre cele mai mari provocări în rezolvarea unor puzzle-uri similare. Pentru liniarul B, de exemplu, a fost nevoie de decenii pentru a identifica corect limba descendentă. Și încă nu există un consens în rândul cercetătorilor cu privire la limba iberică cu privire la limba asociată cu aceasta: există cei care susțin basca, alții spun că limba iberică nu are legătură cu nicio limbă cunoscută.
Noul algoritm este capabil să evalueze apropierea reală a două limbaje umane. Alergând în limbi familiare, testându-și abilitățile, a reușit să identifice cu precizie familiile de limbă implicate.
Majoritatea scrierilor care au supraviețuit Scrierilor liniare B provin din Knossos (insula Creta) și Pylos (peninsula Pelloponese). Micenienii din textele supraviețuitoare sunt în greacă, care este o versiune timpurie a grecii moderne. (Imagine: Wikipedia)
Vorbind despre sarcinile viitoare, cercetătorii speră să poată extinde munca dincolo de legarea textelor la cuvinte conexe într-o limbă cunoscută, numită „soluție bazată pe relative”. Această paradigmă se bazează pe existența unei astfel de limbi cunoscute, dar exemplul limbii iberice a arătat că acest lucru nu este întotdeauna cazul. Prin urmare, cercetătorii propun și o nouă abordare care implică identificarea semnificației semantice a cuvintelor, chiar dacă nu știu cum să le citească.
„De exemplu, putem identifica referințe la toate persoanele sau locațiile din document, care pot fi apoi examinate în continuare în lumina dovezilor istorice cunoscute. Aceste metode bazate pe entități sunt adesea utilizate în diverse aplicații de procesare a textelor în prezent și sunt foarte exacte, dar cea mai importantă întrebare de cercetare este dacă este fezabil fără ca datele de instruire să fie introduse în algoritmul vechi al limbajului ”, a subliniat Barzilay dificultățile lucrului. Proiectul a fost susținut parțial de Activitatea de proiecte de cercetare avansată de inteligență (IARPA).
- Digitalizați proprietarul în trei dimensiuni cu prima brățară de fitness Amazon - Rocket
- Speranța poate fi vindecată cu ajutorul nanoparticulelor care ucid cancerul - Racheta
- Învățarea pe tot parcursul vieții (LLL) și Învățarea pe tot parcursul vieții (LWL) - Știri - Tempus
- Cum arată ouăle de viermi în scaun Ce sunt viermii morți
- Buletin informativ - Hofi G; pentru mort; interdicția este tarol