Kezdőoldal » Közoktatás, tanfolyamok » Házifeladat kérdések » Valaki segítene nekem lerövidí...

Valaki segítene nekem lerövidíteni?

Figyelt kérdés

Holnapra rengeteg dolgom van, ki kell olvasnom a Szent Péter esernyőjét mert Témazárót írunk, Fizika témazáróra is tanulnom kéne és nyelvtanból is kaptunk egy hosszú házit, egy szöveg tartalmát kell elmondani holnap az osztálynak és én ezt a szöveget kaptam:

"Hagyományosan veszélyeztetett nyelvnek azt a nyelvet szokták nevezni, amelynek kevés a beszélõje, azok is az idõsebb generációba tartoznak, a beszélõk száma egyértel- mûen csökken, és a nyelvhasználat területe határozottan az informális, családi keretek felé tolódik. Kornai András a PLOS ONE címû online folyóiratban megjelent tanulmá- nyában a fenti tényezõk mellett – többek között – a nyelv- technológiai (és tágabban az információ- és kommuniká- ciótechnológiai) eszközök használatát és a webes tartal- mak elõállításának ütemét is beleveszi a nyelvek állapotá- nak kiértékelésébe. A nyelvi közösségek érzékenyen rea- gálnak az információtechnológia változásaira, mind az online tartalmak passzív fogyasztásában, mind a blogok, közösségi oldalak aktív használatában. Viszont nyelvtech- nológiai alkalmazások és erõforrások leginkább az ún. komfortzónanyelvekre készülnek, aminek egyik oka az, hogy ezeken a nyelveken érhetõ el digitális szöveges tarta- lom. A kisebb, veszélyeztetett nyelvek ebbõl a szempont- ból is hátrányban vannak, hiszen hozzáférhetõ digitális tartalom híján nyelvtechnológiai eszközöket is sokkal ne- hezebb rájuk fejleszteni.

A cikkben bemutatni kívánt projekt célja, hogy kisebb finnugor nyelvekre állítson elõ nyelvi erõforrásokat, ame- lyekkel revitalizálni lehet ezeket a veszélyeztetett nyelvi közösségeket. A projektet az OTKA támogatja, és az MTA Nyelvtudományi Intézetének nyelvtechnológiai, il- letve finnugor kutatócsoportja mellett a Helsinki Egye- tem Viselkedéstudományi Intézete vesz benne részt. Jelen cikkünkben a projekt célkitûzéseit ismertetjük.

A projekt célja, hogy automatikus eszközökkel állítson elõ kétnyelvû szótárakat, majd azokat további lexikai in- formációkkal gazdagítva a Wiktionary online szótárba fel- töltse. A Wiktionary egy szabadon hozzáférhetõ többnyel- vû szótár, amely jelenleg 171 nyelven érhetõ el. Magyar verziója Wikiszótár néven 2004 óta létezik, szócikkeinek száma eléri a 274 ezret, és folyamatosan növekszik.

Az általunk vizsgált célnyelvek a következõ finnugor nyelvek: komi-zürjén, komi-permják, mezei mari, hegyi mari, északi számi és udmurt. A forrásnyelvek pedig olyan komfortzónanyelvek, amelyek a finnugrisztika területén fontos szerepet töltenek be: angol, orosz, finn és magyar.

A célkitûzések megvalósításához elsõ lépésként olyan szövegeket gyûjtünk a webrõl az általunk vizsgált nyelv- párokra, amelyek ugyanannak a tartalomnak a pontos vagy megközelítõ fordításai. Az elõbbieket hívjuk párhuza- mos, az utóbbiakat pedig összevethetõ korpuszoknak. Elsõ számú forrásunk a Wikipédia online enciklopédia megfele- lõ nyelvû szócikkeinek letöltése. További forrásaink a különbözõ nyelvû bibliafordítások és egyéb olyan web- oldalak, amelyeken az általunk vizsgált nyelvpárokra ta- lálhatunk szövegeket. Ilyenek például a finnországi és nor- végiai északi számi parlament weboldala vagy a lappföldi régiók hírei. Finnország, Norvégia és Svédország az utóbbi években igen sok pénzt és energiát fordít a kisebbségi nyelvek támogatására, ami könnyen lemérhetõ a számi nyelvû digitális tartalmak mennyiségén. Az oroszországi rokon népek helyzetérõl nem mondható el ugyanez: vi- szonylag kevés szöveg férhetõ hozzá az általunk vizsgált többi finnugor nyelven.

A szótár-elõállítás további lépéseihez elengedhetetlenül szükséges az összegyûjtött szövegek alapszintû nyelvi fel-

dolgozása, vagyis a szavakra és mondatokra bontás, a mor- fológiai elemzés és egyértelmûsítés. Mivel kifejezetten ezekre a finnugor nyelvekre fejlesztett mondatrabontó al- kalmazás nincsen, ezen szövegek szavakra és mondatokra bontásához olyan nyelvfüggetlen eszközt kell használ- nunk, amely gépi tanuláson alapul, vagyis nagyobb mennyiségû szavakra és mondatokra bontott szöveget igé- nyel, amelybõl a gép megtanulja az adott nyelvre vonatko- zó szabályszerûségeket. Ezért a párhuzamos szövegek mellett minden célnyelvre egynyelvû szövegeket is gyûj- tünk. Több mondatrabontót kipróbáltunk, de az ered- mény nem minden esetben meggyõzõ, ezért vagy további eszközöket kell kipróbálnunk, vagy kézzel kell javítanunk a kimenetet. A szöveg szavakra és mondatokra bontása minden további nyelvfeldolgozás elsõ állomása, vagyis ele- mi érdekünk, hogy ezen az alacsony szinten minél jobb ki- menetet állítsunk elõ, különben a hibák a további feldolgo- zási szinteken egyre nagyobbak lesznek, ami a végsõ kime- net, a szótárak elõállításában is mérhetõ romlást okoz. Az általunk vizsgált finnugor nyelvek nyelvi és feldolgozó erõ- források tekintetében meglehetõsen alulreprezentáltak, vagyis kevés az ezekre a nyelvekre fejlesztett eszköz; az ezek pótlására használt gépi tanulási rendszerek tanításá- ra pedig kevés szöveg áll a rendelkezésünkre. Mivel a teljes szótárépítési folyamat automatizált, ezen a szinten nem javítjuk kézzel a szöveget, így valószínûleg nagyobb mun- ka hárul majd a végsõ szótár javítását végzõ anyanyelvi beszélõkre.

A következõ feldolgozási szint a morfológia szintje. A le- endõ szótárak ún. szótári töveket fognak tartalmazni, vi- szont a természetes nyelvi szövegekben a szavak leggyak- rabban valamilyen toldalékolt alakban fordulnak elõ. Ezért mindenképpen szükség van egy olyan morfológiai elemzõre, amely a szóalakok tövét, szófaját és elemzését is kibocsátja. Az általunk vizsgált nyelvek közül a komi- permjákra és a mezei marira nem találtunk morfológiai elemzõt. Ezen a feldolgozási szinten az erõforrások hiánya még inkább kiütközik, hiszen ezekre a nyelvekre még mor- fológiai információval ellátott szövegek sincsenek, amiken tanítani lehetne egy gépi tanulási rendszert. Megoldás le- het erre a problémára, ha ugyanannak a szövegnek egy másik, közeli rokon nyelvû fordítását hívjuk segítségül, és ez utóbbi morfológiai címkéit képezzük le arra a szövegre, amelyre nem rendelkezünk elemzõvel. A komi-zürjénre például létezik morfológiai elemzõ, amellyel elemezni tud- juk Márk evangéliumát, ami megvan komi-permjákul is. Mivel a két nyelv nagyon közel áll egymáshoz, szintaktika- ilag, morfológiailag és lexikális szinten is hasonlóak, felté- telezhetjük, hogy amelyik szó a szöveg adott pontján az egyik nyelvben tárgyraggal álló fõnév, az a másik nyelvben is az lesz. Így átvihetõ a morfológiai elemzés egyik nyelvrõl a másikra. Ez a téma a nyelvtechnológiai kutatások egyik aktuális területe; kísérleteztek izlandi–feröeri, illetve cseh–szlovák nyelvpárokon, de finnugor nyelvekkel még nem.

A már összegyûjtött párhuzamos és összevethetõ szöve- geket felhasználva több szótárépítési módszert kipróbál- tunk, és minden nyelvpárra elõállítottunk néhány száz fordítási jelöltet tartalmazó ún. protoszótárat. Ezekbõl ké- szítjük el azokat a szótárakat, amelyeket anyanyelvi be- szélõk ellenõriznek és javítanak. Ezekben a végsõ szótá- rakban lesznek azok a szótári elemek, amelyeket bizonyos lexikai információkkal kibõvítve feltöltünk a Wiktiona- rybe. Az így létrehozott lexikai erõforrások egyrészt támo- gatják újabb digitális tartalmak létrehozását ezeken a kis finnugor nyelveken, másrészt további nyelvtechnológiai eszközök fejlesztésének is utat nyitnak."

Valaki akinek van ideje segítene nekem és a lényeges részeket kírná nekem?



2015. máj. 26. 17:32
 1/1 anonim ***** válasza:
Mert abból aztán megtanulod, hogyan kell a lényeget kiemelni, ha mi megcsináljuk neked...
2015. máj. 26. 17:38
Hasznos számodra ez a válasz?

Kapcsolódó kérdések:





Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!