AI-hoz, magyar nyelvű, tisztított korpusz, hol?




válasza:gyááá... ha tudnál saját AI-t fejleszetni akkor nem tennéd fel ezt a kérdést és FŐLEG nem itt a GYK-n.
Álmodozz csak.
A bme.hu szövegkorpuszába korábban belefutottam én is. De most, hogy te (3.) is beajánlottad, jobban mögé néztem. Az érzéseim vegyesek.
Ami számomra előny: Zömében beszélt nyelvi tartalom. Azaz, nem szaknyelvi, nem irodalmi műalkotás (vers, regény, rövid próza) textusa, hanem spontán, élő nyelvi korpusz. Extra előny, hogy indexelve is van.
Ami sajnos hátrány: A korpusz avittsága. A legújabb tartalom is közel negyed évszázados benne. Ennyi idő alatt egy beszélt nyelv, tizen'millió használóval, sokat újul és sokat is öregszik.
Ettől függetlenül: Aki nyelvész és kedveli a statisztikát, annak aranyat ér, a maga hátrányaival együtt. Nagyon lelkiismeretesen lett előfeldolgozva, szóval, csak kevés többletenergiát igényel.
A fájlok az ftp.bme.hu címen elérhetők. Guestként be lehet lépni, le lehet tölteni a közel 10 GB anyagot.
A huggingface tartalmát teljesen kivégeztem. Pontosabban, inkább az végzett ki engem. Sajnos nem akadt megfelelő. Akinek esetleg eszébe jutna, kérem, onnan ne ajánljon semmit.




válasza:"ostoba bohóc"
Nem feltétlenül az az ostoba bohóc aki egy rosszul megfogalmazott kérdésre annak megfelelően válaszol ahogy azt megfogalmaztad!
Kérek, engedd meg nekem azt a luxust, hogy a kérdéseimet úgy fogalmazzam meg, ahogy az nekem tetszik. Nem kötelező ezekre reagálni, sem úgy, ahogy te teszed, sem úgy, ahogy az első hozzászóló, aki nyilván a jobbítás szándékával próbálta a lábát belém törölni. Veled is közlöm, a ha kötözködni akarsz, keress egy másik alanyt.
Mások, más érdeklődők számára: Az ngram modell alapján készítettem egy, az alapmodellt felturbózó hibridet. Ez a, HitGram-szerű modell, a hátrányai, a meghaladottsága mellett azért bír egy csomó előnnyel is. Pl. nem kell neki extra magas számításigény, egyszerű implementálni, nagyon gyorsan tanítható, stb. De van egy gyengéje, és ez történetesen a korpusz. Az, hogy amin a betanulást végzi, annak az adattömegnek nagyon kifinomultnak kell lennie, mert ha nem az, akkor a kimenet is 'olyan', azaz gyenge, vagy esetenként használhatatlan lesz. Ennek úgy lehet elejét venni, ha nagy műgonddal és jó sok energia befektetéssel, az ember maga kreál egy megfelelő méretű és tartalmú korpuszt. Ehhez viszont kell a jó minőségű kiinduló adat. Ezért, a sok keresgélésbe már belefáradva jöttem ide, azt remélvén, hogy esetleg megfordul itt olyan, akinek talán van egy használható korpusza, netán tud ilyenről, valami porosodó szerver valamelyik könyvtárában, vagy bárhol másutt.
A saját igények mentén szabott korpusz kompozicionálását már meg is kezdtem, még a vágyott, említett nyelvészeti korpusz tartalmát is sikerült megszereznem, de természetesen örülnék újabbnak, ha az olyan, ha annak tartalma nekem megfelel.




válasza:"Kérek, engedd meg nekem azt a luxust, hogy a kérdéseimet úgy fogalmazzam meg, ahogy az nekem tetszik."
Megengedem természetesen.
Van azonban néhány íratlan szabály amit érdemes figyelembe venni amikor a kínodra másoktól vársz segítséget. Pl. hogy nem támadod őket. Főleg a saját hülyeséged okán.
"Nem kötelező ezekre reagálni"
Cserébe te megengeded nekem, hogy arra a kérdésedre válaszoljak amelyikre akarok.
Kapcsolódó kérdések:
Minden jog fenntartva © 2026, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!




