Závěrečná zpráva o realizaci projektu1
Závěrečná zpráva o realizaci projektu1
1. Stručný přehled splněných cílů projektu Centra komputační lingvistiky
a. přehled splněných cílů (v souladu s návrhem projektu a uzavřenou smlouvou, časový postup)
Cílem Centra komputační lingvistiky byl výzkum a vývoj v oblasti moderní počítačové lingvistiky na zcela nově získané úrovni založené na jedinečné vícerovinné analýze velmi rozsáhlého korpusu. Činnost Centra měla a má velký význam pro aplikace v mnoha oborech služeb a průmyslu, které pracují s komunikací člověka s počítačem. Hlavními tématy výzkumu byly následující cíle; jak ukázala veřejná odborná rozprava uskutečněná ve dnech 29. a 30. listopadu 2004 za účasti 9 zahraničních odborníků (zápis přiložen), všechny cíle byly beze zbytku splněny, a to na vysoké odborné úrovni.
(A) Teoretické aspekty komputační lingvistiky se zaměřením především na češtinu v podobě psané i mluvené a s ohledem na možné aplikace. Tento výzkum bylo možno vést na kvalitativně vyšší úrovni, než kdy bylo možné, díky existenci Pražského závislostního korpusu (PDT), který nabízí možnost poloautomatické analýzy velkého souboru stovek tisíc českých vět; PDT byl vytvořen právě v Centru (viz bod (B) níže).
Teoretický výzkum v rámci Centra byl neoddělitelně spjat s řešenými projekty, a to jednak jako předpoklad pro jejich formulaci a teoretický základ pro jejich řešení, jednak tyto projekty přinášeli vedle ověřování platnosti navržených hypotéz i důležité další podněty pro teoretické bádání a pro obohacení daného pojmového rámce.
(B) Stěžejním projektem CKL bylo vybudování Pražského závislostního korpusu (Prague Dependency Treebank, PDT) – morfologicky (1 974 301 slov / 116 885 vět) a analyticky (1 507 372 slov / 87 898 vět) anotovaný korpus PDT byl obohacen o značkování na tektogramatické rovině, která zachycuje význam vět (49 192 vět), a to včetně koreferenčních vztahů v textu a aktuálního členění. Tato mimořádně rozsáhlá počítačová korpusová data jsou jedinečná zvláště proto, že čeština je jediný jazyk s bohatou morfologií, který byl analyzován v podobné míře. PDT byl vytvořen ve spolupráci s Ústavem formální a aplikované lingvistiky (ÚFAL) na Matematicko-fyzikální fakultě UK pro účely podrobné gramatické, sémantické a lexikální analýzy češtiny (CD-ROM s korpusem PDT patří k zásadním publikovaným výsledkům CKL, viz Příloha 1.).
(C) Metodologie výzkumu v rámci Centra byla založena na prohloubeném studiu, porovnávání a kvalifikovaném využití postupů strukturních i statistických včetně metod strojového učení, s ohledem na specifické typologické vlastnosti češtiny jako vysoce flexívního jazyka. V tomto ohledu byla vyvinuta originální metodologie, neboť dosud známé přístupy čerpaly ze zdrojů v angličtině a jiných jazycích s nízkým stupněm flexe (především s “chudou” morfologií a pevným pořádkem slov).
(D) Potřebná pozornost byla věnována matematickým a komputačním základům metod a algoritmů komputační lingvistiky a postupů zpracování přirozeného jazyka. Byl vyvinut nástroj pro systém strojového učení na základě tzv. průměrovaného perceptronu, a dále byly testovány na dalších jazycích nástroje založené na exponenciálním statistickém modelu. Byl rovněž prováděn výzkum v oblasti využití konečných automatů a převodníků pro jazykové modelování a morfologické značkování.
1 Zpráva podepsaná řešitelem, která byla schválena oponentním řízením, se současně se zápisem z oponentního řízení, vyúčtováním za uplynulé období, se zasílá písemně i elektronicky zadavateli.
(E) Jedním ze základních směrů Centra byl statisticky založený výzkum v oblasti rozeznávání mluvené řeči, který také patří k výsledkům Centra majícím největší význam pro spojení úsilí odborníků z této oblasti a badatelů v lingvistice a informatice.
Zvláštní pozornost byla věnována studiu tzv. suprasegmentálních jevů, jako je význam větné prozodie (pro který je neobyčejně výhodným východiskem pražská analýza aktuálního členění věty (na ‚danou‘ a ‚novou‘ informaci, tj. na základ a ohnisko) a studiu modelování jazyka, opět se zřetelem na flexívní povahu češtiny.
Zásadním přínosem bylo zapojení Centra do mimořádně rozsáhlého mezinárodního projektu MALACH (Multilingual Access to Large Spoken Archives), jehož cílem je vývoj systémů pro automatický přepis svědeckých výpovědí lidí, kteří přežili holocaust. Svědecké výpovědi byly pořízeny ve více než 30 různých jazycích a česká strana je prostřednictvím Centra spoluzodpovědná za zpracování jazyků střední a východní Evropy.
(F) Dalším cílem výzkumu Centra bylo vytváření a využívání vícejazyčných zdrojů. Pozornost byla věnována zejména studiu a uplatnění paralelních korpusů se zaměřením na strojový a strojem podporovaný překlad (CD-ROM věnovaný nástrojům pro strojový překlad viz Příloha 1.; projekt překladu mezi blízkými jazyky Česílko) a dalším aplikacím jako vyhledávání informací (data mining) ve vícejazyčných textech. Takto pojatá výzkumná činnost vedla k získání dalších znalostí o češtině srovnatelných s výsledky výzkumu jiných jazyků
(G) Činnost Centra bohatě naplnila očekávané možnosti v navazování a udržování těsných kontaktů s českým a mezinárodním průmyslem využívajícím počítače, o čemž svědčí i zájem partnerů a uživatelů z oblasti aplikační sféry o vhodně zpracované a užitečné zdroje pro široce založený vývoj a aplikace.
Časový postup řešení stanovených cílů bylo v zásadě dodrženo, drobné úpravy vyplývaly z úrovně dosažených výsledků a byly vždy specifikovány v upřesnění dílčích cílů projektu pro následující rok řešení projektu.
b. přehled nesplněných úkolů
Všechny úkoly specifikované v návrhu projektu a v uzavřené smlouvě byly splněny. Pokud byly v průběhu programu přijaty změny oproti zadání, vždy šlo o rozšíření činnosti, nikoli o redukci či změnu úkolů (viz bod 1.e níže).
c. zhodnocení výsledků a plnění cílů projektu
CKL se stalo unikátním výzkumným pracovištěm v ČR v oblasti komputační lingvistiky a automatického zpracování přirozeného jazyka, a to především tím, že (i) v něm byl integrován a vzájemně posilován výzkum jak jazyka psaného, tak mluveného, (ii) že výzkum má pevné a originální teoretické základy v oblasti gramatiky i lexika, ale neztrácí ze zřetele i aspekty aplikační, a (iii) že jsou ve vzájemné rovnováze jak lingvistické, tak i informatické aspekty tohoto výzkumu. V tomto smyslu se dá říci, že v této integraci má CKL i významné postavení mezi předními světovými centry výzkumu v komputační lingvistice, o čemž svědčí i zájem o výsledky výzkumu v CKL (viz bod 4. níže).
Dlouhá léta se vyvíjely metody zpracování řeči a jazyka odděleně a cíle obou proudů byly odlišné. Jestliže metody zpracování řeči v oblasti automatického rozpoznávání usilovaly o co nejnižší chybovost funkce klasifikátoru a obvykle nevyužívaly podpory lingvistických metod (morfologické, syntaktické, sémantické analýzy...), pak při zpracování jazyka se obvykle
pracovalo s textem, který byl gramaticky správně zapsán, a řešila se úloha syntaktické a sémantické analýzy poměrně snadno vymezitelné věty.
Vybudováním CKL na pracovištích MFF UK a ZČU, které mají dlouhodobé zkušenosti i prokazatelné výsledky ve zpracováním jednak jazyka a jednak mluvené řeči, bylo dosaženo velmi účinného napojení obou řešitelských týmů. Pracovníci CKL tak mohli okamžitě využívat know-how jak z oblasti zpracování řeči, tak zpracování jazyka, které byla na těchto pracovištích aktuálně k dispozici. To značně zrychlilo a zefektivnilo navazující výzkumné práce.
Zázemí obou výzkumných pracovišť (MFF UK a ZČU), šířka výzkumného záběru a prokazatelné, světově srovnatelné výsledky jednoznačně ukazují, že Centrum komputační lingvistiky vyrostlo na pevných základech jak Pražské lingvistické školy na MFF UK, tak mnohem mladší, ale neméně úspěšné školy řečových technologií na ZČU v Plzni. Podobná spojení lingvistických a řečových výzkumných týmů lze pozorovat v poslední době i na mnoha zahraničních univerzitách. Z tohoto hlediska jde o průkopnické a v ČR jedinečné a zcela nezastupitelné pracoviště.
O hodnotě výsledků získaných v rámci Centra bezesporu svědčí i vysoká míra zájmu o spolupráci ze strany zahraničních i českých výzkumných pracovišť, o zapojení CKL do mezinárodních projektů (podrobněji viz bod 4.), i zájem o využití konkrétních výsledků projektu (viz bod 1.d.)
V CKL bylo za dobu jeho trvání připraveno celkem 259 publikací, (r. 2001 – 41, r. 2002 – 68, r.2003 – 72, r.2004 - 78). Seznam konkrétních výsledků a výstupů získaných v rámci realizace projektu (včetně kódů výsledku v registru RIV) jsou uvedeny v přílohách – Příloha 1. Seznam dat a nástrojů získaných v rámci realizace projektu a Příloha 2. Seznam publikací.
d. konkrétní využití dosažených výsledků a výstupů projektu
Uvádíme zde seznam nejdůležitějších výstupů Centra s krátkým popisem a strukturou uživatelů (více viz bod 2.d. způsob využívání výsledků a výstupů projektu aplikační sférou a v rámci regionu a zejména Příloha 1. Seznam dat a nástrojů získaných v rámci realizace projektu).
Pražský závislostní korpus, verze 1.0 (PDT 1.0), publikováno v roce 2001, vydáno LDC: byly podepsány licence o výzkumném využití se 112 uživateli, z toho 31 uživatelů v ČR a SR, 36 v Evropě, 30 v Americe, 13 v Asii, 3 na Středním východě. Součástí PDT 1.0 je rovněž řada nástrojů na zpracování češtiny, vč. morfologického slovníku a analyzátoru (více viz Příloha 1.).
Prague Czech English Dependency Treebank (PCEDT), paralelní, česko-anglický závislostní korpus, který byl v listopadu 2004 vydán v Linguistic Data Consortium (LDC, LDC2004T25, ISBN: 1-58563-321-6). Bezprostředně po vydání přišlo 5 objednávek na PCEDT (Kanada, 2× USA, Hong Kong, Nizozemsko).
Valenční slovník českého jazyka VALLEX, verze 1.0: VALLEX 1.0 byl publikován na sklonku roku 2003 a od té doby se zaregistrovalo přes 80 uživatelů (domácích i zahraničních pracovišť) (více viz Příloha 1.).
Vyhledávací nástroj NetGraph: NetGraph server má doposud 25 registrovaných uživatelů a byl instalován v ÚJČ a v LDC, Philadelphia, USA. NetGraph klient je instalovaný i na FF UK, v JÚĽŠ AV SR a na Univerzitě Komenského v Bratislavě. V současné době je NetGraph používán pro češtinu, slovenštinu a arabštinu; plánuje se jeho použití v rámci prohledávání kompletního Českého národního korpusu. LDC uvažuje o jeho použití pro další jazyky (více viz Příloha 1.).
Grafický anotovací nástroj TrEd používají kromě dalších pracovišť UK (např. ÚTKL FF UK) kolegové v Xxxxx Xxxxxx Institute, Ljubljana, Slovinsko; JÚĽŠ, Bratislava, Slovensko; Sárská
univerzita v Saarbrückenu, Německo; od těchto uživatelů existuje rovněž zpětná vazba z hlediska vývoje tohoto nástroje (více viz Příloha 1.).
Nástroj pro zpracování XML souborů XSH má řádově stovky uživatelů; více o nástroji viz Příloha 1.).
Nástroj pro vytváření anotovaných korpusů ACT byl instalován ve Slovanském ústavu AV.
Czech Broadcast News Speech, Czech Broadcast News Transcripts: korpus řečových nahrávek pro přípravu systémů rozpoznávání řeči, vydáno LDC v r. 2004.
e. změny proti zadání v realizaci projektu provedené v období řešení projektu
V roce 2001 byla při oponentním řízení schválena Oponentní radou korekce plánu v oblasti rozpoznávání řeči – CKL se od roku 2002 zapojilo do vysoce prestižního projektu MALACH, jehož cílem je vývoj systémů pro automatický přepis svědeckých výpovědí lidí, kteří přežili holocaust. Svědecké výpovědi byly pořízeny ve více než 30 různých jazycích a česká strana je spoluzodpovědná za zpracování jazyků střední a východní Evropy. Na projektu participují Visual History Foundation v Hollywoodu, Xxxxx Xxxxxxx University v Baltimore, University of Maryland, IBM, MFF UK v Praze a ZČU v Plzni. Anotační práce na zpracování svědeckých výpovědí jsou podporovány National Science Foundation (USA), Project #0122466.
CKL bylo pověřeno organizací Mezinárodního kongresu lingvistů, CILXVII, který se konal 24.- 29.7.2003 pod patronátem mezinárodní organizace Comité International Permanent des Linguistes. Kongresu se zúčastnilo 436 účastníků, k jeho konání byl vydán sborník abstraktů (ed. Xxxxxxxx, CKL, 2003, tištěná forma) a sborník příspěvků (eds. Xxxxxxxx, Xxxxxxxxxxx, Xxxxxxxx, CKL, 2003, CD-ROM).
V souladu s cíli CKL (výzkum a vývoj v oblasti počítačové lingvistiky s důrazem na budování jazykových korpusů a souvisejících nástrojů a jejich další využití) došlo v roce 2003 k rozšíření činnosti CKL: CKL se zapojilo do spolupráce s Ústavem formální a aplikované lingvistiky MFF UK a Ústavem srovnávací jazykovědy FF UK, jejímž cílem je budovámí Pražského závislostního korpusu pro arabštinu, Prague Arabic Dependency Treebank.
2. Personální a organizační zabezpečení činnosti centra (aktuální stav v porovnání s výchozími podmínkami na začátku sledovaného období)
a. vývoj ve složení pracovního týmu z hlediska kvalifikace ve vztahu k pracovní náplni v centru a pracovnímu zařazení
Po celou dobu realizace projektu bylo personální zabezpečení Centra stabilní, vyvážené a vzhledem k pracovní náplni adekvátní.
celkový počet pracovníků | celkový počet úvazků | pracovníci s úvazkem ≥ 0,7 | pracovníci s úvazkem < 0,7 | |
2000 | 38 | 20,75 | 18 | 20 |
2001 | 42 | 23,25 | 25 | 17 |
2002 | 41 | 29,45 | 29 | 14 |
2003 | 40 (+21) | 24,7 (+10,75) | 24 | 37 |
2004 | 50 | 29,65 | 24 | 26 |
Celková výše úvazků se v době řešení projektu Centra podle plánu mírně zvyšovala (při zachování rozpočtu v oblasti mezd), v roce 2003 byli z důvodů zabezpečení organizace Mezinárodního kongresu lingvistů někteří dlouhodobě spolupracující studenti zaměstnáni na větší část roku na částečné úvazky (čísla v závorkách). Plánovaný nárůst počtu úvazků byl z velké části využit pro zaměstnání dlouhodobě spolupracujících studentů po ukončení magisterského studia.
Odbornou úroveň CKL po celou dobu jeho trvání zajišťovali čtyři profesoři podílející se na jeho úkolech a dalších pět pracovníků s vědeckou hodností CSc, resp. Dr. či Ph.D. V době trvání Centra se dva z jeho pracovníků habilitovali (2003, xxx. Xxxxx, xxx. Xxxxxx) a pět jeho pracovníků obhájili disertační práce s tématikou bezprostředně související s úkoly Centra (2001 Xxxxx, Xxxxxxxxx, 2004 Xxxxxx, Xxxxxxxx, Xxxxxxx); další disertační práce byla odevzdána v říjnu 2004 (Xxxxx, obhajoba začátkem roku 2005). Řada dalších členů pracovního týmu v současné době dokončuje své disertační práce.
b. vývoj ve složení týmu z hlediska věku
Pracovní tým CKL svým složením odpovídal podmínce zaměstnávat především mladé vědecké a odborné pracovníky. Většina týmu se rekrutovala ze studentů a doktorandů MFF UK, FF UK a ZČU, pro něž bylo zaměstnání v CKL jejich prvním zaměstnáním. Následující tabulka tento trend potvrzuje – v průběhu celé doby řešení projektu byli přijímáni noví mladí pracovníci z řad dlouhodobě spolupracujících studentů, kteří dokončili magisterské studium.
počet pracovníků mladších než 35 let | počet úvazků | % | |
2000 | 32 | 16,7 | 84% |
2001 | 31 | 17,2 | 74% |
2002 | 25 | 22,8 | 75% |
2003 | 25 (+21) | 17,1 (+10,75) | 69% |
2004 | 39 | 21,4 | 72% |
Další objem práce odváděli studenti magisterského studia (OON), pro něž možnost zapojit se do projektů CKL představovala významný impuls pro orientaci na další vědeckou práci.
c. změny v řídící a organizační struktuře centra a jejich přínos či nedostatky
Organizační struktura Centra i jeho řízení se ukázalo jako plně funkční, proto zůstalo stabilní a neměnné po celou dobu trvání projektu.
d. vytvořená nová pracovní místa
Na dobu realizace Centra bylo vytvořeno 30 plných úvazků, na kterých bylo zaměstnáno celkem 50 pracovníků (včetně 3 pracovníků, kteří zajišťovali technickou podporu CKL). Dalších 20-24 pracovníků (v naprosté většině studenti magisterského, případně doktorandského studia, kteří dlouhodobě spolupracovali na úkolech Centra) mělo uzavřeno smlouvu o pracovní činnosti či provedení práce. (Číselné údaje jsou za rok 2004.)
Pokud se nepodaří získat finanční prostředky z programu MŠMT Centra typu A., všechna pracovní místa na MFF UK a na FAV CZ zaniknou s koncem projektu Centra komputační lingvistiky. Na pracovišti UJČ se podařilo vzniklé částečné úvazky částečně převést na úvazky ústavní, a tudíž budou zachovány.
3. Přístrojové vybavení a technické zabezpečení činnosti centra
Před zahájením řešení projektu v roce 2000 bylo pracoviště na MFF vybaveno odpovídajícím způsobem, umožňujícím veškeré potřebné aktivity díky jiným projektům – například výzkumnému záměru, realizovanému v rámci UK v Praze, MFF. Výpočetní síla dostupných serverů byla spíše na dolní hranici potřebných kapacit, nicméně každoročně bylo možné provést částečnou obnovu a upgrade.
V průběhu realizace plánu výzkumného centra bylo pracoviště dovybaveno pro řešení rozsáhlejších problémů, vyžadujících výkonnější stroje a větší množství pracovníků. Byl vybudován centrální datový prostor s dostatečným zálohováním a kapacitou, v důsledku vývoje bezpečnostní situace v počítačové síti Internet bylo také řešeno zabezpečení proti virům i aktivním útokům hackerů.
V průběhu celých pěti let byla veškerá zakoupená technika maximálně využívána a investiční plány byly dynamicky upravovány podle aktuálních potřeb a cen. Predikovat technologický vývoj v horizontu pěti let není snadné, nicméně celkové odhady potřebných prostředků byly správné. Příslušné změny v původních plánech jsou zdokumentovány ve výročních zprávách CKL.
V posledním roce řešení projektu byly změny jen drobné. Prostředky, určené na zvýšení kapacity datového serveru byly částečně přesunuty na nákup výpočetních serverů, jelikož bylo nalezeno levnější řešení, než jsme předpokládali. Obdobně byly použity i prostředky, původně plánované na upgrade síťové technologie, jelikož ten byl realizován ze zdrojů Univerzity Karlovy v rámci rekonstrukce budovy MFF UK.
Detailní specifikace zakoupeného vybavení (investice 2004, 2 900 tis. Kč):
• Jolly NAS 6,4 TB (diskové pole)
• 3x výpočetní server ( 2x CPU Opteron, 64-bit, 16GB RAM), částečně hrazeno i z dalších projektů
• 1x výpočetní server HP ( 4x CPU Opteron, 64-bit, 32 GB RAM)
• 4x notebook
• 3x nové PC (upgrade pracovní stanice na řadu P4 nemožný)
• 4x upgrade pracovní stanice
Nyní, na konci projektu lze říci, že pracoviště disponuje dostatečným vybavením a je schopno se podílet na všech mezinárodních výzkumných aktivitách v dané oblasti. Jsou k dispozici i potřebné prostředky pro výuku a prezentaci. Vzhledem k rychlosti vývoje informatiky však není možné ustrnout v současném stavu – bez náležité údržby a obnovy by až doposud vynaložené prostředky mohly být ztraceny. Předpokládáme, že projekty, navazující na práci vykonanou v rámci CKL, umožní také příslušnou údržbu a další rozvoj.
Základní vybavení investičními prostředky bylo získáno při startu Centra a v každém roce byly tyto prostředky doplňovány a inovovány. Vzhledem k tomu, že pracovníci Centra komputační lingvistiky participovali na řešení rozsáhlého projektu „MALACH“, kde byly řešeny úlohy akustického a jazykového modelování, a to vedle češtiny i několika dalších evropských jazyků, byl pro tyto účely zapotřebí značný výpočetní výkon. Navíc, na řešení úloh Centra se podílel stále
větší počet studentů magisterského a doktorského studia, kteří plně využívali sice starší, ale stále plně funkční investiční prostředky zakoupené v minulém období.
Detailní specifikace zakoupeného vybavení (investice 2004, 400 tis.Kč):
V roce 2004 byly na účet spoluřešitele (ZČU) převedeny hlavním řešitelem (MFF UK) investiční prostředky dle původního plánu ve výši 400 tis. Kč. Za zmíněné investiční prostředky byla provedena inovace výpočetních stanic CKL:
• 2 x Pracovní stanice FSC Scenic W620 pro práci s velkými korpusy (Pentium4-3.4HT, 2GB RAM, 2x 160GB, SATA disk, DVD?RW(DL), Acer 19" LCD, WindowsXP Pro MUI)
• Pracovní stanice AMD pro práci s velkými korpusy (AMD Athlon 64 FX 53 (2,4 GHz 64bit), 4GB RAM, 2x 160GB SATA disk, DVD?RW(DL), Acer 19" LCD, WindowsXP Pro CZ)
• Výpočetní server AMD pro kompozici rozsáhlých konečných automatů (AMD Athlon 64 3500+ (2,2 GHz), 2GB RAM, 200GB SATA disk + 120 GB U-ATA, DVD?RW(DL), Acer 19" LCD, WindowsXP Pro CZ)
• Výpočetní server P4 pro kompozici rozsáhlých konečných automatů (Pentium4-3.2HT, 2GB RAM, 200GB SATA disk, DVD?RW(DL), Acer 19" LCD, WindowsXP Pro CZ)
Oddělní jazykové kultury a oddělení gramatiky byly z financí centra postupně dovybaveny několika počítači, klasickými i LCD monitory, laserovými tiskárnami, cestovní tiskárnou, několika notebooky a množstvím drobné výpočetní techniky (USB paměti aj.).
Notebooky (s jednou cestovní přenosnou tiskárnou) byly zakoupeny zejména pro nové pracovníky jazykové poradny a pro dva mladé lingvisty z nově vzniklého oddělení gramatiky, pro potřeby spolupráce s externími pracovníky v rámci úkolů řešených v CKL a pro potřeby ukládání dílčích korpusů. Zejména pro práci s nově vznikajícími počítačovými korpusy textů byly zakoupeny přídatné velkokapacitní paměti.
Specifikace zakoupeného vybavení (investice 2004, 200 tis.Kč):
Z financí určených na investice byl objednán dataprojektor pro nově zřízené oddělení gramatiky, notebook pro nového pracovníka oddělení gramatiky a počítač pro dr. Xxxxxxxxx, jímž bude nahrazen její dosavadní počítač starý.
Využití přístrojového vybavení po ukončení řešení projektu
Získané přístrojové vybavení bude po skončení projektu Centra využíváno v aktivitách realizovaných v rámci výzkumných záměrů Informatické sekce MFF IU a Katedry kybernetiky FAV ZČU, v případných dalších aktivitách, o jejichž podpoře se nyní rozhoduje (výzkumné centrum typu A, granty GAČR a granty GA UK, projekty Informatické společnosti) a při zpracování diplomových a disertačních prací studentů MFF UK a FAV ZČU.
4. Spolupráce centra (prokažte zájem partnerů a uživatelů Vašich výsledků konkrétními údaji o naplňování jejich požadavků :
a. úroveň odborné spolupráce v rámci ČR, s ostatními zakládajícími a spolupracujícími organizacemi ve sledovaném období
Spolupráce Centra se zakládajícími organizacemi (Univerzita Karlova, Západočeská univerzita, Ústav pro jazyk český AV Praha) byla bezproblémová a užitečná pro obě strany. Zakládající organizace přispívaly dotacemi podle původního plánu (místnosti, sdílení počítačového vybavení, využívání služeb centrálních oddělení fakult, rektorátu či Ústavu jako jsou knihovny, účetnictví apod.), na druhé straně Centrum poskytovalo řadu příležitostí pro studenty příslušných vysokých škol pracovníky Ústavu nezačleněné do Centra, a to jak vedením výuky, diplomových prací a projektů (i na jiných fakultách), tak i poskytováním příležitostí účasti na mezinárodních akcích Centra. Je třeba rovněž ocenit, že UK a její matematicko-fyzikální fakulta přispívala k výměně zahraničních expertů (z Fondu mobility rektora UK byl např. hrazen jeden z dlouhodobých pobytů).
Probíhala také spolupráce s univerzitami a AV ČR na projektech základního výzkumu a dále na využití Českého národního korpusu a prostředků pro jeho analýzu a pro značkování textů, zaměřené k využití při počítačovém zpracování češtiny, mj. pro strojový překlad, pro vyhledávání informací, "data mining" a pro komunikaci s inteligentními databázemi. Vyměňovaly se výsledky výzkumu Centra a Ústavu českého národního korpusu FF UK i Ústavu teoretické a komputační lingvistiky FF UK (vzájemně), výsledky Centra slouží i Ústavu pro jazyk český AV ČR (včetně výuky a školení jeho mladých pracovníků).
b. nová zapojení do mezinárodních struktur ve sledovaném období
V době realizace projektu CKL navázalo spolupráci s následujícími univerzitami a výzkumnými pracovišti mimo území ČR:
(A) Dohody o spolupráci:
• JUĽŠ SAV, Bratislava a pedagogická fakulta Univerzity Komenského, Bratislava v rámci programu vědecko-technické spolupráce se Slovenskem (KONTAKT/Slovensko 2004-2005), výměna expertů
• Projekt MALACH – Multilingual Access to Large Spoken Archive, NSF USA: Visual History Foundation, CA, USA; IBM Research, NY, USA; Xxxxx Xxxxxxx University, MD, USA; University of Maryland, MD, USA (2001-2006)
• Projekt Strojový překlad, KONTAKT/NSF (MŠMT), Xxxxx Xxxxxxx University, MD, USA, 2003-2005
• Dohoda o publikaci lingvistických dat s Linguistic Data Consortium, Philadelphia, PA, USA (1x CD-ROM vydáno 2001, 4x CD-ROM vydáno 2004, dále bude vydáno 1x CD-ROM v r. 2005)
(B) Spolupráce s univerzitami a výzkumnými pracovišti (včetně hlavních bodů spolupráce):
• Center for Language and Speech Processing, Xxxxx Xxxxxxx University, Baltimore, USA (xxxx. Xxxxxxxxx Xxxxxxx) – zpracování mluvené řeči, projekt MALACH, strojový překlad, generování v přirozeném jazyce;
• University of Maryland, College Park, MD, USA (prof. Xxxx Xxxx) – projekt Malach a strojový překlad pro účely vyhledávání informací;
• IBM Research, Yorktown Heights, NY, USA (Xxxxxxx Xxxxxxx) – projekt MALACH, metodika transkripce mluveného textu;
• Visual History Foundation Survivors of the Shoa, North Hollywood, CA, USA (Xxx Xxxxxxx)
– zdroje spontánní mluvené řeči ve velkém rozsahu;
• Ohio University, Bloomington, OH, USA (Xxxx Xxxx) – vývoj morfologického analyzátoru ruštiny;
• Istituto di Linguistica Computazionale, C.N.R., Pisa, Italy (xxxx. Xxxxxxx Xxxxxxxx a prof. Xxxxxxxxx Xxxxxxxxx) – slovníky, korpusová lingvistika, anotování korpusů;
• Natürlichsprachliche Systeme, Fachbereich Informatik, Universität Hamburg, Germany (xxxx. Xxxxxx von Xxxx, xxxx. X. Xxxxxx) – komputační lingvistika, automatická syntaktická analýza, formální gramatiky;
• Computational Linguistics and Phonetics, Universität des Saarlandes, Saarbrücken, Germany (prof. Xxxx Xxxxxxxxx, prof. M. Pinkal) – formální sémantika, komputační lingvistika; anotování korpusů na hloubkové úrovni;
• Institut für Übersetzen und Dolmetschen, Universität des Saarlandes, Saarbrücken, Germany (xxxx. X. Xxxxxxxxxx-Xxxxxxxx) – překladové systémy;
• Institut National des Langues et Civilisations Orientales (INALCO), Paris, France (xxxx. Xxxxxxx Xxxxxx) – komputační lingvistika, práce s PDT;
• Xerox Research Center Europe, Language Research Group, Grenoble, France (prof. Xxxx- Xxxxxx Xxxxxx) – metody založené na konečně-stavových automatech, strojový překlad;
• Institute for Research in Cognitive Science, University of Pennsylvania, Philadelphia, U.S.A. (xxxx. Xxxxxx Xxxxxx) – komputační lingvistika, tree adjoining grammars, proposition bank;
• Linguistic Data Consortium, University of Pennsylvania, Philadelphia, U.S.A. – anotování korpusů, distribuce lingvistických dat;
• Linguistic Department of the University of Massachusetts, Amherst, USA (xxxx. Xxxxxxx Xxxxxx) – formální sémantika;
• School of Informatics, University of Edinburgh, Great Britain (xxxx. Xxxx Xxxxxxxx) – komputační lingvistika;
• Department of Linguistics, University of Uppsala, Sweden (prof. Xxxx Sågvall Xxxx) – komputační lingvistika, slovníky;
• Jazykovedný ústav Ľudovíta Štúra, Akadémia vied Slovenskej republiky, Univerzita Komenského, Bratislava, Slovenská republika (Xx. Xxxxx Xxxxxxx, Xxx. Xxxxxxxx Xxxxx) – korpusová lingvistika, anotování slovenských dat;
• CKL je členem mezinárodní sítě ENABLER (European National Activities for Basic Language Resources), která si klade za cíl zintenzívnit spolupráci mezi národními centry vyvíjející a zpracovávající jazykové zdroje.
CKL bylo delegováno MŠMT jako reprezentant v celoevropském projektu programu ERA (LangNet, koordinace a evaluace projektů Language Technology).
Vedle výše uvedených institucionálních kontaktů mají pracovníci CKL aktivní osobní pracovní kontakty s vědci a pedagogy dalších předních světových univerzit, jako jsou např.
• v USA: Stanfordova universita, Columbia University, Harvard University, Massachusetts Institute of Technology, University of California San Diego, Xxxxx Xxxxxxx University
• v Japonsku: Kyoto University
• v Jižní Koreji: Seoul National University
• v Austrálii: Centre for Language Technology, Macquarie University
• v Německu: univ. v Mnichově, v Bonnu, v Heidelbergu, v Lipsku, v Postupimi, v Bochumi, Humboldtova univ.
• ve Francii: univ. v Grenoblu
• v Itálii: univerzita v Benátkách, Univerzita v Pise
• v Maďarsku: budapeštská univerzita, univerzita v Szegedu, Morphology Inc. (Budapešť)
• v Polsku: varšavská univerzita, univerzita v Krakově
• v Rusku: Moskevská státní univerzita
• ve Velké Británii: University College, Londýn, univerzita v Cambridge, v Edinburghu, v Lancasteru, v Manchesteru, v Brightonu, v Sheffieldu
• v Bulharsku: Bulharská akademie věd
• v Slovinsku: Univerzita v Lublani
• v Dánsku: Kodaňská univerzita
c. kvalita spolupráce s aplikační sférou a v rámci regionu
K využití výsledků Centra došlo především ve spolupráci s výzkumnými pracovišti v zahraničí (viz výše o využití výsledků na pracovištích na Slovensku, ve Slovinsku, ve Spojených státech, ve Francii, v Německu); na výsledky CKL (především na Pražský závislostní korpus, PDT) navazují další výzkumné projekty. Mladí pracovníci vyškolení v Centru uplatňují získané know-how již dnes v komerční sféře (např. ve výzkumném středisku IBM v Praze). Vzhledem k tomu, že se v CKL řeší problematika základního výzkumu, poskytujeme zatím výsledky pro výzkumné účely bezúplatně.
K využití know-how došlo například i při přípravě rozsáhlého korpusu řečových nahrávek pro přípravu systémů rozpoznávání řeči, viz bod 1.d). Tento korpus se prodává v LDC (University of Pennsylvania, Philadelphia, USA). Podpora CKL při přípravě tohoto korpusu je v LDC uvedena.
CKL představuje výzkum, jehož se účastní i mladí pracovníci, kteří následně získané know-how využívají ve výzkumných a vývojových odděleních komerčních firem, které se zabývají různými úlohami zpracování přirozeného jazyka v mluvené i psané podobě.
d. způsob využívání výsledků a výstupů projektu aplikační sférou a v rámci regionu
Během realizace CKL byla vyvinuta řada nástrojů, dat a postupů, které jsou využívány na lingvistických pracovištích v České republice i v zahraničí. Nejdůležitější výstupy CKL s charakteristikou uživatelů jsou uvedeny v bodu 1.d, seznam výsledků viz Příloha 1., Seznam dat a nástrojů získaných v rámci realizace projektu.
Dále byla navázána cenná spolupráce s aplikační sférou, a to v rámci republiky i v měřítku mezinárodním. V následující tabulce uvádíme seznam subjektů, které mají zájem o využití výsledků Centra, včetně oblasti zájmu.
Název | Sídlo | Oblast zájmu |
Skřivánek, s.r.o. | Na dolinách 22, 14700 Praha 4 | Automatizace překladu |
XXXX, s.r.o. | 26301 Voznice 64 | Lingvistická podpora elektronických slovníků |
NetCentrum s.r.o. | Drtinova 10 15000 Praha 5 | Vyhledávání v textech na Xxxxxxx.xx |
ASPI Publishing, s.r.o. | U nákladového nádraží 6 Praha 3 | Právní informační systémy: jazyková podpora a rozpoznávání řeči |
LANGMaster International, s.r.o. | Branická 107 14700 Praha 4 | Automatický překlad, podpora výukového software |
SpeechTech, s.r.o. | Morseova 5 30100 Plzeň | Rozpoznávání řeči |
IBM ČR, s.r.o. | V parku 4 14200 Praha 4 | Porozumění mluvené řeči |
ARTLingua | Myslíkova 6, 12000 Praha 2 | Strojový překlad |
Microsoft Corp. | Dublin, Irsko | Testovací jazykové korpusy |
Reader’s Digest Výběr, s.r.o. | V celnici 4, 11000 Praha 1 | Překlad produkce do jazyků střední a východní Evropy, překlad z angličtiny do češtiny |
Visual History Foundation | 000 Xxxxxxxxx Xxxx Xxxxx, Xxxx. 5225 Room 149 Universal City, CA 91608 | Rozpoznávání řeči pro vyhledávání v rozsáhlých audioarchívech v češtině a jazycích střední Evropy |
5. Podpora mladých výzkumných pracovníků (aktuální stav v porovnání s výchozími podmínkami na začátku sledovaného období)
a. doktorské studijní programy
Dvě sekce CKL při univerzitách (MFF UK a ZČU) byly po celou dobu realizace projektu významným způsobem zapojeny do programů Doktorského studia. Podíleli se na výchově mladých výzkumných pracovníků, jimž jednak poskytovali příležitost k vlastnímu bádání a k jeho prezentaci, jednak umožňovali jejich zapojení do větších výzkumných úkolů.
Řada pracovníků Centra se podílela na výuce v rámci magisterských i doktorských studijních programů – na MFF UK jde o magisterský a doktorský obor Matematická lingvistika, na FAV ZČU o magisterský program Kybernetika a řídicí technika a doktorsky program Kybernetika. Například v letním semestru 2003/2004 vedli celkem 28 přednášek a seminářů na MFF UK, FF UK a KK ZČU, v zimním semestru 2004/2005 vedli 23 přednášek a seminářů na MFF UK, FF UK a KK ZČU. Mimo to byli vedoucími řady studentských projektů. Díky zapojení pracovníků Centra do výuky se podstatným způsobem (o 12 přednášek/seminářů oproti roku 2000) rozšířila nabídka přednášek a seminářů pro studenty magisterského i doktorského studia se zájmem o komputační lingvistiku.
CKL po celou dobu svého trvání podporovalo zapojování studentů magisterského studia do doktorských studijních programů. Témata jejich disertačních prací úzce souvisela s vědeckým programem Centra, jejich školiteli byli pracovníci CKL. Např. v roce 2003 pracovníci Centra školili 28 doktorandů, 5 z nich obhájilo své disertační práce (další práce je odevzdaná). V roce 2004 to bylo 21 interních a 13 externích doktorandů.
Pro jednotlivé školitele-pracovníky Centra uvádíme v závorce počet doktorandů: xxxx. Xxxxxxxx (10), xxx. Xxxxx (16), xx. Xxxxx (3), dr. Xxxxxxxxx (1), xxxx. Xxxxxxxx (5), xxxx. Xxxxxx (6), dr.
Vidová Hladká (2).
b. podíl mladých výzkumníků (do 35 let), vč. objemu prací a pracovní kapacity, způsob podpory jejich odborné práce ze strany centra.
Podpora mladých pracovníků byla jednou z priorit Centra. Jak bylo uvedeno již v bodu 2.b., pracovní tým CKL se z více jak 70% (přepočteno podle velikosti úvazků) skládal z mladých výzkumníků do 35 let. Většina pracovníků se rekrutovala ze studentů a doktorandů MFF UK, FF UK a ZČU, pro něž bylo zaměstnání v CKL jejich prvním zaměstnáním. Další objem práce odváděli studenti magisterského studia (OON), pro něž možnost zapojit se do projektů CKL představovala významný impuls pro orientaci na další vědeckou práci.
Lze tedy říci, že podpora mladých pracovníků Centra byla velmi intenzívní. Vedle pravidelných seminářů, na nichž vystupovali se svými referáty, podíleli se mladí pracovníci podstatnou měrou i na výjezdních seminářích pracoviště. Jejich výzkum je integrální součástí vědeckých úkolů Centra, jde o práci navýsost týmovou, takže jsou v denním pracovním kontaktu se svými vedoucími i dalšími klíčovými pracovníky projektu.
O velmi dobrých výsledcích výzkumné práce mladých pracovníků i o jejím ohlasu na mezinárodním poli svědčil i počet přijatých referátů na mezinárodních konferencích; účast mladých pracovníků na těchto konferencích byla velmi hojná a aktivní, což bylo umožněno finanční podporou z prostředků Centra (viz bod c).
c. Podpora mladých výzkumných pracovníků (konkrétní příklady ve sledovaném období)
(A) Účast studentů a doktorandů na mezinárodních konferencích a workshopech v zahraničí
V průběžných zprávách byl uveden vždy výčet zahraničních cest mladých vědeckých pracovníků, které Centrum umožnilo (přehled pro rok 2004 je uveden v oddíle specifikace a zdůvodnění jednotlivých výdajových položek ve vztahu k projektu, formulář F3C-čerpání), zde uvádíme souhrn pro jednotlivé pracovníky:
Xxxxxxx Xxxxx – 1x konference/workshop v zahraničí Xxxxx Xxxxxxx – 4x konference/workshop v zahraničí Xxxxxx Xxxxx – 1x konference/workshop v zahraničí Xxxxxxx Xxxxxxx – 1x konference/workshop v zahraničí Xxxxxx Xxxxxxx – 1x konference/workshop v zahraničí Xxxxxx Xxxxxxx – 9x konference/workshop v zahraničí Xxx Xxxxx – 8x konference/workshop v zahraničí
Xxxx Xxxx – 1x konference/workshop v zahraničí Xxxx Xxxxxxx – 3x konference/workshop v zahraničí
Xxxxxx Xxxxx – 3x konference/workshop v zahraničí Xxxx Xxxxxx – 4x konference/workshop v zahraničí Xxxxx Xxxxxx – 1x konference/workshop v zahraničí Xxxxx – 1x konference/workshop v zahraničí
X. Xxxxxxxxx – 1x konference/workshop v zahraničí Xxxxx Xxxxxxxx – 3x konference/workshop v zahraničí Xxxx Xxxxx – 2x konference/workshop v zahraničí
Xxxxx Xxxxxx – 1x konference/workshop v zahraničí Xxxx Xxxxxxx – 1x konference/workshop v zahraničí Xxxx Xxxxxxxx – 2x konference/workshop v zahraničí
X. Xxxxxxxx – 1x konference/workshop v zahraničí
X. Xxxxxx – 2x konference/workshop v zahraničí
Xxxxxxxx Xxxxxxxx (Xxxxxxxxxx) – 6x konference/workshop v zahraničí Xxxxx Xxxxxxx – 4x konference/workshop v zahraničí
Xxxxxxxx Xxxxxxxx – 1x konference/workshop v zahraničí Xxxx Xxxxxxx – 1x konference/workshop v zahraničí Xxxxxx Xxxxxxxxxx – 2x konference/workshop v zahraničí Xxxxxx Xxxx – 5x konference/workshop v zahraničí
Xxxxx Xxxxxxx – 1x konference/workshop v zahraničí Xxxxxxx Xxxxxxxxxx – 3x konference/workshop v zahraničí Xxx Xxxxxxxx – 2x konference/workshop v zahraničí Xxxxxxxx Xxxxxx – 2x konference/workshop v zahraničí Xxx Xxxxx – 4x konference/workshop v zahraničí
Xxxxxx Xxxxxxxxxx – 4x konference/workshop v zahraničí
(B) Pracovní pobyty studentů a doktorandů v zahraničí
Xxxx Xxxxxx – 1x pracovní pobyt v zahraničí Xxxxxx Xxxxxxx – 2x pracovní pobyt v zahraničí Xxx Xxxxx – 1x pracovní pobyt v zahraničí
Xxx Xxxxxxxxxxx – 2x pracovní pobyt v zahraničí Xxxxxx Xxxxx – 3x pracovní pobyt v zahraničí Xxxx Xxxxxx – 2x pracovní pobyt v zahraničí Xxxxx Xxxxxx – 1x pracovní pobyt v zahraničí Xxxxx Xxxxxxxx – 2x pracovní pobyt v zahraničí Xxxxx Xxxxxx – 1x pracovní pobyt v zahraničí Xxxxx Xxxxxx – 1x pracovní pobyt v zahraničí
X. Xxxxxxxxx – 1x pracovní pobyt v zahraničí Xxxx Xxxxxxxx – 1x pracovní pobyt v zahraničí
Xxxxx Xxxxxxxx – 1x pracovní pobyt v zahraničí Xxxx Xxxxx – 1x pracovní pobyt v zahraničí
Xxxxx X. Xxxxxx (jun.) – 1x pracovní pobyt v zahraničí
Xxxxxx Xxxx – 1x pracovní pobyt v zahraničí
Xxxxx Xxxxxxx – 1x pracovní pobyt v zahraničí
Xxxxxxx Xxxxxx-Xxxxxx – roční postdoc pobyt na Xxxxx Xxxxxxx University Xxxxxx Xxxxxxxxxx – 6x pracovní pobyt v zahraničí
(C) Účast studentů a doktorandů na mezinárodních letních školách v zahraničí:
Xxxxxx Xxxxx – 3x letní škola Xxxxxx Xxxxxxx – 1x letní škola Xxxx Xxxxxxx – 4x letní škola Xxxxxx Xxxxx – 1x letní škola Xxxx Xxxxxx – 3x letní škola
Xxxxxx Xxxxxxxxxxxxx – 1x letní škola Xxxx Xxxxxxx – 1x letní škola
Xxxxx Xxxxxx – 1x letní škola Xxxx Xxxxxxxx – 2x letní škola
Xxxxxxxx Xxxxxxxx (Xxxxxxxxxx) – 1x letní škola Xxxxxx Xxxx – 1x letní škola
Xxx Xxxxxxxx – 2x letní škola
(D) Publikace doktorandů, společné publikace doktorandů se školiteli:
Centrum podporovalo publikační činnost mladých spolupracovníků, ať už samostatnou, nebo se školiteli, čímž podstatným způsobem přispívalo k jejich odbornému růstu. V seznamu publikací za dobu trvání Centra je 192 položek, jejichž autory či spoluautory jsou doktorandi a mladí vědečtí pracovníci.
(E) Podpora nových projektů podávaných mladými pracovníky:
CKL podporovalo mladé spolupracovníky a doktorandy při řešení nových projektů souvisejících s jejich odbornými zájmy. K těmto projektům patřil zejména:
• Projekt Prague Arabic Dependency Treebank, viz bod 1.e zprávy a zpráva za rok 2003
• Projekt ACT, viz zpráva za rok 2003
Dále Centrum podporovalo podávání nových grantů, jejichž řešiteli jsou doktorandi účastnící se práce CKL (zejména GAUK - 1 přijatý projekt, 8 nových podaných projektů).
6. Způsoby zpřístupnění výsledků a výstupů centra veřejnosti (aktuální stav v porovnání s výchozími podmínkami na začátku sledovaného období – konkrétní akce pro odbornou i laickou veřejnost, internet. adresy ...)
(A) Mezinárodní konference a workshopy:
Pracovníci CKL se zúčastnili řady mezinárodních konferencí a jiných odborných setkání, na kterých přednesli zvané přednášky (např. v roce 2003 12 zvaných přednášek, v roce 2004 14 zvaných přednášek) a recenzované příspěvky o výsledcích dosažených v projektech CKL, případně prezentovali své výsledky na posterech. Participovali také na workshopech při konferencích, které byly vynikající příležitostí pro sdílení nových výsledků a postupů. Z nejprestižnějších konferencí oboru jmenujme následující:
• konference pořádané Association for Computational Linguistics (ACL, NAACL, EACL)
• konference pořádaná International Speech Communication Association (ISCA)
• Coling (konference pořádaná International Committee of Computational Linguistics, ICCL)
• MT Summit (pořádaný Association for Machine Translation, AMTA/EAMT)
• Language resources and Evavuation Conference (pořádá ACL/ELRA)
• Text, Speech, Dialogue (pořádané FI MU/ZČU)
• Světový kongres lingvistů
(Seznamy konkrétních pracovních cest pracovníků CKL jsou uvedeny ve zprávách za jednotlivé rok projektu, včetně titulů prezentovaných příspěvků; cesty za rok 2004 jsou uvedeny ve formuláři F3C-čerpání, bod 2. specifikace a zdůvodnění jednotlivých výdajových položek ve vztahu k projektu).
(B) Publikace:
Publikace v domácích i zahraničních časopisech a ve sbornících mezinárodních konferencí zpřístupňují výsledky Centra široké odborné veřejnosti. Za dobu trvání Centra bylo připraveno 259 publikací (seznam viz Přílohu 2).
(C) Technické zprávy:
CKL vydávalo technické zprávy (ve spolupráci s ÚFALem MFF UK) o dílčích výsledcích výzkumu; Za dobu existence Centra bylo vydáno 17 technických zpráv, které jsou k dispozici jednak tištěné, jednak na adrese xxxx://xxx.xxx.xxxx.xx:0000/xxx/xxxxxxxxxxxx.xxx?xxxxxxx. Citace technických zpráv jsou uvedeny v seznamu publikací v Příloze 2.
(D) Webové stránky CKL:
Byly vytvořeny www stránek CKL, xxxx://xxx.xxx.xxxx.xx/, které podávají komplexní informaci o činnosti Centra. Kromě základních informací o struktuře, výzkumných tématech a cílech CKL zde lze nalézt stručný přehled dílčích cílů projektu, a potom zejména odkazy na stránky jednotlivých úkolů řešených v rámci CKL (PDT, ČAK, VALLEX, PADT, MALACH), kde jsou také k dispozici volně šiřitelné nástroje (morfologická analýza, taggery, editory stromových struktur – TrEd, Graph, internetový prohlížeč stromů Netgraph). K dispozici je rovněž nově implementovaná databáze publikací pracovníků CKL s elektronickými verzemi jednotlivých příspěvků (pokud to umožňuje nakladatel). K nahlédnutí jsou i průběžné oponentní zprávy Centra.
(E) ENABLER Network
CKL jako člen mezinárodní sítě ENABLER Network (zaměřené na shromažďování informací o existujících jazykových zdrojích pro jednotlivé jazyky) průběžně aktualizovalo přehled dostupných jazykových zdrojů, které vznikaly v rámci jednotlivých projektů Centra, čímž zásadně přispívalo k
informovanosti o svých výsledcích a výstupech. Poskytlo k dalšímu využití zejména následující výstupy:
• Pražský závislostní korpus (PDT)
– teoretické základy
– vlastní data
• paralelní data angličtina – čeština
• slovníky
– valenční slovník užívaný při anotování PDT-VALLEX
– komplexně anotovaný valenční slovník VALLEX
• nástroje pro anotaci korpusu, vyhledávání v korpusech
(F) Podobný význam bude mít i účast CKL, resp. v navazujícím Ústavu formální a aplikované lingvistiky v programu ERA (LangNet).
(G) Den otevřených dveří:
CKL každoročně v rámci Dnu otevřených dveří na MFF UK širší odborné veřejnosti živou formou představovala svou činnost. Zájemci především ze středních škol byli seznamováni s tématy, na nichž se v Centru pracuje, a také s výsledky Centra.
7. Závěrečné zhodnocení
a. programu Výzkumná centra LN jako celku, jeho celkový přínos vědecké sféře
Program Výzkumná centra LN jako celek byl při svém vyhlášení i průběhu významným příspěvkem k rozvoji vědeckého výzkumu v České republice: poskytl především do té doby neprůchodnou možnost vytvořit pracovní místa pro mladé vědecké pracovníky a finančně je zabezpečit na slušné úrovni. Jsme přesvědčeni, že pro mnohé z nich byl tento program pobídkou, aby svou vědeckou erudicí, schopnostmi i zápalem přispěli k zaplnění generační mezery, kterou v mnoha oborech – především humanitního charakteru – u nás zanechalo totalitní období. Přitom program dal těmto mladým lidem možnost být v co nejtěsnějším kontaktu s kolegy v zahraničí, představovat svou práci na významných zahraničních konferencích, a tak získávat další podněty pro práci vlastní. Bylo velmi důležité, že Výzkumná centra mohla vznikat jak se zaměřením na teoretický výzkum, tak i v oblasti výzkumu aplikovaného. Organizačně i finančně tento program podpořil spolupráci pracovišť univerzitních i akademických, v projektech aplikovaného výzkumu pak i spolupráci se sférou aplikační.
V závěru čtyřapůlletého období, po které program probíhal, se však projevila řada nevysvětlitelných problémů, ukazujících na zřejmá (snad administrativní) opomenutí, která se v posledním roce nepříznivě podepsala na průběhu práce existujících Center. Bylo od počátku jasně dáno, že Centra byla vytvořena na určitý časový úsek; jejich pracovníci však – mimo jiné i na základě zkušeností ze zahraničí – důvodně očekávali, že práce Center bude důkladně prověřena, zahraničními oponenty srovnána s výsledky v zahraničí a po tomto zhodnocení bude úspěšným Centrům umožněno formulovat návazný program, v němž by uplatnění našli jak již zaškolení mladí pracovníci Center dosavadních, tak také další mladí adepti vědy. V jistém smyslu nás v tomto přesvědčení utvrzoval i velmi obsáhlý dotazník XXXX, který jsme vyplňovali v lednu 2004, a který při pečlivém a pravdivém vyplnění přinesl poskytovateli dotace jistě dobrý přehled o tom, jak bylo dotace využito (bohužel jsme se však o dalším osudu dotazníku či o jeho využití nic nedověděli).
Kolem vyhlášení návazného programu bylo však stále mnoho nejasností, oddalování a protichůdných informací, které vyústily ve vyhlášení jen samostatného programu aplikovaného výzkumu (přitom se téměř ve stejném termínu sešly návrhy na Centra i na výzkumné záměry, což určitě k dobrému a účelnému rozvrhování témat i personálního obsazení neprospělo). Teprve v průběhu letních prázdnin, s krajně napjatým termínem podávání návrhů byl vyhlášen program center typu A, který je svou koncepcí ovšem původnímu záměru Center jako středisek mladé vědy s určitou vyhraněnou koncepcí a za vedení zkušených vědeckých kapacit velmi vzdálen; svými podmínkami připomíná v podstatě soubor doktorandských a postdoktorandských grantů. Nejvíc zarážející je skutečnost, že MŠMT nepočítá se zahraniční oponenturou předložených návrhů (ani abstrakt návrhu neměl být podán v cizím jazyce, což svědčí o uspěchanosti a nedomyšlenosti celého programu, která snadno povede k oprávněným námitkám, jak vůbec mohly být vybrány nejlepší projekty ve srovnání se zahraničím).
b. činnosti vlastního centra výzkumu z hlediska zhodnocení jeho přínosu za celé období
řešení projektu
Pokud jde o vlastní činnost Centra komputační lingvistiky, lze bez nadsázky konstatovat, že se podařilo shromáždit odborně velmi vyspělou početnou skupinu mladých nadějných vědeckých pracovníků, kteří v průběhu projektu prokázali svou odbornou erudici, svou schopnost samostatné vědecké práce a v neposlední řadě své nadšení pro týmovou spolupráci nad perspektivními a ve světě s vynikajícím ohlasem přijímanými projekty. Byl vytvořen u nás jediný integrovaný tým pro výzkum psané i mluvené řeči. Jak ukázala veřejná vědecká rozprava o výsledcích Centra konaná ve dnech 29.-30.listopadu 2004, za účasti 7 předních zahraničních vědců z oboru komputační lingvistiky, tyto výsledky mají přední místo v evropském i světovém
výzkumu a bylo by třeba, aby mladí pracovníci Centra i jejich pokračovatelé dostali možnost v tomto výzkumu pokračovat.
Příloha 1. Seznam dat a nástrojů získaných v rámci realizace projektu,
• Pražský závislostní korpus, PDT 1.0 (PDT, xxxx://xxxx.xxx.xxxx.xx/xxx)
RIV/00216208:11320/01:00105063
Pražský závislostní korpus, PDT 1.0 vydalo LDC v roce 2001 (katalogové číslo LDC2001T10, ISBN: 1-58563-212-0) obsahuje
-- data:
- anotovaná data: texty anotované na morfologické (1 974 301 slov / 116 885 vět) a analytické (1 507 372 slov / 87 898 vět) rovině, ukázka anotací na tektogramatické rovině
- neanotované texty
- česko anglický paralelní korpus
-- nástroje
- NetGraph (vyhledávání na stromech)
- Tred (stromový editor, vyhledávání na stromech)
- morfologický analyzátor
- taggery (zjednoznačnění morfologické informace)
-- dokumentace
• Pražský závislostní korpus, PDT 2.0
RIV/zatím nepřiděleno
Pražský závislostní korpus, verze 2.0 je stěžejním výsledkem práce Centra. Jde o obohacení korpusu PDT, verze 1.0 o anotaci na tektogramatické rovině. PDT 2.0 bude vydáno v LDC v roce 2005. PDT 2.0 obsahuje
-- data:
- texty anotované na tektogramatické rovině (49 192 vět)
-- nástroje
- nové, podstatně rozšířené verze nástrojů NetGraph (viz níž), Tred (viz níž), morfologický analyzátor, taggery
-- dokumentace
• Prague Arabic Dependency Treebank, PADT 1.0,
RIV/zatím nepřiděleno
xxxx://xxxx.xxx.xxxxx.xxx/Xxxxxxx/XxxxxxxXxxxx.xxx?xxxxxxxXxxXXX0000X00
Závislostní korpus moderní standardní arabštiny vzniká s využitím bohatých zkušeností a nástrojů získaných při vytváření PDT ve spolupráci s Ústavem srovnávací jazykovědy FF UK a Linguistic Data Consorcium. Korpus je morfologicky anotován pomocí nástroje od Linguistic Data Consortium (LDC), University of Pennsylvania (anotováno 60 000 slov). V současné době se připravují podklady pro analytické značkování, dále se projekt soustředí na analytické značkování a na získání podkladů pro tektogramatický popis arabské věty.
LDC2004T23, ISBN 1-58563-319-4
• VALLEX 1.0, xxxx://xxx.xxx.xxxx.xx/xxxxxxxxxx/xxxxxx/0.0/
RIV/00216208:11320/03:00002609
Valenční slovník českých sloves, verze 1.0 je souborem lingvistických dat a dokumentace, který je výsledkem snahy o formální popis valence českých sloves. Verze 1.0 slovníku obsahuje přibližně 1400 sloves, pro něž bylo vytvořeno na 4000 valenčních rámců (1000 nejčastějších sloves z ČNK a jejich vidové protějšky). Při budování VALLEXu je kladen důraz na skutečnost, aby byl slovník snadno a rychle čitelný pro člověka, i na možnost jeho využití v automatických procedurách. Proto je slovník k dispozici v několika formátech: HTML verze (umožňuje snadnou a rychlou orientaci ve slovníku a vyhledávání podle nejrůznějších kritérií), verze pro tisk a XML verze. Po zaregistrování je pro nekomerční účely volně k využití.
• Český anotovaný korpus, xxxx://xxx.xxx.xxxx.xx/xxxx/XXX.xxxx.
RIV/zatím nepřiděleno
Anotovaný korpus českého jazyka (o celkovém objemu 560 000 slov) vznikl konverzí původního korpusu anotovaného v Ústavu pro jazyk český AV v sedmdesátých letech. Konverzí vnitřního kódování a anotačních schémat (na morfologické a syntakticko-analytické rovině) získáváme korpus, který je „kompatibilní“ s Pražským závislostním korpusem. Byla dokončena konverze vnitřního kódování a morfologického anotování.
• Prague Czech-English Dependency Treebank, PCEDT 1.0,
RIV/zatím nepřiděleno
xxxx://xxxx.xxx.xxxxx.xxx/Xxxxxxx/XxxxxxxXxxxx.xxx?xxxxxxxXxxXXX0000X00
Prague Czech-English Dependency Treebank (PCEDT) je paralelní, česko-anglický závislostní korpus, který byl v roce 2004 vydán v Linguistic Data Consortium (LDC, LDC2004T25, ISBN: 1- 58563-321-6). Základ paralelního korpusu tvoří překlad přibližně jedné poloviny (24 tis. vět) textů pensylvánského PennTreebanku, verze 3 (vydaného v LDC v roce 1999), který je hlavním zdrojem trénovacích a testovacích dat pro parsery angličtiny. Česká část PCEDT je automaticky morfologicky, analyticky i tektogramaticky označkována, anglická část je automaticky převedena z frázové gramatiky do závislostních analytických i tektogramatických struktur. Vzorek pětiset paralelních vět, určený pro testování, byl navíc na tektogramatické rovině anotován ručně v obou jazycích. Testovací české věty byly přeloženy čtyřmi různými překladatelskými společnostmi do angličtiny a slouží jako referenční překlady pro automatickou evaluaci výstupů překladového systému. Dále budou součástí korpusu paralelní texty z Readers' Digestu (50 tis. vět), překladový česko-anglický slovník forem, nástroje pro automatické sestavení překladového modelu z paralelních dat a nástroje pro zobrazování a vyhledávání v závislostních strukturách.
• Czech Broadcast News Speech, vydáno LDC, 2004
RIV/zatím nepřiděleno
(katalogové číslo LDC2004S01, ISBN 1- 58563-280-5)
řečový signál: 22,05 kHz, 16 bitů rozsah korpusu: cca 50 hod vysílání stanice: ČRo1, ČRo2, ČRo3, ČTV, Prima
• Czech Broadcast News Transcripts, vydáno LDC, 2004
RIV/zatím nepřiděleno
(katalogové číslo LDC2004T01, ISBN 1-58563-281-3)
• Korpusy spontánních promluv projektu MALACH (ZČU Plzeň)
- Český korpus anotovaných výpovědí lidí přeživších holocaust:
RIV/zatím nepřiděleno
řečový signál: 44,1 kHz
(stereo, 1. kanál - „řečník“ poskytující výpověď,
2. kanál - moderátor), 16 bitů počet řečníků: 346
rozsah korpusu: cca 100 hodin anotované řeči počet slov přepisu: cca 0,7 mil. slov
- Ruský korpus anotovaných výpovědí lidí přeživších holocaust:
RIV/zatím nepřiděleno
řečový signál: 44,1 kHz
(stereo, 1. kanál - „řečník“ poskytující výpověď,
2. kanál - moderátor), 16 bitů počet řečníků: 410
rozsah korpusu: cca 120 hodin anotované řeči počet slov přepisu: cca 0,8 mil. slov
- Slovenský korpus anotovaných výpovědí lidí přeživších holocaust (stav k 31.12.2003):
RIV/zatím nepřiděleno
řečový signál: 44,1 kHz
(stereo, 1. kanál - „řečník“ poskytující výpověď,
2. kanál - moderátor), 16 bitů počet řečníků: 100
rozsah korpusu: cca 25 hodin anotované řeči počet slov přepisu: cca 0,2 mil. slov
• Old-Church Slavonic Corpus (OCS), xxxx://xxx.xx.xxx.xxxx.xx/xxxxxxxx.
RIV/zatím nepřiděleno
Korpus staroslověnských a církevněslovanských textů je vytvářen na základě dříve zpracovaných rukopisů z Ústavu pro makedonský jazyk, Skopje, Makedonie. Tento korpus obsahuje cca 600 000 slovních forem, lemmatizovaných a morfologicky označkovaných pomocí základní množiny
(27) značek. Některé slovní formy (dle příslušnosti) mají asociovaný překlad, případně i referenci k jiným zdrojům. Slovní zásoba pokrývá období od 12. do cca 17. století.
Nástroje vyvíjené v rámci jednotlivých projektů Centra:
• TrEd
Grafický nástroj určený k anotaci a prezentaci stromových struktur rozšiřitelný prostřednictvím uživatelem definovaných maker. Zahrnuje též nástroje pro konverze souvisejících datových formátů, dávkové zpracování souborů a na rozložení dávkového zpracování mezi skupinu výpočetních strojů. Licence GPL, xxxx://xxx.xxx.xxxx.xx/xxxxxx/xxxx.
• Nástroj pro automatický převod analytických stromových struktur na tektogramatické Automatické předzpracování přechodu mezi anotací na analytické rovině k anotaci na tektogramatické rovině - soubor procedur ve formě maker pro editor TrEd. Obsahuje například algoritmy pro vypouštění uzlů funkčních slov a interpunkce, spojení analytických tvarů sloves, spojení uzlů modálních sloves s významovým slovesem, přiřazení tektogramatických lemmat uzlům, přiřazení hodnot gramatémů na základě morfologických značek z analytické roviny; xxxx://xxxx.xxx.xxxx.xx/xxxxxxxxxxxx/xxxx0000/XXxxxxxx.xxx.
• XSH
Univerzální nástroj na interaktivní i dávkové zpracování XML souborů prostřednictvím jednoduchého jazyka založeného na standardu XPath. Licence GPL, xxxx://xxx.xxxxxxxxxxx.xxx.
• NetGraph
Souběžně s Pražským závislostním korpusem (PDT) je vyvíjen nástroj Netgraph, program pro prohledávání PDT (a jiných korpusů podobného formátu). Netgraph má architekturu klient-server a umožňuje uživatelům vyhledávat v korpusu, umístěném na výkonném serveru, z kteréhokoliv bodu internetu pomocí uživatelsky přívětivého, ale přesto velmi výkonného grafického rozhraní. Přehledný, plně grafický dotazovací jazyk je každým rokem zesilován – v roce 2003 přibyly především relace jiné než rovnítko, negace a odkazy na hodnoty atributů jiných uzlů.
V listopadu 2003 byl Netgraph v rámci oboustranné spolupráce instalován rovněž v Linguistic Data Corporation (LDC) na University of Pennsylvania ve Philadelphii v USA, kde slouží k prohledávání arabského korpusu, tamním pracovištěm vytvářeného.
Netgraph je pro akademické účely volně k dispozici na internetu, včetně podrobné dokumentace
– viz xxxx://xxxxx.xx.xxx.xxxx.xx/xxxxxxxx.
• Syntaktické analyzátory češtiny ("parsery")
V CKL se paralelně vyvíjejí nástroje pro povrchovou syntaktickou analýzu (odpovídající analytické rovině PDT) založené na různých přístupech.
- Statistický parser ( tzv. Zemanův parser)
Tento parser je založen na statistickém modelování závislostí mezi slovy. Xxxxxxx s parserem
bude vyvěšen ke stažení na domovské stránce CKL a analýza bude také pokusně zprovozněna on-line prostřednictvím webových formulářů.
- Pravidlový parser
Tento parser je založený na automaticky získávaných pravidlech (tzv. rule-based přístup a jeho modifikace pro závislostní syntax), neobsahuje žádné před nebo post zpracování výsledných struktur.
• Nástroje používané ve strojovém překladu
Nástroje jsou podrobně popsány v dokumentaci k Prague Czech-English Dependency Treebank, který bude vydán na CDROM v r. 2004 v LDC (viz výše bod 1.5).
• Editor pro morfologickou anotaci spontánních promluv projektu MALACH
Vstupem editoru pro morfologickou anotaci jsou textová data zpracovaná českým morfologickým analyzátorem a taggerem. Program umožňuje snadnou vizuální kontrolu a případnou manuální korekci automaticky označkovaného textu. Jelikož byl editor vyvinut zejména pro anotaci spontánní řeči, lze v něm též opravit hovorové tvary češtiny na tvary spisovné, přičemž je současně automaticky vytvářen slovník obsahující původní nespisovné a opravené spisovné tvary.
• Nástroj pro vytváření anotovaných korpusů ACT
V rámci vývoje technologií pro zpracování psaného slovanského kulturního dědictví byl za pomoci studentů vyvinut programový balík ACT (Annotated Corpora of Text) - jazykově nezávislý nástroj pro vytváření anotovaných korpusů s řadou speciálních funkcí pro zachycení jazykových víceznačností a variant. V rámci ACT je možné lemmatizovat, desambiguovat (s možností registrovat více správných variant), morfologicky značkovat, určovat reference k jiným zdrojům, určovat víceslovní celky nejrůznějších druhů, udržovat slovník lemmat, spravovat různé redakce slovníku, pracovat s překlady a asociovat text s jeho překladem. Je podporováno libovolné vyhledávání výskytů slov, včetně kontextových dotazů a předzpracovaných komplexních dotazů jako nejrůznější typy indexů, retrográdních indexů apod. V rámci ACT lze nalézt i prostředí pro zpracování lexikálních kartotéčních lístečků s cílem zpětné rekonstrukce původních excerpovaných textů. Licence GPL.
Příloha 2. Seznam publikací
2000
Začátek projektu v červenci 2000, publikace vydané v roce 2000 referovaly o práci v předcházejících projektech.
2001
1. RIV/nebylo přiděleno
Xxxxx, Xxx (2001): Statistické modelování a automatická analýza přirozeného jazyka (morfologie, syntax, překlad). In Slovenčina a čeština v počítačovom spracovaní (zborník referátov zo seminára Bratislava 26.-27.10.2001 (ed.X. Xxxxxxxx)) VEDA, vydavateľstvo SAV, Bratislava, ISBN 80-224-0692-9.
2. RIV/nebylo přiděleno
Xxxxx, Xxx; Xxxxx, Xxxxx; Xxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxxxxx, Xxxxxxxx (2001): Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of ACL 2001 Association for Computational Linguistics.
3. RIV/00216208:11320/01:00105157
Xxxxx, Xxx; Xxxxxx-Xxxxxx, Xxxxxxx; Xxxxx, Xxxx (2001): The Prague Dependency Treebank: Annotation Structure and Support. In Proceedings of the IRCS Workshop on Linguistic Databases, pp. 105--114. University of Pennsylvania, Philadelphia, USA.
4. RIV/00216208:11320/01:00105045
Xxxxxxxx, Xxx (2001): Čeština a počítače (Abstrakt). In sborník ke konferenci ZNALOSTI 2001, 19-21.6.2001 VŠE, Praha, pp. 307.
5. RIV/00216208:11320/03:00002409
Xxxxxxxx, Xxx (2001): Information Structure and Syntactic Complexity. In Proceedings of FDSL 4 Potsdam (in press).
6. RIV/00216208:11320/02:00003034
Xxxxxxxx, Xxx (2001): Possibilities and Limits of Optimality in Topic-Focus Articulation. In Current issues in formal Slavic linguistics, pp. 385--394. Xxxxx Xxxx.
7. RIV/00216208:11320/01:00105669
Xxxxxxxx, Xxx (2001): Syntaktický výzkum nad Českým národním korpusem. In Čeština - univerzália a specifika 3 (eds. Z. Xxxxxx, X. Xxxxxx) MU Brno, ISBN 80-210-2532-8, pp. 173-181.
8. RIV/00216208:11320/01:00105329
Xxxxxxxx, Xxx; Xxxxx, Xxx; Xxxxxx-Xxxxxx, Xxxxxxx; Xxxxx, Xxxxxx; Xxxxx, Xxxx; Xxxxxxxxxx, Xxxxxxxx; Xxxxx, Xxxx (2001): The Current Status of the Prague Dependency Treebank. In TSD2001 Proceedings (eds. X. Xxxxxxxx, X. Xxxxxxx, X. Xxxxxx, X. Xxxxxx), LNAI 2166 Springer-Verlag Berlin Heidelberg New York, ISBN 3-540-42557-8, pp. 11-20.
9. RIV/nebylo přiděleno
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2001): A reusable corpus needs syntactic annotations: Prague Dependency Treebank. (v tisku) Lancaster, pp.37-48.
10. RIV/00216208:11320/01:00105451
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2001): Topic-focus and salience. In Proceedings of 39th Annual Meeting of the Association for Computational linguistics, 10 thconference of the European Chapter. Proceedings, pp. 268--273. Toulouse: CNRS.
11. RIV/nebylo přiděleno
Xxxxxxxx, Xxx; Xxxxx, Xxxx; Xxxxxxx, Xxxx (2001): Discourse Semantics and the Salience of Referents. In Journal of Slavic Linguistics (submitted).
12. RIV/nebylo přiděleno
Xxxxxxx, Xxxx (2001): Reference and Anaphoric Relations. Studies in Linguistics and Philosophy 72, Kluwer Academic Publishers: Dordrecht, The Netherlands. ISBN 0-7923-6070-2. Review of Reference and Anaphoric Relations. Studies in Linguistics and Philosophy 72, Kluwer Academic Publishers: Dordrecht, The Netherlands. ISBN 0-7923-6070-2. In PBML 75 UK, Praha, pp. 97-100.
13. RIV/nebylo přiděleno
Xxxxx, Xxxxxx; Xxxx, Xxxxx (2001): MATES -- An Experimental Linguistic Database System. In Proceedings of the IRCS Workshop on Linguistic Databases, pp. 134--140. University of Pennsylvania, Philadelphia, USA.
14. RIV/nebylo přiděleno
Xxxxxx, P. (2001): Language Modeling of Highly Inflectional Language (Czech). PhD Study Report. Katedra kybernetiky, Centrum komputační lingvistiky, FAV ZČU, Plzeň, 32s.
15. RIV/49777513:23520/01:00064740
Xxxxxx, P., Xxxxxx, J. (2001): Two-Pass Recognition of Czech Speech Using Adaptive Vocabulary. In: Text, Speech and Dialogue. The 4th International Workshop on TSD’2001, Berlin, Heidelberg, Springer-Verlag. pp.273-277.
16. RIV/nebylo přiděleno
Xxxxxxx, X., Xxxxx, X., Xxxxxxxxx, X., Xxxxxx, X., Ney, X., Xxx, F.J., Xxxxx, X., Xxxxxx, X.: Robust Knowledge Discovery from Parallel Speech and Text Sources. In: Proceedings of the Human Language Technology Conference HLT2001, California, San Diego.
17. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxx (2001): Teoretická lingvistika a statistické zpracování přirozeného jazyka. In sborník řady Linguae bohemicae studentinum IV. (v tisku).
18. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2001): Některé typy chyb ve stylu odborném a žurnalistickém a možnost jejich automatického odstranění. In TERMINA 2000, Sborník příspěvků z II. konference 1996 a III. konference 2000, pp. 40--47. Galén.
19. RIV/00216208:11320/01:00105809
Xxxxxxxx, Xxxxxxx (2001): Problémy reflexivního zájmena v češtině. In Přednášky z XLIV. běhu Letní školy slovanských studií (ed. X. Xxxxxxx) UK v Praze, FF, Praha, ISBN 80-7308-004-4, pp.81-88.
20. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx; Xxxxx, Xxxx (2001): Manuál pro tektogramatické značkování (III. verze, prosinec 2001). MFF UK.
21. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx; Xxxxx, Xxxx (2001): Tectogrammatics in corpus tagging. In Perspectivs on Semantics, Pragmatics, and Discourse; A Festschrift for Xxxxxx Xxxxxx (eds (I. Kenesei, R. M. Xxxxxxx); Pragmatics and Beyond new Series, Vol.90 Xxxx Xxxxxxxxx Publishing Company Amsterdam/Philadelphia, ISBN 90 272 5109 6, pp. 294-299.
22. RIV/00216208:11320/01:00105528
Xxxxxxx, Xxxx (2001): Recent Methods of Prosody Analysis. In PBML 76 MFF UK, Praha.
23. RIV/49777513:23520/01:00065617
Xxxxxx, X., Xxxxxx, P., Xxxxxx, V.: Experiments with the Recognition of Highly Inflected Spoken Language (Czech) in the Large Vocabulary Task. In: The 5th World Multiconference on Systemics, Cybernetics SCI’2001, Orlando, U.S.A., 2001, pp. 559-564.
24. RIV/00216208:11320/01:00105723
Xxxxx, Xxxx (2001): A remark on Semantics and Pragmatics in Natural Language. In PBML 76, pp. 13--22. MFF UK.
25. RIV/nebylo přiděleno
Xxxxx, Xxxx (2001): Aspect, Eventuality Types and Nominal Reference. Garland Publishing, New York - London 1999. Review of Aspect, Eventuality Types and Nominal Reference. Garland Publishing, New York - London 1999. In Slovo a slovesnost, pp. 126--130.
26. RIV/nebylo přiděleno
Xxxxx, Xxxx (2001): Etničeskij jazyk. Opyt funkcional'noj differenciacii. Specimina philologiae Slavicae, vol.121, 1999.. Review of Etničeskij jazyk. Opyt funkcional'noj differenciacii. Specimina philologiae Slavicae, vol.121, 1999.. In Slovo a slovesnost, pp. 71--74.
27. RIV/nebylo přiděleno
Xxxxx, Xxxx (2001): Functional Generative Description, Word Order and Focus. In Theoretical Linguistics 27 pp.3-19.
28. RIV/00216208:11320/01:00105499
Xxxxx, Xxxx (2001): Ohlédnutí pražského lingvisty za dvacátým stoletím. In Slovo a slovesnost 62, pp. 241--257.
29. RIV/nebylo přiděleno
Xxxxx, Xxxx (2001): Structural and Formal Linguistics in Prague (Preface). In Towards a Relational - Perspective Approach to Syntactic Semantics ISBN 7-107-14429-4, pp. xxiii-xxxxviii.
30. RIV/00216208:11320/01:00105403
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx (2001): Ambiguity of Prepositional Groups: Classification, Criteria and Method for Automatic Processing.. In On Prepositions (eds. X. Xxxxx, D. F. Reindl), Studia Slavica Oldenburgensia 8 Bibliotheks- und Informationssystem, Oldenburg, pp.263-282.
31. RIV/nebylo přiděleno
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx (2001): Homonymie předložkových skupin v češtině a možnost jejího automatického zpracování. MFF UK.
32. RIV/nebylo přiděleno
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx (2001): Některé typy syntaktické homonymie (z hlediska možnosti automatického zpracování). In Čeština - univerzália a specifika 3, Sborník konference ve Šlapanicích u Brna, 22.-24.11.2000 (eds. Z. Hladká, X. Xxxxxx) MU Brno, ISBN 80-210-2532-8, pp. 183-195.
33. RIV/00216208:11320/01:00105021
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxx; Xxxx, Xxxxx (2001): Ambiguity Problems in Human-Computer Interaction. In Proceedings of the conference UAHCI, vol.3 (ed. X. Xxxxxxxxxxx) XXXxxxxxx, New Jersey, ISBN 0-8058-3609-8, pp.486- 490.
34. RIV/00216208:11320/01:00105346
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx; Xxxxxxxxxx, Xxxx; Žabokrtský, Xxxxxx (2001): Enhancing the Valency Dictionary of Czech Verbs: Tectogrammatical Annotation. In TSD2001 Proceedings (eds. X. Xxxxxxxx, X. Xxxxxxx, X. Xxxxxx, X. Xxxxxx), LNAI 2166 Springer-Verlag Berlin Heidelberg New York, ISBN 3-540-42557-8, pp. 142-149.
35. RIV/nebylo přiděleno
Xxxxxxxx, Xxx (2001): CD-ROM Prague Dependency Treebank 1.0. Institute of Formal and Applied Linguistics & Linguistic Data Lab. Published by Linguistic Data Consortium, University of Pennsylvania.. In PBML 76 MFF UK.
36. RIV/68378092: /01:38010012
Xxxxxx, X. (2001): Kritéria gramatičnosti (Korpus jako argument a inspirace), Slovo a slovesnost, LXII, 2001, s. 161-175.
37. Xxxxxxxx, L.: The Case of Czech possessive adjectives and their head nouns: some distributional properties. Glottometrics,
č. 2, 2001, s. 1-9.
38. RIV/nebylo přiděleno
Xxxxxx-Xxxxxx, Xxxxxxx; Xxxxxxx, Xxxxx; Xxxxxxx, Xxxxx (2001): Corpus Linguistics. Investigating Language Structure and Use. Cambridge Approaches to Linguistics. Cambridge University Press: Cambridge 1998. Review of Corpus Linguistics. Investigating Language Structure and Use. Cambridge Approaches to Linguistics. Cambridge University Press: Cambridge 1998. In PBML 76 MFF UK.
39. RIV/00216208:11320/01:00105047
Xxxxx, Xxxxxx (2001): How Much Will a RE-based Preprocessor Help a Statistical Parser? In Proceedings of International Workshop on Parsing Technologies Tsinghua University Press, ISBN7-302-04925-4, pp.253-256.
40. RIV/00216208:11320/01:00105203
Xxxxx, Xxxxxx (2001): Parsing with Regular Expressions: A Minute to Learn, a Lifetime to Master.. In PBML 75 UK, Praha, pp.29-37.
41. RIV/00216208:11320/01:00105504
Žabokrtský, Xxxxxx (2001): Automatic Functor Assignment in the Prague Dependency Treebank. MFF UK.
2002
1. RIV/nebylo přiděleno
Xxxxxxx, Xxxxxx; Xxxxx, Xxx; Xxxxxxx, Xxxx (2002): Czech-English Dependency-based Machine Translation: Data Preparation for the Starting up Experiments. In Prague Bulletin of Mathematical Linguistics, pp. 103--118. MFF UK.
2. RIV/00216208:11320/02:00003001
Xxxxxxxx, Xxxxxx; Xxxxx, Xxx; Xxxxx, Xxxxxxxxx (2002): Testing the Limits -- Adding a New Language to an MT System. In Prague Bulletin of Mathematical Linguistics, pp. 95--101. MFF UK.
3. RIV/00216208:11320/02:00003046
Xxxxx, Xxx (2002): Tectogrammatical Representation: Towards a Minimal Transfer in Machine Translation. In Proceedings of the 6th International Workshop on Tree Adjoining Grammars and Related Frameworks (TAG+6), pp. 216--226. Universita di Venezia.
4. RIV/00216208:11320/02:00003028
Xxxxx, Xxx; Xxxxxxx, Xxxxxx; Xxxxxx, Xxxxx; Xxxx, Xxxxxx; Xxxxxx, Xxxx; Radev, Xxxxx; Xxxx, Xxxx; Xxx, Xxxxx; Xxxxxx, Xxxxxxx (2002): Natural Language Generation in the Context of Machine Translation. CLSP JHU, USA.
5. RIV/00216208:11320/02:00003014
Xxxxx, Xxx; Xxxx, Xxxxxxx X.; Xxxxxx-Xxxxxxx, Xxxx; Xxxxxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxxxx; Xxxxx, Xxxxxxx X.; Xxxxxxx, Xxxxxxxx; Xxxx, Xxxxxx; Resnik, Xxxxxx; Xxxxxxx, Xxxxxxx (2002): Cross-Language Access to Recorded Speech in the MALACH Project. In Text, Speech and Dialogue. 5th International Conference, TSD 2002, pp. 57--64. Springer.
6. RIV/49777513:23520/02:00071579
Xxxxx, Xxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxxxx; Xxxxx, Xxxxxxx X.; Xxxxxx, Xxxxx V.; Xxxxxx, Xxxxxx (2002): Automatic Transcription of Czech Language Oral History in the MALACH Project: Resources and Initial Experiments. In Text, Speech and Dialogue. 5th International Conference, TSD 2002, pp. 253--260. Springer.
7. RIV/nebylo přiděleno
Xxxxxxxx, Xxx (2002): řada hesel publikace. In Encyklopedický slovník češtiny Lidové noviny.
8. RIV/00216208:11320/02:00003061
Xxxxxxxx, Xxx (2002): Recenze knihy: Studie z korpusové lingvistiky. Review of Studie z korpusové lingvistiky. In Slovo a slovesnost, pp. 65--68.
9. RIV/00216208:11320/02:00003051
Xxxxxxxx, Xxx (2002): Theoretical description of language as a basis of corpus annotation: The case of Prague Dependency Treebank. In Prague Linguistic Circle Papers, pp. 111--127. Xxxx Xxxxxxxxx.
10. RIV/nebylo přiděleno
Xxxxxxxx, Xxx; Xxxxxxxx, Xxxxx (2002): Argument/Valency Structure in PropBank, LCS Database and Prague Dependency Treebank: A Comparative Pilot Study. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), pp. 846--851. ELRA.
11. RIV/00216208:11320/02:00003013
Xxxxxxxx, Xxx; Xxxxx, Xxxx; Xxxxxx, Xxxxxxxx (2002): Corpus Annotation on the Tectogrammatical Layer: Summarizing the First Stages of Evaluations. In Prague Bulletin of Mathematical Linguistics, pp. 5--18. MFF UK.
12. RIV/00216208:11320/02:00003009
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2002): Are Linguistic Frameworks Comparable? In Computational Linguistics for the New Millennium: Divergence or Synergy?, pp. 113--122. Xxxxx Xxxx.
13. RIV/00216208:11320/02:00003017
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2002): Dependency syntax in Functional Generative Desription. In Festschrift for X. Xxxxxxx 14. RIV/00216208:11320/02:00003027
Xxxx, Xxxx; Xxxxxx, Xxxx; Xxxxx, Xxx; Xxxxxx-Xxxxxx, Xxxxxxx; Xxxxxxx, Xxxx (2002): Manual for Morphological Annotation. MFF UK.
15. RIV/00216208:11320/02:00003064
Xxxxx, Xxxxxx (2002): Word Frequency Distributions. Review of Word Frequency Distributions. In: Text, Speech and Language Technology, Volume 18, 2001. ISBN 0-7923-7017-1. In Prague Bulletin of Mathematical Linguistics, pp. 113--116. MFF UK.
16. RIV/00216208:11320/02:00003007
Xxxxxx, Xxxx (2002): Machine translation among Slavic languages. In WDS 2002, pp. 39--43. MATFYZPRESS.
17. RIV/00216208:11320/02:00003006
Xxxxxxxxxxxxx, Xxxxxx (2002): Analytical and Tectogrammatical Syntactic Parsing. In WDS 2002, pp. 33--38. MATFYZPRESS.
18. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxx (2002): Subjekt-predikátová shoda v češtine: univerzální, nebo specifická jazyková forma? In Čeština -- univerzália a specifika, pp. x01--x10. Lidové noviny.
19. RIV/00216208:11320/02:00003054
Xxxxxxxx, Xxxxx; Žabokrtský, Xxxxxx (2002): Transforming Penn Treebank Phrase Trees into (Praguian) Tectogrammatical Dependency Trees. In Prague Bulletin of Mathematical Linguistics, pp. 77--94. MFF UK.
20. RIV/00216208:11320/02:00003058
Xxxxxxxxx, Xxxxxxx; Xxxxxxxxxx, Xxxxxxxx; Žabokrtský, Xxxxxx (2002): Valency Lexicon for Czech: from Verbs to Nouns. In Text, Speech and Dialogue. 5th International Conference, TSD 2002, pp. 147--150. Springer.
21. RIV/nebylo přiděleno
Xxxxxxxxx, Xxxxxxx; Žabokrtský, Xxxxxx; Skwarska, Xxxxxxxx; Xxxxxxxx, Xxxxxxx (2002): Tektogramaticky anotovaný valenční slovník českých sloves. MFF UK.
22. RIV/00216208:11320/02:00003029
Xxxxxxxx, Xxxx; Xxxxxxxx, Roman (2002): NetGraph System: Searching through the Prague Dependency Treebank. In Prague Bulletin of Mathematical Linguistics, pp. 101--104. MFF UK.
23. RIV/00216208:11320/02:00003019
Xxxxx, Xxxxx; Xxxx, Xxxxxx (2002): External Tools Not Only for ArabTeX Documents. In Proceedings of the International Symposium on the Processing of Arabic, pp. 161--165. Department of Arabic, Faculty of Arts, University of Manouba.
24. RIV/nebylo přiděleno
Xxxxx, Xxxxx; Xxxxxx, Xxxxx (2002): Linguistically Motivated Bigrams in Part-of-Speech Tagging of Language Corpora. In Prague Bulletin of Mathematical Linguistics, pp. 23--36. MFF UK.
25. RIV/00216208:11320/02:00003040
Xxxxxxxx, Xxxxx; Xxxxxxxx, Xxxx; Xxxxx, Xxxxxx (2002): Searching through Prague Dependency Treebank-Conception and Architecture. In Proceedings of The First Workshop on Treebanks and Linguistic Theories, pp. 114--122. LML, Bulgarian Academy of Sciences and SfS, Tuebingen University.
26. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): řada hesel publikace. In Encyklopedický slovník češtiny Lidové noviny.
27. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): Corpus-based Grammar or Corpus Grammar-based? In Referát přednesený na zasedání Komise pro gramatickou stavbu slovanských jazyků
28. RIV/00216208:11320/02:00003042
Xxxxxxxx, Xxxxxxx (2002): Sloveso: centrum věty; valence: centrální pojem syntaxe. In Aktuálne otázky slovenskej syntaxe, pp. x1--x5.
29. RIV/00216208:11320/02:00003000
Xxxxxxxx, Xxxxxxx (2002): Towards a Relational - Perspective Approach to Syntactic Semantics. Review of Towards a Relational - Perspective Approach to Syntactic Semantics. Peking 2001, ISBN 7-107-14429-4, 289 pp.. In Prague Bulletin of Mathematical Linguistics, pp. 133--134. MFF UK.
30. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx; Xxxxx, Xxxx (2002): Úvod do teoretické a počítačové lingvistiky I. -- Teoretická lingvistika. Karolinum.
31. RIV/00216208:11320/02:00003023
Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx; Xxxxx, Xxxx (2002): K nové úrovni bohemistické práce: Využití anotovaného korpusu. Část
1. In Slovo a slovesnost, pp. 161--177. 32. RIV/00216208:11320/02:00003024
Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx; Xxxxx, Xxxx (2002): K nové úrovni bohemistické práce: Využití anotovaného korpusu. Část
2. In Slovo a slovesnost, pp. 241--262. 33. RIV/00216208:11320/02:00003060
Xxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxxx (2002): Za poleznosta na elektronskite jazični korpusi (vrz primerot na eden tip na imenskata fraza vo češkiot jazik). In Slavistički studii, pp. 307--316. Univerzitet Sv. Xxxxx i Metodij.
34. RIV/00216208:11320/02:00003048
Xxxxxxxx, Xxxxxxx; Xxxxxxxxxx, Xxxxxxxx; Urešová, Xxxxxx (2002): The Theory of Control Applied to the Prague Dependency Treebank (PDT). In Proceedings of the 6th International Workshop on Tree Adjoining Grammars and Related Frameworks (TAG+6), pp. 175--180. Universita di Venezia.
35. RIV/00216208:11320/02:00003045
Xxxxxx, Xxxxx; Xxxxx, Xxxxxx (2002): Sémanticky signifikantní kolokace. MFF UK.
36. RIV/00216208:11320/02:00003016
Xxxxxx, Xxxxxx; Xxxxxxxxxxx, Xxxx (2002): D-trivial Dependency Grammars with Global Word-Order Restrictions. MFF UK.
37. RIV/nebylo přiděleno
Xxxxxxxx, Xxxx (2002): Finite-state machines in speech recognition. In WDS 2002, pp. 27--32. MATFYZPRESS.
38. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): K povaze reklamního diskurzu. In Naše řeč, pp. 177--189.
39. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): XxXxxx a místo člověka v něm. In Studentská vědecká konference v Praze, pp. 418--431. Matfyzpress, UK Praha.
40. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): Reklama jako zvláštní typ sdělování. In Sborník ze 3. mezinárodního setkání mladých lingvistů 41. RIV/49777513:23520/02:00071605
Xxxxxx, Xxxxx; Xxxxxx, Xxxxx (2002): Lattice Rescoring in Czech LVCSR System Using Linguistic Knowledge. In International Workshop Speech and Computer SPECOM 2002, pp. 23--26.
42. RIV/00216208:11320/02:00003031
Xxxxxxx, Xxxxx (2002): Old Sources and Modern Procedures: Computer Processing of Old-Church Slavonic. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), pp. 1622--1626. European Language Resources Association.
43. RIV/00216208:11320/02:00003032
Xxxxxxx, Xxxxx (2002): On the Rule-Based Parsing of Czech. In Prague Bulletin of Mathematical Linguistics, pp. 77--99. MFF UK.
44. RIV/00216208:11320/02:00003039
Xxxxxxx, Xxxxx; Xxxx, Xxxxxx (2002): Searching for non-linearities in natural language. In 7th Experimental Chaos Conference Abstract Booklet, pp. 63--63. UCSD.
45. RIV/00216208:11320/02:00003033
Xxxxxxxxxx, Xxxxxxxx (2002): PDT: Two Steps in Tectogrammatical Annotation with respect to some Issues of Deletion. In Prague Bulletin of Mathematical Linguistics, pp. 37--52. MFF UK.
46. RIV/00216208:11320/02:00003063
Xxxxxxxxxx, Xxxxxxxx; Xxxxxx, Xxxxx (2002): Recenze: Beiträge der Europäischen Slavistischen Linguistik. Review of Beiträge der Europäischen Slavistischen Linguistik. Polyslav 4. Verlag Xxxx Xxxxxx, München 2001. 292 p.. In Slovo a slovesnost, pp. 227--232.
47. RIV/00216208:11320/02:00003025
Xxxxxxxxxx, Xxxxxxxx; Xxxxxxx, Xxxxxx (2002): K syntaktické anotaci textu z Českého národního korpusu: od analytické k tektogramatické rovině. In Aktuálne otázky slovenskej syntaxe
48. RIV/67985807: /03:06030119
Xxxxxxx, Xxxx; Xxxxxxxxx, Xxxxxxxxx (2002): Measures of Word Commonness. In Journal of Quantitative Linguistics, pp. 215--231. Swets & Xxxxxxxxxx.
49. RIV/nebylo přiděleno
Xxxxx, Xxxx (2002): Moravská a pražská (malostranská) koncepce aktuálního členění. In Čeština -- univerzália a specifika, pp. 51--58. Lidové noviny.
50. RIV/00216208:11320/02:00003043
Xxxxx, Xxxx (2002): Spoken Czech revisited. In Where One's Tongue Rules Well. A Festschrift for Xxxxxxx X. Xxxxxxxx, pp. 299--309. Slavica Publishers.
51. RIV/00216208:11320/02:00003049
Xxxxx, Xxxx (2002): The freedom of language. In Prague Linguistic Circle Papers, pp. 309--329. Xxxx Xxxxxxxxx.
52. RIV/00216208:11320/02:00003056
Xxxxx, Xxxx (2002): Underlying Structures in Annotating Czech National Corpus. In Current issues in formal Slavic linguistics, pp. 499--505. Xxxxx Xxxx (2001).
53. RIV/00216208:11320/02:00003050
Xxxxx, Xxxx; Xxxxxxx, Xxxxx (2002): The Simple Core and the Complex Periphery of Natural Language -- a Formal and a Computational View. In Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002), pp. 925--931. Xxxxxx Xxxxxxxx Publishers.
54. RIV/00216208:11320/02:00003004
Xxxxx, Xxxx; Žabokrtský, Xxxxxx; Xxxxxxxx, Sašo (2002): A Machine Learning Approach to Automatic Functor Assignment in the Prague Dependency Treebank. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), pp. 1513--1520. ELRA.
55. RIV/00216208:11320/02:00003035
Xxxx, Xxxxxx; Xxxxxxxx, Xxx; Xxxxxxx, Xxxx (2002): Prague Dependency Treebank for Arabic: Multi-Level Annotation of Arabic Corpus. In Proceedings of the International Symposium on the Processing of Arabic, pp. 147--155. Department of Arabic, Faculty of Arts, University of Manouba.
56. RIV/00216208:11320/02:00003041
Xxxx, Xxxxxx; Xxxxxxx, Xxxx (2002): Sherds from an Arabic Treebanking Mosaic. In Prague Bulletin of Mathematical Linguistics, pp. 63--76. MFF UK.
57. RIV/nebylo přiděleno
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx; Žabokrtský, Xxxxxx (2002): Valenční slovník stokrát jinak: co je pod povrchem? In Čeština
-- univerzália a specifika, pp. 361--363. Lidové noviny.
58. RIV/00216208:11320/02:00003057
Xxxxxxxxxx-Xxxxxxxxx, Xxxxxxx; Xxxxxxxxxx, Xxxxxx (2002): Valency Dictionary of Czech Verbs: Complex Tectogrammatical Annotation. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), pp. 949--956. ELRA.
59. RIV/00216208:11320/02:00003037
Xxxxxxxx, Xxx (2002): Building on Frege. Review of Building on Frege. In Prague Bulletin of Mathematical Linguistics, pp. 139--142. MFF UK.
60. RIV/nebylo přiděleno
Xxxxxx, Xxxxxxxxx (2002): Čas slovesný. Diateze. Gramatičnost. Hierarchizace sémantické struktury. Rod slovesný. Způsob slovesný. Osoba. In Encyklopedický slovník češtiny Lidové noviny.
61. RIV/00216208:11210/03:00008453
Xxxxxx, Xxxxxxxxx (2002): Česko-německá srovnávací gramatika. Argo.
62. RIV/nebylo přiděleno
Xxxxxx, Xxxxxxxxx (2002): Recenze: Český národní korpus. Úvod a příručka uživatele.. Review of Český národní korpus. Úvod a příručka uživatele. FF UK, 2000. In Slovo a slovesnost, pp. 73--74.
63. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): E-mail as a new electronic medium in Prague Language Consulting Services. In Referát přednesený na zasedání Komise pro gramatickou stavbu slovanských jazyků
64. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2002): Jazyková poradna v měnící se komunikační situaci u nás. In Sociologický časopis, pp. 443--455.
65. RIV/00216208:11320/02:00003036
Xxxxxx-Xxxxxx, Barbora (2002): Pražský závislostní korpus aneb Co tady před padesáti lety nebylo. In Pokroky matematiky, fyziky a astronomie, pp. 298--306. JCMF, Prague.
66. RIV/00216208:11320/02:00003038
Xxxxxx-Xxxxxx, Xxxxxxx; Xxxxxxx, Xxxxx (2002): Exploring Textual Data. Review of Exploring Textual Data. In: Text, Speech and Language Technology series, volume 4. Kluwer Academic Publishers. 1998. In Prague Bulletin of Mathematical Linguistics, pp. 135--137. MFF UK.
67. RIV/00216208:11320/02:00003012
Xxxxx, Xxxxxx (2002): Can Subcategorization Help a Statistical Dependency Parser? In Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002), pp. 1156--1162. Xxxxxx Xxxxxxxx Publishers.
68. RIV/00216208:11320/02:00003020
Xxxxx, Xxxxxx (2002): How to Decrease the Performance of a Statistical Parser. In Prague Bulletin of Mathematical Linguistics, pp. 53--62. MFF UK.
2003
1. RIV/nebylo přiděleno
Xxxxxx, Xxxxxxxxx; Drożdżyński, Xxxxxx; Erbach, Xxxxxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxx; Xxxxxxx, Xxxxxx; Xx, Xxxx; Xxxxxxx, Xxxx-Xxxxxx; Xxxxxxxxx, Xxxxx; Xxxxxxx, Xxxxxx; Shimada, Xxxxxx; Xxxxxx, Xxxxxxx; Xx, Xxxxx; Xxxxxxx-Xxxxxx, Xxxxxxxx (2003): Corpora and evaluation tools for multilingual names entity grammar development. In Proceedings of Multilingual Corpora Workshop at Corpus Linguistics, pp. !!!. (in press).
2. RIV/00216208:11320/03:00002964
Xxxxxxx, Xxxxx; Xxxxxxxx, Xxx (2003): Large Language Data and the Degrees of Automation. In Proceedings of XVII International Congress of Linguists, CD-ROM, pp. x1-x6. Matfyzpress, MFF UK.
3. RIV/00216208:11320/03:00002552
Xxxxx, Xxxxxx (2003): AX - Systém pro automatizovanou extrakci lexikálně-syntaktických údajů. In MIS 2003, pp. 15--24. MATFYZPRESS.
4. RIV/00216208:11320/03:00002558
Xxxxx, Xxxxxx (2003): Building Subcorpora Suitable for Extraction of Lexico-Syntactic Information. In Proceedings of the Student Session, ESSLLI, pp. 25--34.
5. RIV/00216208:11320/03:00002534
Xxxxx, Xxxxxx; Xxxx, Xxxxx; Xxxxxx, Milan; Xxxxxxxx, Xxxxxxx; Xxxxx, Xxxxxxx; Xxxxx, Xxxxx (2003): ENTI -- Simulátor přirozeného prostředí lidského světa. In MIS 2003, pp. 3--14. MATFYZPRESS.
6. RIV/00216208:11320/03:00002517
Xxxxxxxx, Monia; Xxxxxxx, Xxxxx (2003): Old-Church Slavonic in Codes. In Computational Approaches to the study of Early and Modern Slavic Languages and Texts -- Proceeedings of the Electronic Description and Edition of Slavic Sources, pp. 201--204.
7. RIV/00216208:11320/02:00003015
Xxxxxxx, Xxxxxx; Xxxxx, Xxx; Xxxxxxx, Xxxx (2003): Czech-English Dependency-based Machine Translation. In EACL 2003 Proceedings of the Conference, pp. 83--90. Association for Computational Linguistics.
8. RIV/00216208:11320/03:00002955
Xxxxxxx, Xxxxxx; Xxxxx, Xxx; Xxxxxxx, Xxxx (2003): Treebanks in Machine Translation. In Proceedings of The Second Workshop on Treebanks and Linguistic Theories, pp. 209--212. Vaxjo University Press.
9. RIV/00216208:11320/03:00002235
Drożdżyński, Xxxxxx; Xxxxxx, Xxxx; Xxxxxxxxx, Xxxxx; Xxxxxxxxxxx, Xxxxxxxx (2003): Adapting SProUT to processing Baltic and Slavonic languages. In Proceedings of Information Extraction for Slavonic and other Central and Eastern European Languages, pp. !!!.
10. RIV/00216208:11320/03:00002976
Xxxxxxxxxxx, Xxxx (2003): On the Recognition Power of Non-Expansive Go-Through Automata. In Annals of Bucharest University, pp. 45--54.
11. RIV/00216208:11320/03:00002565
Xxxxx, Xxx; Xxxxxx, Xxxx; Xxxxx, Xxxxxxxxx (2003): A Simple Multilingual Machine Translation System. In Proceedings of Machine Translation Summit IX, pp. 157--164.
12. RIV/00216208:11320/03:00002696
Xxxxx, Xxx; Xxxxxxxxxxxxx, Xxxxxx (2003): Annotation Lexicons: Using the Valency Lexicon for Tectogrammatical Annotation. In Prague Bulletin of Mathematical Linguistics, pp. 61--86. MFF UK.
13. RIV/00216208:11320/03:00002564
Xxxxx, Xxx; Xxxxx, Xxxxxxxxx (2003): Tagging as a Key to Successful MT. In MIS 2003, pp. 56--65. MATFYZPRESS.
14. RIV/00216208:11320/03:00002419
Xxxxx, Xxx; Xxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxxxx; Xxxxxx, Xxxxxxxx; Xxxxxxxx, Xxxxxxxx; Xxxxx, Xxxx (2003): PDT-VALLEX: Creating a Large-coverage Valency Lexicon for Treebank Annotation. In Proceedings of The Second Workshop on Treebanks and Linguistic Theories, pp. 57--68. Vaxjo University Press.
15. RIV/nebylo přiděleno
Xxxxx, Xxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxx, Xxxxxxx; Xxxxxxxx, Xxxx; Xxxxxxxxxxx, Xxxxxxx; Xxxxxxx, Xxxxxx; Xxxxxx, Xxxxx V.; Xxxxxx, Xxxxxx (2003): Language Model Data Selection for Czech ASR in the MALACH Project. In ICASSP 2003, pp. !!!. (submitted).
16. RIV/00216208:11320/03:00002445
Xxxxx, Xxx; Xxxxxxx, Xxxxxx (2003): Linguistic Annotation: from Links to Cross-Layer Lexicons. In Proceedings of The Second Workshop on Treebanks and Linguistic Theories, pp. 69--80. Vaxjo University Press.
17. RIV/00216208:11320/03:00002965
Xxxxxxxx, Xxx (2003): Aspects of discourse structure. In Natural language processing between linguistic inquiry and system engineering, pp. 47--54. Editura Universitatii Xxxxxxxxx Xxxx Xxxx.
18. RIV/00216208:11320/03:00002966
Xxxxxxxx, Xxx (2003): Contextual boundness and discourse patterns. In Proceedings of XVII International Congress of Linguists, CD-ROM, pp. x1-x7. Matfyzpress, MFF UK.
19. RIV/00216208:11320/03:00002409
Xxxxxxxx, Xxx (2003): Information structure and syntactic complexity. In Investigations into formal Slavic linguistics, pp. 169-
-180. Xxxxx Xxxx.
20. RIV/00216208:11320/03:00002962
Xxxxxxxx, Xxx (2003): Syntactic theory and corpus annotation need each other. In Zbornik povzetkov, 13. mednarodni slavistični kongres, 2. del, pp. 289. Medninarodni slavistični komite.
21. RIV/00216208:11320/03:00002971
Xxxxxxxx, Xxx (2003): Topic-focus articulation in the Czech National Corpus. In Language and function. To the memory of Xxx Xxxxxx, pp. 185--194. Xxxx Xxxxxxxxx.
22. RIV/nebylo přiděleno
Xxxxxxxx, Xxx; Xxxxxxx, Xxxx; Xxxxx, Xxxx (2003): Discourse Semantics and the Salience of Referents. In Journal of Slavic Linguistics, pp. 127-140.
23. RIV/nebylo přiděleno
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2003): Dependency syntax in Functional Generative Description. In Dependenz und Xxxxxx -- Dependency and Valency, pp. 570--592. Xxxxxx de Gruyter.
24. RIV/00216208:11320/03:00002196
Xxxxxxxx, Xxx; Xxxxx, Xxxx (2003): Information Structure, Translation and Discourse. In Textologie und Translation, pp. 107--
123. Xxxxxx Xxxx.
25. RIV/00216208:11320/02:00003052
Xxxxxxxx, Xxx; Xxxxx, Xxxx; Xxxxxxxx, Xxx (2003): Topic-Focus Articulation and degrees of salience in the Prague Dependency Treebank. In Formal Approaches to Function in Grammar. In honor of Xxxxxx Xxxxxxx, Arizona, pp. 165--177. Xxxx Xxxxxxxxx.
26. RIV/00216208:11320/02:00003021
Xxxxxxxx, Xxx; Xxxxx, Xxxx; Xxxxxx, Xxxxxxxx (2003): Information structure and contrastive topic. In Formal approaches to Slavic linguistics. The Amherst Meeting 2002, pp. 219--234. Michigan Slavic Publications.
27. RIV/00216208:11320/03:00002572
Xxxxx, Xxxxx; Xxxxx, Xxxxxxxxx; Xxxxxx, Xxxxxx; Xxxxx, Xxxxx (2003): A Theoretical Basis of an Architecture of a Shell of a Reasonably Robust Syntactic Analyser. In Proceedings of Text, Speech and Dialogue 2003, pp. 58--65. Springer.
28. RIV/00216208:11320/03:00002936
Xxxxx, Xxxxxx (2003): A New Approach to Conceptual Document Indexing: Building a Hierarchical System of Concepts Based on Document Clusters. In ISICT 2003 Proceedings of the International Symposium on Information and Communication Technologies, pp. 311--316. Trinity College Dublin.
29. RIV/00216208:11320/03:00002899
Xxxxx, Xxxxxx; Xxxxxxx, Xxxxx (2003): Approaches to Building Semantic Lexicons. In WDS'03 Proceedings of Contributed Papers, Part I, pp. 173--178. MATFYZPRESS.
30. RIV/nebylo přiděleno
Xxxxxx, Xxxx; Xxxxxxx, Xxxxx (2003): Shallow machine translation - in between of two extremes. In Proceedings of The Fifth International Tbilisi Symposium on Language, Logic and Computation, pp. !!!. (in press).
31. RIV/00216208:11320/03:00002957
Xxxxxxxxxxxxx, Xxxxxx (2003): Using a Czech Valency Lexicon for Annotation Support. In Proceedings of Text, Speech and Dialogue 2003, pp. 120--126. Springer.
32. RIV/49777513:23520/03:00000158
Xxxxxx, Xxxxx; Xxxxxx, Xxxxx (2003): Fitting Class-Based Language Models into Weighted Finite-State Transducer Framework. In EUROSPEECH 2003 Proceedings (8th European Conference on Speech Communication and Technology), pp. 1873--1876. ISCA.
33. RIV/00216208:11320/03:00002871
Xxxxxxx, Xxxx (2003): Statistical Parsing. In WDS'03 Proceedings of Contributed Papers, Part I, pp. 161--166. MATFYZPRESS.
34. RIV/00216208:11320/03:00002967
Xxxxx, Xxxxx; Xxxxxxxx, Xxxx; Xxxxx, Xxx (2003): Combination of a Hidden Tag Model and a Traditional N-gram Model: A Case Study in Czech Speech Recognition. In EUROSPEECH 2003 Proceedings (8th European Conference on Speech Communication and Technology), pp. 2289--2291. ISCA.
35. RIV/00216208:11320/03:00002646
Xxxxx, Xxxxxxxxx (2003): Multilingual Aspects of Monolingual Corpora. In In the proceedings of Sprachtechnlogie fuer die Multilinguale Kommunikation, GLDV-Fruejahrstagung 2003, pp. 283--298. Gardez-Verlag.
36. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxx; Řezníčková, Xxxxxxxx (2003): Korpus jako výzva k syntaktické analýze. Poznámky k syntaktické derivaci deverbativních substantiv v češtině. In Slavia, pp. 267--274.
37. RIV/00216208:11320/03:00002961
Xxxxxx, Xxxxx; Xxxxxxxx, Xxxxxxxx; Žabokrtský, Xxxxxx; Xxxxx, Xxxx; Xxxx, Xxxxxx (2003): Anotování koreference v Pražském závislostním korpusu. MFF UK.
38. RIV/nebylo přiděleno
Xxxxxx, Xxxxxxxxx (2003): Genetic Algorithms and Artificial Neural Network in Natural Language Processing. In WDS'03 Proceedings of Contributed Papers, Part I, pp. 156--160. MATFYZPRESS.
39. RIV/00216208:11320/03:00002398
Xxxxxx, Xxxxx (2003): Language for Grammatical Rules. MFF UK.
40. RIV/nebylo přiděleno
Xxxxxxxxx, Xxxxxxx (2003): Issue of Valency in Prague Dependency Treebank: Creating valency lexicon of Verbs. (Abstract) . In XVII International Congress of Linguists Abstracts , pp. 153-153. MFF UK.
41. RIV/00216208:11320/03:00002313
Xxxxxxxxx, Xxxxxxx (2003): O homonymii předložkových skupin v češtine (Co umí počítač?) Karolinum.
42. RIV/00216208:11320/03:00002804
Xxxxxxxxx, Xxxxxxx (2003): Valency in the Prague Dependency Treebank: Building the Valency Lexicon. In Prague Bulletin of Mathematical Linguistics, pp. 37--60. MFF UK.
43. RIV/00216208:11320/03:00002609
Xxxxxxxxx, Xxxxxxx; Žabokrtský, Xxxxxx; Skwarska, Xxxxxxxx; Xxxxxxxx, Xxxxxxx (2003): VALLEX 1.0 Valency Lexicon of Czech Verbs. MFF UK.
44. RIV/00216208:11320/03:00002969
Xxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxxxxx, Roman (2003): The Computational Complexity of Rule-Based Part-of-Speech Tagging. In Proceedings of Text, Speech and Dialogue 2003, pp. 82--89. Springer.
45. RIV/00216208:11320/03:00002968
Xxxxxxxx, Roman; Xxxxxxxx, Xxxxxxx; Xxxxxxxx, Xxx (2003): An Exploitation of the Prague Dependency Treebank: A Valency Case. In Proceedings of the Workshop on Shallow Processing of Large Corpora (SproLaC 2003), pp. 69--77. UCREL, Lancaster University.
46. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2003): Existuje chyba v syntaxi? In Sborník prací Filozoficko-přírodovědecké fakulty Slezské univerzity v Opavě, pp. 145--153. Slezská univerzita v Opavě.
47. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2003): Some Issues of Syntax and Semantics of Verbal Modifications. In Proceedings MTT 2003, First International Conference on Meaning-Text Theory, pp. 139--146. Ecole Normale Supérieure.
48. RIV/00216208:11320/03:00002958
Xxxxxx, Xxxxxx; Xxxxxxxxx, Xxxxxxx; Xxxxx, Xxxxx (2003): Restarting Automata: Motivations and Applications. In Proceedings of the workshop Petrinetze, pp. 90--96. Technische Universitaet Muenchen.
49. RIV/49777513:23520/03:00000156
Xxxxxx, Xxxxx; Xxxxxxxx, Xxxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxxx V.; Xxxxxxx, Xxxxxx; Xxxxx, Xxxxxxx J.; Xxxxx, Xxx; Xxxxxxx, Xxxxxx (2003): Building LVCSR System for Transcription of Spontaneously Pronounced Russian Testimonies in the MALACH Project: Initial Steps and First Results. In Proceedings of Text, Speech and Dialogue 2003, pp. 327--332. Springer.
50. RIV/49777513:23520/03:00000157
Xxxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxxx V.; Xxxxxx, Xxxxxx; Xxxxx, Xxxxxxx; Xxxxx, Xxx; Xxxxxxxx, Xxxx; Xxxxxxx, Xxxxxx (2003): Large Vocabulary ASR for Spontaneous Czech in the MALACH Project. In EUROSPEECH 2003 Proceedings (8th European Conference on Speech Communication and Technology), pp. 1821--1824. ISCA.
51. RIV/49777513:23520/03:00000155
Xxxxxx, Xxxxx; Xxxxxx, Xxxxx; Xxxxxx, Xxxxx V.; Radová, Xxxxxx; Xxxxx, Xxxxxxx X.; Xxxxxxxxxxxxx, Xxxxx; Xxxxx, Xxx; Xxxxxxx, Xxxxxx (2003): Towards Automatic Transcription of Spontaneous Czech Speech in the MALACH Project. In Proceedings of Text, Speech and Dialogue 2003, pp. 214--219. Springer.
52. RIV/00216208:11320/03:00002681
Xxxxxx, Xxxx; Xxxx, Xxxxxx; Xxxxxx, Xxxxx; Xxxxxxxx, Xxxxx; Xxxxxx, Xxxxxx (2003): Automatically Deriving Tectogrammatical Labels from Other Resources: A Comparison of Semantic Labels Across Frameworks. In Prague Bulletin of Mathematical Linguistics, pp. 23--35. MFF UK.
53. RIV/00216208:11320/03:00002526
Xxxxxxx, Xxxxx; Camuglia, Monia (2003): Incorporation of Old-Church Slavonic Card-Files into a Corpus. In Scripta & e- Scripta, pp. 65--74. Institute of Literature, Bulgarian Academy of Sciences.
54. RIV/nebylo přiděleno
Xxxxxxxxxx, Xxxxxxxx (2003): Czech Deverbal Nouns: Issues of Their Valency in Linear and Dependency Corpora. In Proceedings of the Workshop on Shallow Processing of Large Corpora (SProLaC 2003), pp. 88--97. UCREL, Lancaster University.
55. RIV/00216208:11320/03:00002893
Xxxxxxx, Xxxx (2003): Semantic Word Classes Extracted from Text Clusters. In WDS'03 Proceedings of Contributed Papers, Part I, pp. 167--172. MATFYZPRESS.
56. RIV/00216208:11320/02:00003018
Xxxxx, Xxxx (2003): Dynamics in the meaning of the sentence and of discourse. In Meaning: The Dynamic Turn, pp. 169--
184. Elsevier Science Ltd..
57. RIV/00216208:11320/03:00002163
Xxxxx, Xxxx (2003): From Data to Speech. Language Generation in Context. Review of From Data to Speech. Language Generation in Context. In Journal of Pragmatics, pp. 315--319. Elsevier.
58. RIV/00216208:11320/03:00002972
Xxxxx, Xxxx (2003): From functional sentence perspective to topic-focus articulation. In Language and function. To the memory of Xxx Xxxxxx, pp. 279--287. Xxxx Xxxxxxxxx.
59. RIV/nebylo přiděleno
Xxxxx, Xxxx (2003): Introductory remarks (to the Workshop on Discourse Patterns). In Proceedings of XVII International Congress of Linguists, CD-ROM, pp. x1-x5. Matfyzpress, MFF UK.
60. RIV/00216208:11320/03:00002234
Xxxxx, Xxxx (2003): Lingvistické ohlédnutí za dvacátým stoletím. In Český jazyk a literatura, pp. 157--164. SPN & Fortuna.
61. RIV/00216208:11320/03:00002413
Xxxxx, Xxxx (2003): Slavistics and the history of topic-focus studies. In Investigations into formal Slavic linguistics, pp. 201--
212. Xxxxx Xxxx.
62. RIV/00216208:11320/02:00003053
Xxxxx, Xxxx (2003): Topic-Focus Articulation in Corpus Annotation. In Natural language processing between linguistic inquiry and system engineering, pp. 95--101. Editura Universitatii Xxxxxxxxx Xxxx Xxxx.
63. RIV/00216208:11210/03:00008453
Xxxxxx, Xxxxxxxxx (2003): Česko-německá srovnávací gramatika. Argo.
64. RIV/00216208:11210/03:00008452
Xxxxxx, Xxxxxxxxx (2003): Gramatický výzkum dříve a dnes: korpus jako výzva. In Tradícia a perspektívy gramatického výskumu na slovensku. Veda, pp. 24-31.
65. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2003): The Czech determiners tento ‘this’ and ten ‘that’ in discourse structure. In CD CIL17
66. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2003): This/that in discourse structure: An evidence from the Czech National Corpus. In 36th International Meeting of the Societas Linguistica Europaea
67. RIV/nebylo přiděleno
Xxxxxxxx, Xxxxxxx (2003): Xxxx´s law for pairs of words. In Journal of Quantitative Linguistics (in press) 68. RIV/00216208:11320/03:00002347
Xxxxxx, Xxxxxxxx; Xxxxxxx, Xxxx (2003): Anotování aktuálního členění věty v Pražském závislostním korpusu. MFF UK.
69. RIV/00216208:11320/03:00002963
Xxxxxx, Xxxxxxxx; Xxxxxxx, Xxxx; Xxxxxxxx, Xxx (2003): Some observations on contrastive topic in Czech spontaneous speech. In Proceedings of XVII International Congress of Linguists, CD-ROM, pp. !!!. Matfyzpress, MFF UK.
70. RIV/00216208:11320/03:00002686
Xxxxxx, Xxxxxxxx; Xxxxxxx, Xxxx; Xxxxxxxx, Xxx (2003): Topic-Focus Articulation in PDT: Prosodic Characteristics of Contrastive Topic. In Prague Bulletin of Mathematical Linguistics, pp. 5--22. MFF UK.
71. RIV/00216208:11320/03:00002102
Xxxxxxxxxx, Xxxxxx (2003): Word Sense Disambiguation. The Case for Combinations of Knowledge Sources. Review of Word Sense Disambiguation. The Case for Combinations of Knowledge Sources. CSLI Publications, 2003. Stanford California. ISBN 1-57586-390-1 (pbk.), 1-57586-389-8 (hard). Pp. xvi+175. In Prague Bulletin of Mathematical Linguistics, pp. 151--153. MFF UK.
72. RIV/00216208:11320/03:00002975
Žabokrtský, Zdeněk; Smrž, Otakar (2003): Arabic Syntactic Trees: from Constituency to Dependency. In EACL 2003 Conference Companion, pp. 183--186. Association for Computational Linguistics.
2004
1. RIV/zatím nebylo přiděleno
Bojar, Ondřej (2004): Problems of Inducing Large Coverage Constraint-Based Dependency Grammar for Czech. In Proceedings of International Workshop on Constraint Solving and Language Processing, CSLP 2004, pp. 29--42. Roskilde University.
2. RIV/zatím nebylo přiděleno
Bojar, Ondřej; Benešová, Václava (2005): VALEVAL: Recent Experiments with the Valency Lexicon of Czech Verbs. In submitted to Verb Workshop 2005 (submitted)
3. RIV/zatím nebylo přiděleno
Byrne, William J.; Doermann, David; Franz, Martin; Gustman, Samuel; Hajič, Jan; Oard, Douglas W.; Picheny, Michael; Psutka, Josef V.; Ramabhadran, Bhuvana; Soergel, Dagobert; Ward, Todd; Zhu, Wang (2004): Automatic Recognition of Spontaneous Speech for Access to Multilingual Oral History Archives. In IEEE Transactions on Speech and Audio Processing, pp. 420-435.
4. RIV/zatím nebylo přiděleno
Cinková, Silvie (2004): Extraction of Swedish Verb-Noun Collocations from a Large Msd-Annotated Corpus. In The Prague Bulletin of Mathematical Linguistics 82, pp. 99--102.
5. RIV/zatím nebylo přiděleno
Cinková, Silvie (2004): Manuál pro tektogramatickou anotaci angličtiny. In ÚFAL/CKL, pp. 2-172.
6. RIV/zatím nebylo přiděleno
Cinková, Silvie (2004): Recenze - Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics. In The Prague Bulletin of Mathematical Linguistics 82, pp. 87--94.
7. RIV/zatím nebylo přiděleno
Cinková, Silvie; Kolářová, Veronika (2004): Nouns as Components of Support Verb Constructions in the Prague Dependency Treebank. In Korpusy a korpusová lingvistika v zahraničí a na Slovensku (in press)
8. RIV/zatím nebylo přiděleno
Cuřín, Jan; Čmejrek, Martin; Havelka, Jiří; Hajič, Jan; Kuboň, Vladislav; Žabokrtský, Zdeněk (2004): Prague Czech-English Dependency Treebank Version 1.0. In Linguistic Data Consortium (LDC) Linguistic Data Consortium (LDC).
9. RIV/zatím nebylo přiděleno
Čmejrek, Martin; Cuřín, Jan; Havelka, Jiří (2004): Prague Czech-English Dependency Treebank: Any Hopes for a Common Annotation Scheme? In HLT-NAACL 2004 Workshop: Frontiers in Corpus Annotation, pp. 47--54. Association for Computational Linguistics.
10. RIV/zatím nebylo přiděleno
Čmejrek, Martin; Cuřín, Jan; Havelka, Jiří; Hajič, Jan; Kuboň, Vladislav (2004): Prague Czech-English Dependency Treebank. Syntactically Annotated Resources for Machine Translation. In Proceedings of the 4th International Conference on Language Resources and Evaluation, pp. 1597-1600. European Language Resources Association.
11. RIV/zatím nebylo přiděleno
Frank, Anett; Semecký, Jiří (2004): . In Proceedings of the 5th International Conference on Linguistically Interpreted Corpora, LINC 2004, Proceedings of the 5th International Conference on Linguistically Interpreted Corpora, LINC 2004
12. RIV/zatím nebylo přiděleno
Guthrie, Louise; Basili, Roberto; Zanzotto, Fabio; Boncheva, Kalina; Cunningham, Hamish; Guthrie, David; Cui, Jia; Cammisa, Marco; Cheng-Chieh Liu, Jerry; Farria Martin, Cassia; Haralambiev, Kristiyan; Holub, Martin; Machery, Klaus; Jelinek, Frederick (2004): Large Scale Experiments for Semantic Labeling of Noun Phrases in Raw Text. In Proceedings of LREC 2004
13. RIV/zatím nebylo přiděleno
Hajič, Jan (2004): Complex Corpus Annotation: The Prague Dependancy Treebank. In in prep. Jazykovedný ústav Ľ. Štúra, SAV.
14. RIV/zatím nebylo přiděleno
Hajič, Jan (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Nakladatelství Karolinum.
15. RIV/zatím nebylo přiděleno
Hajič, Jan (2004): History of Computational Linguistics. In A Companion to Digital Humanities Blackwell Publishing.
16. RIV/zatím nebylo přiděleno
Hajič, Jan; Holub, Martin; Hučínová, Marie; Pavlík, Martin; Pecina, Pavel; Straňák, Pavel; Šidák, Pavel (2004): Validating and Improving the Czech WordNet via Lexico-Semantic Annotation of the Prague Dependency Treebank. In Proceedings of LREC 2004
17. RIV/zatím nebylo přiděleno
Hajič, Jan; Panevová, Jarmila; Buráňová, Eva; Urešová, Zdeňka; Bémová, Alla; Štěpánek, Jan; Pajas, Petr; Kárník, Jiří (2004): Anotace na analytické rovině. Návod pro anotátory. In UFAL/CKL technical report MFF UK, TR-2004-23.
18. RIV/zatím nebylo přiděleno
Hajič, Jan; Smrž, Otakar; Zemánek, Petr; Pajas, Petr; Šnaidauf, Jan; Beška, Emanuel; Kráčmar, ?; Hassanová, Kamila (2004): Prague Arabic Dependency Treebank 1.0. Linguistic Data Consortium.
19. RIV/zatím nebylo přiděleno
Hajič, Jan; Smrž, Otakar; Zemánek, Petr; Šnaidauf, Jan; Beška, Emanuel (2004): Prague Arabic Dependency Treebank: Development in Data and Tools. In Proceedings of the NEMLAR International Conference on Arabic Language Resources and Tools, pp. 110--117. ELDA.
20. RIV/zatím nebylo přiděleno
Jan Hajič, Jan; Urešová, Zdena; Bémová, Alla; Kaplanová, Marie (2004) Pražský závislostní korpus. Anotace na tektogramatické rovině (úroveň 3). In UFAL/CKL technical report MFF UK, TR-2004-24.
21. RIV/zatím nebylo přiděleno
Jan Hajič, Jan; Urešová, Zdena; Bémová, Alla; Kaplanová, Marie (2004): The Prague Dependency Treebank. Annotace on tectogrammatical level. (Translated by Böhmová, Alena; Cinková, Silvie). In UFAL/CKL technical report MFF UK, TR-2004- 25.
22. RIV/zatím nebylo přiděleno
Hajičová, Eva; Havelka, Jiří; Sgall, Petr (2004): Topic and focus, anaphoric relations and degrees of salience. In Prague Linguistic Circle Papers / Travaux du cercle linguistique de Prague N.S. (in press) John Benjamins.
23. RIV/zatím nebylo přiděleno
Hajičová, Eva; Havelka, Jiří; Sgall, Petr; Veselá, Kateřina; Zeman, Daniel (2004): Issues of Projectivity in the Prague Dependency Treebank. In Prague Bulletin of Mathematical Linguistics MFF UK (in press).
24. RIV/zatím nebylo přiděleno
Hajičová, Eva; Sgall, Petr (2004): Degrees of Contrast and the Topic-Focus Articulation. In Language, Context & Cognition - Information Structure - Theoretical and Empirical Aspects, pp. 1--13. Walter de Gruyter.
25. RIV/zatím nebylo přiděleno
Hajičová, Eva; Sgall, Petr (2004): Translation and Information Structure. In Neue Perspektiven in der Übersetzung- und Dolmetscherwissenschaft, pp. 235-247. AKS-Verlag.
26. RIV/zatím nebylo přiděleno
Havelka, Jiří; Hajič, Jan; Kuboň, Vladislav (2004): Prague Czech-English Dependency Treebank. Syntactically Annotated Resources for Machine Translation. In Proceedings of the 4th International Conference on Language Resources and Evaluation, pp. 1597-1600. European Language Resources Association.
27. RIV/zatím nebylo přiděleno
Hlaváčová, Jaroslava (2004): Automatické rozpoznávání českých derivačních předpon. In accepted for publication in proceedings CICLING 2005
28. RIV/zatím nebylo přiděleno
Hlaváčová, Jaroslava; Klímová, Jana (2004): Derivational Relations in Flectional Languages - Czech Case. In Proceeding LREC 2004, pp. 1239-1242.
29. RIV/zatím nebylo přiděleno
Holub, Martin; Diviš, Jiří; Pávek, Jan; Pecina, Pavel; Semecký, Jiří (2004): Topics of Texts. Annotation, Automatic Searching and Indexing. In UFAL/CKL technical report MFF UK, TR-2004-21.
30. RIV/zatím nebylo přiděleno
Holub, Martin; Semecký, Jiří; Diviš, Jiří (2004): Searching for Topics in a Large Collection of Texts. In Proceedings of ACL 2004
31. RIV/zatím nebylo přiděleno
Homola, Petr (2004): On some aspects on machine translation among related languages. In Proceedings of the Ninth ESSLLI Student Session
32. RIV/zatím nebylo přiděleno
Homola, Petr; Kuboň, Vladislav (2004): A translation model for languages of acceding countries. In Proceedings of the EAMT Workshop
33. RIV/zatím nebylo přiděleno
Homola, Petr; Piskorski, Jakub (2004): How can shallow NLP help a machine translation system. In Proceedings of the Conference Human Language Technologies - The Baltic Perspective
34. RIV/zatím nebylo přiděleno
Homola, Petr; Rimkutė, Erika (2004): Mašininis vertimas tarp artimų kalbų. In in press Kaunas Technology University.
35. RIV/zatím nebylo přiděleno
Homola, Petr; Tolvaj, Béla (2004): Distributed translation memories and shallow MT. In MIS 2004 MATFYZPRESS.
36. RIV/zatím nebylo přiděleno
Klusáček, David (2004): Optimal Detection in Case of the Sparse Training Data. In Proceedings of ODYSSEY04, pp. 97-- 104.
37. RIV/zatím nebylo přiděleno
Kolář, J.; Švec, ?; Psutka, Josef V. (2004): Automatic Punctuation Annotation in Czecch Broadcast News Speech. In Proceeding of 9th International Conference Speech and Computer, SPECOM’2004, pp. 319-325.
38. RIV/zatím nebylo přiděleno
Kuboň, Vladislav; Cuřín, Jan; Čmejrek, Martin; Havelka, Jiří (2004): Building parallel bilingual syntactically annontated corpus. In Proceedings of The First International Joint Conference on Natural Language Processing, pp. 141-146.
39. RIV/zatím nebylo přiděleno
Kučová, Lucie; Hajičová, Eva (2004): Coreferential Relations in the Prague Dependency Treebank. In Proceedings of DAARC2004, pp. 97-102.
40. RIV/zatím nebylo přiděleno
Kučová, Lucie; Hajičová, Eva (2004): Coreferential Relations in the Prague Dependency Treebank. In Sborník prací ke konferenci FDSL-5 (in press)
41. RIV/zatím nebylo přiděleno
Kučová, Lucie; Hajičová, Eva (2004): Prague Dependency Treebank: Enrichment of the Underlying Syntactic Annotation by Coreferential Mark-Up. In Prague Bulletin of Mathematical Linguistics, pp. 23-34.
42. RIV/zatím nebylo přiděleno
Lopatková, Markéta; Panevová, Jarmila (2005): Recent developments of the theory of valency in the light of the Prague Dependency Treebank.. In Sborník SNK (in press)
43. RIV/zatím nebylo přiděleno
Lopatková, Markéta; Panevová, Jarmila (2004): Valence vybraných skupin sloves (k některým slovesům dandi a recipiendi). In Čeština - univerzália a specifika, Sborník konference ve Šlapanicích U BrnaČeština - univerzália a specifika, pp. 348--
356. Nakladatelství Lidové noviny.
44. RIV/zatím nebylo přiděleno
Lopatková, Markéta; Plátek, Martin; Kuboň, Vladislav (2005): Závislostní redukční analýza přirozených jazyků. In Proceedings of ITAT 2004 (in press) University of P. J. Šafařík.
45. RIV/zatím nebylo přiděleno
Lopatková, Markéta; Žabokrtský, Zdeněk (2004): Testování konzistence a úplnosti valenčního slovníku českých sloves. In Proceedings of ITAT 2003, pp. 73-82. University of P. J. Šafařík.
46. RIV/zatím nebylo přiděleno
Panevová, Jarmila (2004): Všeobecné aktanty očima Pražského závislostního korpusu (PZK). In Korpus jako zdroj dat o
češtině. Sborník konference ve Šlapanicích (in press)
47. RIV/zatím nebylo přiděleno
Piskorski, Jakub; Homola, Petr; Marciniak, Małgorzata; Mykowiecka, Agnieszka; Przepiórkowski, Adam; Woliński, Marcin (2004): Information extraction for Polish using the SProUT platform. In Proceedings of the International IIS:IIPWM WM'04 Conference, pp. 227--236. Springer Verlag.
48. RIV/zatím nebylo přiděleno
Pravdová, Markéta (2004): K způsobům persvaze v reklamních projevech. In Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV), pp. 131-136. Otto Sagner.
49. RIV/zatím nebylo přiděleno
Pravdová, Markéta (2004): Reklama jako zvláštní typ sdělování. In Vztah langue a parole v perspektivě "interaktivního obratu" v lingvistickém zkoumání, pp. 248-253. UP Olomouc.
50. RIV/zatím nebylo přiděleno
Psutka, Josef V.; Hajič, Jan; Byrne, William J. (2004): The Development of ASR for Slavic Languages in the MALACH Project. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2004, pp. 749-752.
51. RIV/zatím nebylo přiděleno
Psutka, Josef V.; Ircing, Pavel; Hajič, Jan; Radová, Vlasta; Psutka, Josef V.; Byrne, William J. (2004): Issues in annotation of the Czech spontaneous speech corpus in the MALACH project. In Proceedings of the 4th International Conference on Language Resources and Evaluation LREC , pp. 607-610.
52. RIV/zatím nebylo přiděleno
Radová, Vlasta; Psutka, Josef V.; Müller, ?; Byrne, William J.; Psutka, Josef V.; Ircing, Pavel; Matoušek, ? (2004): Czech Broadcast News Speech. Linguistic Data Consortium, University of Pennsylvania.
53. RIV/zatím nebylo přiděleno
Radová, Vlasta; Psutka, Josef V.; Müller, ?; Byrne, William J.; Psutka, Josef V.; Ircing, Pavel; Matoušek, ? (2004): Czech Broadcast News Transcripts. Linguistic Data Consortium, University of Pennsylvania.
54. RIV/zatím nebylo přiděleno
Ribarov, Kiril (2004): Automatic Building of a Dependency Tree - The Rule-Based Approach and Beyond. MFF UK.
55. RIV/zatím nebylo přiděleno
Ribarov, Kiril (2004): Towards Intelligent Written Cultural Heritage Processing - Lexical Processing. In Proceeedings of LREC 2004
56. RIV/zatím nebylo přiděleno
Ribarov, Kiril; Bubník, Jiří; Čelák, Jiří; Janota, Vojtěch; Kara, Alexandr; Novák, Václav; Vondra, Tomáš (2004): ACT - Computer Processing of Written Cultural Heritage Sources. In Proceedings of INFORUM 2004 Conference
57. RIV/zatím nebylo přiděleno
Ribarov, Kiril; Bubník, Jiří; Čelák, Jiří; Janota, Vojtěch; Kara, Alexandr; Novák, Václav; Vondra, Tomáš (2004): We present the ACT Tool. In Scripta & e-Scripta Bulgarian Academy of Sciences.
58. RIV/zatím nebylo přiděleno
Sgall, Petr (2004): Co pomůže češtině. O potřebě přejít od školské spisovnosti ke standardnímu vyjadřování. In Přítomnost, pp. 52--53.
59. RIV/zatím nebylo přiděleno
Sgall, Petr (2004): K obohacování spisovné češtiny. In Čeština - univerzália a specifika, pp. 77--85. Nakladatelství Lidové noviny.
60. RIV/zatím nebylo přiděleno
Sgall, Petr (2004): Types of Languages and the Simple Pattern of the Core of Language. In Linguistics Today - Facing a Greater Challenge (Plenary lectures from CIL 17), pp. 243--265. Benjamins.
61. RIV/zatím nebylo přiděleno
Sgall, Petr; Panevová, Jarmila (2004): Jak psát a nepsat česky. In Učební texty UK v Praze Karolinum.
62. RIV/zatím nebylo přiděleno
Sgall, Petr; Panevová, Jarmila; Hajičová, Eva (2004): Deep Syntactic Annotation: Tectogrammatical Representation and Beyond. In HLT-NAACL 2004 Workshop: Frontiers in Corpus Annotation, pp. 32--38. Association for Computational Linguistics.
63. RIV/zatím nebylo přiděleno
Smrž, Otakar (2004): Finite State Morphology. Review of Finite State Morphology. CSLI Publications, Stanford, California, 2003 (CSLI Studies in Computational Linguistics, xviii+510 pp and CD-ROM, ISBN 1-57586-434-7). In Prague Bulletin of Mathematical Linguistics MFF UK (in press).
64. RIV/zatím nebylo přiděleno
Smrž, Otakar; Pajas, Petr (2004): MorphoTrees of Arabic and Their Annotation in the TrEd Environment. In Proceedings of the NEMLAR International Conference on Arabic Language Resources and Tools, pp. 38--41. ELDA.
65. RIV/zatím nebylo přiděleno
Štícha, František (2004): Nominativ a instrumentál predikátového substantiva v současné češtině: sonda do korpusu. In Slovo a slovenost
66. RIV/zatím nebylo přiděleno
Štícha, František (2004): Sekundární imperfektiva v současné češtině. In Život s morfémy. Sborník studií na počest Zdenky Rusínové, pp. 151-160.
67. RIV/zatím nebylo přiděleno
Štícha, František (2004): Thematisierung, Satzanfang und Grammatikalität. In Linguistica Pragensia, pp. 90-103.
68. RIV/zatím nebylo přiděleno
Uhlířová, Ludmila (2004): Gramatika v korpusu, korpus v gramatice (Příspěvek k diskusi o vyhledávání gramatické informace v korpusech). In Slovo a slovenost
69. RIV/zatím nebylo přiděleno
Uhlířová, Ludmila (2004): O „nepřesné“ anafoře. In in press 70. RIV/68378092: /03:38030072
Uhlířová, Ludmila (2004): Samostatný lexém tento jako prvek množiny odkazových konkurentů. In Sborník prací Filozoficko- přírodovědecké fakulty Slezské univerzity v Opavě, pp. 168-176.
71. RIV/zatím nebylo přiděleno
Urešová, Zdeňka (2004): The verbal valency in the Prague Dependency Treebank from the annotator's point of view. In sborník přednášek JÚLŠ SAV (in press)
72. RIV/zatím nebylo přiděleno
Veselá, Kateřina; Havelka, Jiří; Hajičová, Eva (2004): Annotators' Agreement: The Case of Topic-Focus Articulation. In Proceedings of the 4th International Conference on Language Resources and Evaluation, pp. 2191-2194. European Language Resources Association.
73. RIV/zatím nebylo přiděleno
Veselá, Kateřina; Havelka, Jiří; Hajičová, Eva (2004): Condition of Projectivity in the Underlying Dependency Structures. In Proceedings of Coling 2004, pp. 289--295. COLING.
74. RIV/zatím nebylo přiděleno
Veselá, Kateřina; Peterek, Nino; Hajičová, Eva (2004): Prosodic Characteristics of Czech Contrastive Topic. In Proceedings of 8th International Conference on Spoken Language Processing, Interspeech 2004, pp. 4. Sunjin Printing Co..
75. RIV/zatím nebylo přiděleno
Zeman, Daniel (2004): Data-Oriented Parsing by Rens Bod, Remko Scha, and Khalil Sima. In Prague Bulletin of Mathematical Linguistics, vol. 81 Univerzita Karlova.
76. RIV/zatím nebylo přiděleno
Zeman, Daniel (2004): Non-projectivity in Czech sentences. In UFAL/CKL technical report MFF UK, TR-2004-22.
77. RIV/zatím nebylo přiděleno
Zeman, Daniel (2004): Parsing with a Statistical Dependency Model. Univerzita Karlova.
78. RIV/zatím nebylo přiděleno
Žabokrtský, Zdeněk; Lopatková, Markéta (2004): Valency Frames of Czech Verbs in VALLEX 1.0. In HLT-NAACL 2004 Workshop: Frontiers in Corpus Annotation, pp. 70--77. Association for Computational Linguistics.
Specifikace a zdůvodnění jednotlivých položek finančních prostředků projektu čerpaných v r. 2004
1. rozpis celkových výdajů ve sledovaném období za všechny účastníky projektu
Centrum | |
Investice | 3 500 |
Neinvestice | 31 943 |
Mzdy | 11 576 |
z toho OON | 600 |
Režie | 7 909 |
Ostatní | 12 458 |
Ostatní podrobně | |
Odpisy | 2 839 |
Cestovné a pobyty | 3 048 |
Pojištění | 4 051 |
DHM a NHM | 843 |
Materiál | 539 |
Služby | 249 |
Další | 889 |
35 443 |
2. specifikace a zdůvodnění jednotlivých výdajových položek ve vztahu k projektu
V roce 2004 byly všechny položky rozpočtu čerpány podle specifikace ve smlouvě. Zde uvádíme zdůvodnění podle jednotlivých pracovišť Centra.
Pracoviště MFF UK Praha: Investice viz bod 3.
Neinvestice (plán 19 066 tis., využito 19 066 tis. Kč)
Mzdy (plán 9 983 tis.)
Mzdové prostředky podle plánu využity na platy a odměny zaměstnanců, viz bod 2. Personální a organizační zabezpečení Centra (využito 9 983 tis.).
OON (plán 600 tis.)
Prostředky využity podle plánu (využito 595 tis.).
Režie (plán 1 514 tis.)
Prostředky na režii využity podle plánu (využito 1 513 tis).
Ostatní (plán 7 569 tis., využito 7 570 tis)
Cestovné a pobyty (plán 2 638 tis.)
Cestovné bylo podle plánu použito na úhradu cest pracovníků CKL na zahraniční i domácí konference, kde prezentovali své výsledky (viz seznam zahraničních cest níže)
(využito 2 663 tis. Kč, mírné navýšení bylo hrazeno z nevyčerpaných prostředků na pojištění OON).
Pojištění (plán 3 494 tis.)
Prostředky využity podle plánu (využito 3 470 tis. Kč).
DHM a NHM (plán 586 tis.)
Prostředky využity podle plánu (využito 584 tis. Kč).
Materiál (plán 457 tis.)
Prostředky využity podle plánu (využito 458 tis. Kč).
Služby (plán 74 tis.)
Prostředky využity podle plánu (využito 74 tis. Kč).
Další (plán 320 tis.)
Prostředky využity podle plánu (využito 321 tis. Kč).
Seznam domácích a zahraničních cest pracovníků MFF UK hrazených částečně nebo zcela z prostředků CKL:
Pracovníci Centra věku většího 35 let
Jan Hajič
- Brno, ČR, únor 2004
Účast na konferenci.
Eva Hajičová
- Berlín, Německo, leden 2004
Zasedání Konsorcia projektu ERA (EU) Lang-Net, kde CKL/ÚFAL je navrhován za jednoho z partnerů.
- Tübingen, Německo, leden - únor 2004
a) Účast na konferenci: Linguisticc Evidence-Empircal, Theoretical, and Computational Perspectives (Tübingen)
b) Účast na konferenci: "Information Structure and the Architecture of Grammar (předsedání zasedání).
C) přednáška na univ. Ve Stuttgartu.
- Osaka, Japonsko, březen 2004
Účast na zasedání výkonného výboru International Speech & Communnication Association v Kyotu (jako členka výboru , (20. 22. 3. 2004)
Účast na mezinárodní konferenci Speech Prosody 2004v Naře, 23. -26. 3. 2004.
- Basilej, Švýcarsko, duben 2004
Účast na mezinárodním workshopu Metodologické základy studia mrtvých jazyků, přednesení pozvané přednášky.
- Boston, USA, květen 2004
1. Účast na mezinárodní konferenci HLT/ACL 2004 v Bostonu. Proslovení referátu.
2. Konzultace na Columbia University (Computer Science s prof. Kathy McKeown.
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004, přednesení referátu společně s K. Veselou a J. Havelkou,
2. Spoluorganizátorka 2 workshopů,
3. Účast na zasedání přípravného výboru mezinárodního projektu EU ERA-Net.
- Lipsko, Německo, červen 2004
Účast na mezinárodním workshopu Interface and Interface Conditions s přednesením referátu (společně s P. Sgallem) "Contextual Boundness and Context.
- Paříž, Francie, červenec 2004
Účast na pracovní poradě partnerů společného navrhovaného projektu EU LangNet (v rámci programu ERA), příprava formulací, etap a předpokládaných výsledků.
- Barcelona, Španělsko, červenec 2004
1. Účast na koordináčním zasedání k přípravě projektu LANGNET (program EU) - 19. 7.
2. Účast na koordinačním zasedání pro přípravu tutorialů a značkování korpusu - 21. 7.
3. Tutorial (45 účastníků) o anotování korpusu
4. Hlavní konference ACL 2004 22. -24. 7.
5. Členka programového výboru a účast na workshopu o discursu.l
- Ženeva, Švýcarsko, srpen 2004
1.Účast na mezinárodní konferenci COLING 2004 přednsení referátu
2. Jako místopředsedkyně mez. Komitétu komputační lingvistiky, účast na zasedání komitétu
3. Účast na workshopu Dependency Grammer
- Brno, ČR, září 2004
Návštěva MU Brno spolu s doc. Kučerou.
- Leiden, Holandsko, září 2004
Účast na zasedání výkonného výboru - Commité International Permanent des Linguistes (jehož jsem členkou).
- Azorské ostrovy, Portugalsko, září 2004
Účast na mezinárodním kolokviu DAARC 2004 (5th Discourse Anaphora and Anaphor Resolution Colloquium( ve
Furnas, (S. Miguel, Azores) ve dnech 23.-24. 9. 2004 s přednesením referátu Coreferential relations in the Prague Dependency Treebank (společný referát s Luciíí Kučovou.
- Jejn Island, Jižní Korea, říjen 2004
1. Účast na zasedání výkonného výboru ISCA (Mezinárodní asociace pro řeč a jazyk), jehož jsem členkou (2. - 4. 10. 2004),
2. Účast na Int. Conf. Of Speech and Language Processing, Jejn Island, přednesení posteru (společný s N. Peterkem a K. Veselou) "Prosodic Characterics of Czech contrastive topic" (4.-7. 10. 2004),
3. Pozvaná přednáška na Seoul National University "Topic-Focus Articulation in the underlying Structure of Sentens" (8. 10. 2004).
- Šlapanice, ČR, listopad 2004
Účast na semináři.
- Paříž, Francie, listopad 2004
Jednání s vedením ústavu počítačové lingvistiky INALCO o zapojení do společenských projektů EU a do mezinárodní dohody.
Přednáška pro studenty a postgraduanty.
Markéta Lopatková
- Lisabon, Portugalsko, květen 2004
Účast na mezinárodní konferenci LREC 2004. Účast na workshopu Building Lexical Resources.
- Brno, ČR, září 2004
Účast na konferenci TSD.
- Popradské Pleso, Slovensko, září 2004
Účast na mezinárodním workshopu ITAT 2004, přednesení příspěvku Dependency Analysis by Reduation for Natural Languages.
Jarmila Panevová
- Marburg, Německo, říjen 2004
Účast na odborném a organizačním zasedání Komise programtickou stavbu slovanských jazyků při Mezinárodním komitétu slavistů. Přednesení příspěvku, řízení organizačního zasedání (jako předsedkyně této komise).
- Olomouc, ČR, říjen - listopad 2004
Účast na semináři.
- Šlapanice, ČR, listopad 2004
Účast na semináři.
- Paříž, Francie, listopad 2004
Spolupráce se skupinou automatického zpracování jazyka v INALCO Paříž. Výuka pro studenty magistreského a doktorksého studia. Konzultace o spoluráci v v rámci projektů EU (M.-A. Moreaux, M. Faunton, M. Slasian).
Petr Sgall
- Tübingen, Německo, leden – únor 2004
Účast na dvou konferencích na univerzitě v Tübingen
9Linguistic Evidenc-Empirical, Theoretical and Computational Perspective) jako předseda zasedání , a Information Structure and the Architecture of Grammar , účast na panelu
- Brno, ČR, únor 2004
Účast na semináři.
- Lisabon, Portugalsko, květen 2004
Účast na mezinárodní konferenci LREC 2004. Účast na jednání přípravného výboru mezinárodního projektu ERA- Net, účast na workshopu o lexikální sémantice.
- Lipsko, Německo, červen 2004
Aktivní účast na konferenci "Interface and Interface Conditions s přednesením referátu, společně s E. Hajičovou přednesení referátu "Contextual Boundness and Context.
Zdeňka Urešová
- Philadelphia, Baltimore, USA, červen - červenec 2004
1. Pobyt na University of Pennsylvania, PA = příprava tutoriálu na ACL 04, Barcelona (20.-22. 7. 04) demonstarce (pro CIS a LDC) syntaktické anotace PDT, jednání o publikaci CD v LDC.
2. Pobyt u IBM Research Yorktown, projekt MALACH, jednání o přídavném projektu předkládaném NSF USA.
- Barcelona, Španělsko, červenec 2004
Účast na tutoriálu (spoluautorka) "Beyond Syntax: Valency, Predicate - argument Structure and FrameNet", 21. 7. 04, 45 účastníků
- Účast na schůzce o projektech sémantické anotace, 21. 7. 2004
- Účast na ACL 2004, 22. 7. - 24. 7. , účast na workshopu Text and Meaning,
- Demonstrace syntaktické anotace na AR a TR, demonstrac PDT - Vallexu na University of the Basque Country, San Sebastina, 28.- 29. 7. 2004
Pracovníci Centra věku menšího či rovna 35 let
Emanuel Beška
- Káhira, Egypt, září 2004
Podíl na prezentaci v rámci konference NEMLAR v Káhiře. Šlo o příspěvek Prague Arabic Dependency Treebank - Development in Data and Tools, zahrnující výsledky dotyčného projektu na ÚFAL a CKL UK MFF.
Ondřej Bojar
- Nancy, Ženeva, Francie, Švýcarsko, srpen 2004
V účast na letní škole ESSLLI. V Ženevě účast na konferenci COLING 2004 a workshopu věnovaného závislostním gramatikám.
- Kodaň, Dánsko, září 2004
Na workshopu Constraint Solving and Language Processing (CSLP 2044) přednesení referátu s názvem "Problems of Large Coverage Constrait-Basel Dependency Grammer for Czech.
Silvie Cinková
- Brno, ČR, září 2004
Účast na konferenci TSD.
Jan Cuřín
- Boston, USA, květen 2004
Účast na konferenci HLT/NAACL/04
Účast na workshopu Frontiers in Corppus Annotation"
Spoluaotor příspěvku "Prague Czech-English Dependency Treebank: Any hopes for common annotation scheme_"
Návštěva na Brown University v Providence (E. Charniak, K. Hall, H. Fox), jednání o možnosti vužotí závislostního přístupu ve strojovém překladu
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004, spoluautor příspěvku s názvem:
"Prague Czech-English Dependency Treebank: Syntactically Anotated Resources for Structual Machine Translation"
Martin Čmejrek
- Boston, USA, květen 2004
1. Účast na konferenci HLT/ACL 2004 proslovení referátu
2. Návštěva na Brown University v Providence. Jednání o problematice strojového překladu s E. Charniakem, H. Fox a K. Hall.
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004, spoluautor příspěvku s názvem:
"Prague Czech-English Dependency Treebank: Syntactically Anotated Resources for Structual Machine Translation"
Martin Holub
- Brno, ČR, leden – únor 2004
Účast na semináři
- Barcelona, Španělsko, červenec 2004
Aktivní účast na konferenci ACL 2004,
publikovaný příspěvek ve sborníku, přednesený referát.
Petr Homola
- Riga, Litva, duben 2004
Účast na konferenci a přednesení referátu.
- Saarbrücken, Německo, duben 2004
1) na DFKI (s J. Piskorskim a W. Drozdynskym) práce na integraci zdrojů pro slovanské jazyky do systému SProllT a s tím spojeným vylepšením s jazyky Česílko (pro pár CZ-PL)
2) na CeLi (G.-J. Kruijff) práce na statistických jazykových modelech (včetně pro češtinu)
- Zakopane, Polsko, květen 2004
Prezentace článku o využití Named entity recognition v systému strojového překladu.
- Kaunas, Litva, červen 2004
Účast na konferenci "KTU - 3rd international conference Language, technology and culture variety" , přednesení referátu "Machine translation among related languages". Vypracování konceptu systému strojového překladu pro litevštinu založeného na hloubkové analýze..
- Nancy, Francie, srpen 2004
Na letní škole účast na několika týdenních kurzech, na 'student session' přednesení referátu na téma "On some aspects of machine translation among related languages".
Veronika Kolářová
- Brno, ČR, září 2004
Účast na konferenc TSD.
- Šlapanice, ČR, listopad 2004
Lucie Kučová
- Azorské ostrovy, Portugalsko, září 2004
Účast na konferenci DAARC 2004 jako spoluautor příspěvku, jenž byl na této konferenci pronesen.
Pavel Pecina
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004. Prezentace referátu na workshopu Building Lexical Resources..
Petr Podveský
- Nancy, Francie, srpen 2004
ESSLLI 2004, letní škola o logice jazyka a jejich strojovém zpracování, účast na kurzech a na akcích spojených s letní školou.
Kiril Ribarov
- Lisabon, Portugalsko, květen 2004
Účast na mezinárodní konferenci LREC 2004 a na seminářích během konference. Aktivní účast v sekci "Tools for Corpora 7 Lexicons", kde jsem prezentoval svoji práci na anotačním nástroji ACT pro psané kulturní dědictví.
Jiří Semecký
- Barcelona, Španělsko, červenec 2004
Účast na konferenci ACL 2004. Spolu s Martinem Holubem a Jiřím Divišem na studentské sekci (Student Research Workshop) při ACL -04 publikace článku Seaching for Topics in a Large Collection of Texts.
Otakar Smrž
- Káhira, Egypt, září 2004
Prezentace výsledků projektu Prague Arabic Dependency treebank ve fromě dvou konferenčních příspěvků
Pavel Straňák
- Brno, ČR, leden 2004
Účast na semináři.
- Berlín, Německo, únor 2004
Konzultace a jednání s prof. Hanksem a Annou Rumschiski.
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004.
Kateřina Veselá
- Lisabon, Portugalsko, květen 2004
Účast na konferenci LREC 2004 - sekce Coreference and Anapohora, Tagging, Evaluation a účast na workshopu. Spoluautor referátu
- Ženeva, Švýcarsko, srpen 2004
Účast na konferecni COLING 2004, referát "Condition of Projectivity in the Underlying Dependency Structures (společně s E. Hajičovou aj. Havelkou).
Daniel Zeman
- Ženeva, Švýcarsko, srpen 2004
Účast na mezinárodní vědecké konferenci COLING 2004, pořádané Ženevskou univerzitou, včetně přidružených workshopů.
- Brno, ČR, září 2004
Účast na konferenci TSD.
Zdeněk Žabokrtský
- Boston, USA, květen 2004
Účast na konferenci Human Language Technology 2004 a na workshopu Forntiiers in Corpus Annotation přednesení příspěvku Valency Frames of Czech Verbs in VALLEX 1.0. Návštěva prof. Charniaka na Brown University.
- Saarbrücken, Německo, červenec 2004
Prezentace valenčního slovníku VALEX, seznámení se s jejich přístupem k lexikální sémantice v projektu SALSA. Práce s tektogramatickými stromy vytvořenými anotací části korpusu Nogra, práce na zlepšení lematizace vstupních databazí a odstraňování nekonzistencí v anotovaných datech a zprovoznění nových nástrojů pro práci s daty.
Investice: Celková cena 400 tis. Kč, detailní přehled viz bod 2. Neinvestice (přiděleno 1 839 tis. Kč)
Mzdy (plán 603 tis. Kč)
Za měsíce leden až prosinec 2004 bylo vyplaceno 603 tis. Kč
OON (plán 0 Kč)
Za měsíce leden až prosinec 2004 bylo vyplaceno 0 tis. Kč
Režie (plán 206 tis. Kč)
Režie 206 tis. Kč
Ostatní (plán 1 030 tis. Kč) Cestovné (plán 234 tis. Kč)
Konference ICASSP, ICSLP, TSD, SPECOM, 144,2 tis. Kč
Meeting týmu letního workshopu (pořádala JHU Baltimore) 38,8 tis. Kč Workshop CLEF 2004 v Bathu 15,0 tis. Kč Setkání týmu IEM v Londýně 16,6 tis. Kč
Cestovné tuzemské 25,8 tis. Kč
Celkem 240,4 tis. Kč
Pojištění sociální a zdravotní (plán 211 tis. Kč)
Přenosné disky | 18,1 tis. Kč | |
2x HDD WD | 25,7 tis. Kč | |
Sluchátka | 3,5 tis. Kč | |
Knihy | 42,4 tis. Kč | |
Řečové korpusy (LDC) | 26,3 tis. Kč | |
Propojovací kabely | 2,2 tis. Kč | |
Celkem | 118,2 tis. Kč |
Pojištění (leden-prosinec) 210,1 tis. Kč DHM a NHM (plán 110 tis. Kč)
Materiál (plán 35 tis. Kč)
Kancelářský materiál | 12,5 tis. Kč | |
MMVS kupony | 1,5 tis. Kč | |
Pořadač CD | 1,6 tis. Kč | |
Celkem | 15,6 tis. Kč |
Služby (plán 146 tis. Kč)
Vložné TSD 2004 10,8 tis. Kč
Vložné na konf. (ICASSP2004, SPECOM2004, ICSLP2004,
CLEF2004) 57,6 tis. Kč
Publikační služby 70,0 tis. Kč
Ostatní služby (bankovní, telefonní, poštovné, přepravné ap.) 12,5 tis. Kč
Celkem 150,9 tis. Kč
Další (plán 294 tis. Kč)
Místnosti (teplo, energie ap.) 100,0 tis. Kč
Stipendia 160,0 tis. Kč
Oprava a údržba 29,3 tis. Kč
Kopírovací služby 5,5 tis. Kč Celkem 294,8 tis. Kč
Neinvestice celkově (k 11.1.05) 1 839,0 Kč Seznam cest pracovníků ZČU hrazených částečně nebo zcela z prostředků CKL:
• Na prestižní konferenci ICASSP v Montrealu byl přednesen vyzvaný referát: Psutka, J., Hajič, J., Byrne, W.: The Development of ASR for Slavic Languages in the MALACH Project (prof. Psutka), na konferenci SPECOM v Petrohradě byl presentován článek: Kolář, J., Švec, J., Psutka, J.: Automatic Punctuation Annotation in Czecch Broadcast News Speech (ing. Kolář, doktorand podílející se na práci CKL). Na konferenci TSD - prof. Psutka chairman sekce „Speech processing“.
• Doktorand spolupracující s CKL Ing. Kolář se zúčastnil konference Conference SPECOM2004 (Petersburg).
• Pracovník Centra Ph.D. Pavel Ircing byl vybrán jako člen pracovního týmu pro letní Workshop pořádaný JHU v Baltimore. Tématika řešená na workshopu velmi úzce souvisela se zaměřením nově navrhovaného „Centra komputační a aplikované lingvistiky“ (pokračovatel CKL), jehož měl být Ph.D. Ircing klíčový pracovník. Z projektu byly placeny jen částečně náklady na dvě pracovní setkání (první na JHU v Baltimore a druhé souběžně s konferencí ICASSP v Montrealu)
• Ph.D. Pavel Ircing se zúčastnil workshopu CLEF2004 (Cross-Language Evaluation Forum) v Bathu. CLEF se zabývá výzkumem metod pro „information retrieval“ v multijazykovém prostředí. P. Ircing byl přizván do pracovní skupiny, kde projednával možnosti zařazení CKL a zejména navrhovaného pokračujícího Centra do těchto mezinárodních aktivit (navrhovaná tématika velmi úzce souvisí s tématikou plánovaného pokračujícího „Centra komputační a aplikované lingvistiky“).
• prof. Psutka se zúčastnil v Londýně pracovní schůzky navrhovatelů projektu „Immersive Environment Machines“ v rámci 6. RP EU. Plzeňská sekce Centra by měla na tomto velmi rozsáhlém projektu řešit problematiku zpracování informací získaných z „řečového kanálu“. Opět šlo o tématiku, se kterou bylo počítáno v navrhovaném pokračujícím
„Centru komputační a aplikované lingvistiky“.
Investice: Celková cena 200 tis. Kč, detailní přehled viz bod 2.
Neinvestice: Neinvestice jsou čerpány podle rozpočtu na rok 2004.
Seznam cest pracovníků UJČ hrazených částečně nebo zcela z prostředků CKL:
Pracovníci Centra věku většího 35 let
F. Štícha:
březen 2004: účast na konferenci v Mannheimu
květen 2004: pracovní pobyt na univerzitě v Neapoli (spolupráce s prof. F. Esvanem na tvorbě vidových databází) září 2004: pracovní seminář na univerzitě v Tübingen (spolupráce s prof. T. Bergerem na získávání dat o české morfologii z korpusů)
září 2004: účast na konferenci o anafoře a korpusech na Azorských ostrovech listopad 2004: účast na konferenci v Salzburgu (referát na téma Grammar and Corpus)
listopad 2004: účast na konferenci v Regensburgu o modalitě ve slovanských jazycích (korpusový referát)
L. Uhlířová:
říjen 2004, Marburg, Německu, zasedání mezinárodní komise pro gramatickou stavbu slovanských jazyků; Sofia, duben, Sofijská univerzita; Ústavu bulharského jazyka
Pracovníci Centra věku menšího 35 let
Flanderková, E.:
11. - 18. 11. 2004, studijní pobyt v Max-Planck-Institut for Psycholinguistics, Holandsko, Nijmegen
Prošek, M.:
8. 9. - 11. 9. 2004 Slovensko, Bratislava, "Konferencia o jazykovej kultúre", konaná Jazykovedným ústavem L. Štúra SAV.
Pravdová, M., Smejkalová, K., Prošek M.:
22. 9. - 27. 9. 2004 Itálie, Bergamo, slavistická konference "Polyslav"
3. jednoznačná specifikace položek hrazených z účelové dotace
Plán:
Centrum | MFF UK | ZČU | ÚJČ | |
3 500 | 2 900 | 400 | 200 | |
Neinvestice | 22 682 | 19 066 | 1 839 | 1 777 |
Mzdy | 11 318 | 9 983 | 603 | 732 |
z toho OON | 600 | 600 | 0 | 0 |
Režie | 1 894 | 1 514 | 206 | 174 |
Ostatní | 9 470 | 7 569 | 1 030 | 871 |
Ostatní podrobně | ||||
Cestovné a pobyty | 3 048 | 2 638 | 234 | 176 |
Pojištění | 3 961 | 3 494 | 211 | 256 |
DHM a NHM | 843 | 586 | 111 | 146 |
Materiál | 539 | 457 | 35 | 47 |
Služby | 249 | 74 | 146 | 29 |
Další | 830 | 320 | 293 | 217 |
26 182 | 21 966 | 2 239 | 1 977 |
Skutečnost:
Centrum | MFF UK | ZČU | ÚJČ | |
3 500 | 2 900 | 400 | 200 | |
22 682 | 19 066 | 1 839 | 1 777 | |
Mzdy | 11 318 | 9 983 | 603 | 732 |
z toho OON | 595 | 595 | 0 | 0 |
Režie | 1 893 | 1 513 | 206 | 174 |
Ostatní | 9 471 | 7 570 | 1 030 | 871 |
Ostatní podrobně | ||||
Cestovné a pobyty | 3 085 | 2 663 | 240 | 182 |
Pojištění | 3 946 | 3 470 | 210 | 266 |
DHM a NHM | 862 | 584 | 118 | 160 |
Materiál | 519 | 458 | 16 | 45 |
Služby | 254 | 74 | 151 | 29 |
Další | 805 | 321 | 295 | 189 |
26 182 | 21 966 | 2 239 | 1 977 |
4. specifikace položek hrazených z prostředků příjemce, příp. spolupříjemců.
Celkem | MFF UK | ZČU | ÚJČ | |
Investice | 0 | 0 | 0 | 0 |
Neinvestice | 9 261 | 7 840 | 489 | 932 |
Mzdy | 258 | 172 | 0 | 86 |
Režie | 6 015 | 5 113 | 221 | 681 |
Odpisy | 2 838 | 2 475 | 239 | 125 |
Místnosti | 20 | 0 | 20 | 0 |
Pojištění | 90 | 60 | 0 | 30 |
Další | 40 | 20 | 10 | 10 |
Celkem | 9 261 | 7 840 | 489 | 932 |
Komentář: Vklad ZČU byl realizován na účet projektu ve výši 251 tis. Kč. Tento vklad byl využit na částečné pokrytí režijních nákladů Centra. Další spoluúčast ZČU byla provedena prostřednictvím odpisů investičního majetku. ZČU hradí odpisy investičního majetku zakoupeného v plzeňské sekci CKL v roce 2000, 2002, 2003 a v roce 2004 (v roce 2001 byly investice nakupovány MFF a jsou i v jejím majetku). Bohužel není administrativně možné, aby odpisy majetku CKL realizované na ZČU procházely účetně přes zvláštní účet otevřený pro vykazování spoluúčasti ZČU.
Přehled čerpání finančních prostředků projektu v době řešení projektu
Náklady na řešení projektu
Rok | Účelová podpora ze státního rozpočtu (tis. Kč) | Jiné zdroje použité k řešení projektu (tis. Kč) | Typy jiných zdrojů (veřejné jiné než účelová. podpora, tuzemské neveřejné, zahraniční atp.) |
2000 | 10 662 | 3 177 | veřejné jiné než účelová |
2001 | 18 671 | 6 387 | veřejné jiné než účelová |
2002 | 21 860 | 7 764 | veřejné jiné než účelová |
2003 | 20 520 | 8 666 | veřejné jiné než účelová |
2004 | 26 182 | 9 261 | veřejné jiné než účelová |
Celkem | 97 895 | 35 255 |
Zpracoval (jméno): Ing. Vlad. Stáňa, vedoucí HO
V dne
Tisková zpráva 2:
Cílem Centra komputační lingvistiky (CKL) byl výzkum a vývoj v oblasti moderní počítačové lingvistiky na zcela nové úrovni založené na jedinečné vícerovinné analýze velmi rozsáhlého korpusu. Činnost Centra, díky kterému se podařilo vytvořit u nás jediný integrovaný tým pro výzkum psané i mluvené řeči, měla a má velký význam pro aplikace v mnoha oborech služeb a průmyslu, které pracují s komunikací člověka s počítačem.
Stěžejním projektem CKL bylo vybudování Pražského závislostního korpusu, což je soubor českých textů s bohatou informací o morfologii, větné stavbě a významové struktuře vět (první verze korpusu, "Prague Dependency Treebank, Version 1.0" byla vydána na CD-ROM v roce 2001, druhá verze, "Prague Dependency Treebank, Version 2.0" bude vydána v roce 2005). Takový soubor textů slouží jednak dalšímu teoretickému zkoumání češtiny, zejména jde však o velké množství lingvisticky zpracovaných dat, která jsou nezbytná pro automatické zpracování přirozeného jazyka pro jakýkoliv aplikovaný úkol – strojový překlad, vyhledávání informací (tzv. data mining), automatické "porozumění" textu i jeho generování.
Druhým základním směrem Centra byl statisticky založený výzkum v oblasti rozeznávání mluvené řeči. Výsledky tohoto směr výzkumu byly dán k dispozici odborné veřejnosti jako "Czech Broadcast News Corpus" a " Czech Broadcast News Transcripts" na dvou CD-ROM v roce 2004. Zásadním přínosem bylo zapojení Centra do mimořádně rozsáhlého mezinárodního projektu MALACH (Multilingual Access to Large Spoken Archives), jehož cílem je vývoj systémů pro automatický předpis svědeckých výpovědí lidí, kteří přežili holocaust. Svědecké výpovědi byly pořízeny ve více než 30 různých jazycích a česká strana je prostřednictvím Centra spoluzodpovědná za zpracování jazyků střední a východní Evropy.
Dalším cílem výzkumu Centra bylo vytváření a využívání vícejazyčných zdrojů. Pozornost byla věnována zejména studiu a uplatnění paralelních korpusů se zaměřením na strojový a strojem podporovaný překlad
– v roce 2004 byla vydána unikátní sada počítačových databází a nástrojů pro automatický překlad "Prague Czech-English Dependency Treebank, PCEDT 1.0". Takto pojatá výzkumná činnost vedla k získání dalších znalostí o češtině srovnatelných s výsledky výzkumu jiných jazyků.
Nepostradatelnou součástí činnosti Centra komputační lingvistiky jako centra základního výzkumu byl výzkum teoretických aspektů komputační lingvistiky se zaměřením především na češtinu v podobě psané i mluvené a s ohledem na možné aplikace. Metodologie výzkumu v rámci Centra byla založena na prohloubeném studiu, porovnávání a kvalifikovaném využití postupů strukturních i statistických včetně metod strojového učení, s ohledem na specifické typologické vlastnosti češtiny jako vysoce flexívního jazyka.
Jak ukázala veřejná vědecká rozprava o výsledcích Centra konaná ve dnech 29.-30. listopadu 2004, za účasti 7 předních zahraničních vědců z oboru komputační lingvistiky, tyto výsledky mají přední místo v evropském i světovém výzkumu a jsou ve světě přijímány s vynikajícím ohlasem.
Činnost Centra bohatě naplnila očekávané možnosti v navazování a udržování těsných kontaktů s českým a mezinárodním průmyslem využívajícím počítače, o čemž svědčí i zájem partnerů a uživatelů z oblasti aplikační sféry o vhodně zpracované a užitečné zdroje pro široce založený vývoj a aplikace.
V Praze dne:
řešitel projektu (podpis) | příjemce dotace (razítko a podpis statut .zást. nositele) |
2 Tisková zpráva je součástí pouze závěrečné zprávy a charakterizuje hlavní dosažené výsledky projektu, (záznamy o konkrétních výstupech projektu jako jsou publikace, výzkumné zprávy, patenty atd. nositel zasílá každoročně do RIV!¨.