A | B | C | D | E | F | G | H | CH | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze, zkr. ÚČNK, vytváří a spravuje Český národní korpus a vedle vědy a výzkumu se věnuje též výuce a podpoře uživatelů Českého národního korpusu a paralelních korpusů řady InterCorp.
Struktura
Ředitelem ústavu je Mgr. Michal Škrabal, Ph.D.
Ústav je rozčleněn na následující sekce:[1]
- Lingvistická (vedoucí Mgr. Dominika Kováříková, Ph.D.)
- Komputační (vedoucí Mgr. Pavel Vondřička, Ph.D.)
- Mluvené korpusy (vedoucí Mgr. David Lukeš, Ph.D.)
- Diachronní korpusy (vedoucí Mgr. Martin Stluka, Ph.D.)
- Lingvistická analýza a anotace (vedoucí Mgr. Tomáš Jelínek, Ph.D.)[1]
- Paralelní korpusy (vedoucí Ing. Alexandr Rosen, PhD.)[1]
Činnost
Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s jinými jazyky (paralelní korpusy).
S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant SyD) a podpora uživatelů.
Řady korpusů
V současnosti projekt ČNK spravuje následující řady korpusů:
Korpusy psané současné češtiny o celkovém rozsahu 1300 milionů textových slov jsou referenční (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a reprezentativní (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny)
- SYN2000 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 1990–1999
- SYN2005 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2000–2004
- SYN2006PUB – 300 mil. slov, korpus publicistických textů z let 1989–2004
- SYN2009PUB – 700 mil. slov, korpus publicistických textů z let 1995–2007
- SYN2010 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2005–2009
- SYN2013PUB – 935 mil. slov, referenční korpus publicistických textů z let 2005–2009
- SYN2015 – 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
- SYN2020 – 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2015–2019
- SYN (verze 8) – 4,5 mld. slov, verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty
Korpusy mluvené češtiny (synchronní)
- Pražský mluvený korpus – 675 tis. slov, přepis nahrávek pražské mluvy z 90. let 20. století
- Brněnský mluvený korpus – 490 tis. slov, přepis nahrávek brněnské mluvy z 90. let 20. století
- ORAL2006 – 1 mil. slov, korpus neformální mluvené češtiny (pouze Čechy)
- ORAL2008 – 1 mil. slov, sociolingvisticky vyvážený korpus neformální mluvené češtiny (pouze Čechy)
- ORAL2013 – 2,8 mil. slov, reprezentativní korpus neformální mluvené češtiny (Čechy, Morava a Slezsko)
- ORAL – 5 368 391 slov, celkový čas nahrávek 582 hodin, sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z
Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus ORAL2008, pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Rozhraní KonText zpřístupňuje i anonymizované zvukové nahrávky.
- ORTOFON – verze 2, 2,1 mil. slov, referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (Čechy, Morava a Slezsko)
Korpus ORTOFON zachycuje spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství).
- DIALEKT – 100 tis. slov, referenční nářeční korpus s dvouúrovňovou transkripcí
Korpus DIALEKT prezentuje teritoriální dialekty zachycené na území celé České republiky. Starší časová vrstva korpusu obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. Korpus doplňuje Archiv diferenčních hlásek nářečí českého jazyka a webová aplikace Mapka (interaktivní mapa České republiky s detailně vyznačenými hranicemi nářečních celků (základní členění na oblasti nebo podrobné na podskupiny, úseky, typy), popisy nářečích rysů hlavních nářečních oblastí a ukázkami ve formě nahrávek a jejich přepisů s rozbory).
- ORATOR – referenční korpus monologů s jednoúrovňovou transkripcí
Korpus diachronní (DIAKORP)
Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus referenční, průběžně rostoucí ve verzích. Ve verzi 6 obsahuje přes 3,4 mil. slov.
Korpusy paralelní (InterCorp)
InterCorp zahrnuje překladové ekvivalenty českých textů do 40 jazyků.[2] Verze 13 z roku 2020 obsahuje 1 551,2 mil. slov.
Publikace
ÚČNK dlouhodobě spolupracuje s Nakladatelstvím Lidové noviny,[3] kde mj. vydává řadu Studie z korpusové lingvistiky. Dále vyšlo:
- Frekvenční slovník češtiny (NLN, 2004)
- Frekvenční slovník mluvené češtiny (Karolinum, 2007)
- A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011)
- Mluvnice současné češtiny (Karolinum, 2010)
Ke stažení jsou zpřístupněny abecední a retrográdní slovníky, založené na korpusech řady SYN.
Historie
Ústav Českého národního korpusu byl založen 9. září 1994. Pravidelnou činnost vyvíjí od 1. října 1996, kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000.[4]
Reference
- ↑ a b c Ústav Českého národního korpusu
- ↑ Dostupné korpusy. www.korpus.cz . . Dostupné v archivu pořízeném dne 2010-04-17.
- ↑ přehled publikací. ucnk.ff.cuni.cz . . Dostupné v archivu pořízeném dne 2012-09-27.
- ↑ Ikaros – Český národní korpus
Externí odkazy
- Oficiální internetový portál
- Veřejný přístup ke korpusu SYN2010 (bez nutnosti registrace) Archivováno 10. 1. 2015 na Wayback Machine.
- SyD - nástroj pro porovnávání variant v češtině na základě synchronních, diachronních a mluvených dat ČNK (bez nutnosti registrace)
- InterCorp - paralelní překladové korpusy více než dvaceti jazyků
- Blog korpusového lingvisty - V. Cvrček na Aktuálně
Text je dostupný za podmienok Creative Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších podmienok. Podrobnejšie informácie nájdete na stránke Podmienky použitia.
Antény
Chemické zdroje elektriny
Chladenie v elektrotechnike
Elektrická sústava automobilu
Elektrická trakcia
Elektrické prístroje
Elektrické súčiastky
Elektrické spotrebiče
Elektrické stroje
Čítanie (elektrotechnika)
Činný výkon
Štatistická dynamika
Živý vodič
Admitancia
Antiparalelné zapojenie
Asynchrónny motor
Blúdivý prúd
Bočník (elektrotechnika)
Diak (polovodičový prvok)
Displej s kvapalnými kryštálmi
Elektrická inštalácia
Elektrická rezonancia
Elektrická sila
Elektrická vodivosť
Elektrické zariadenie
Elektrický obvod
Elektrický zvonec
Elektroenergetika
Elektromer
Elektrometer
Elektromobil
Elektromotor
Elektromotorické napätie
Elektrotechnický náučný slovník
Elektrotechnika
Elektrotechnológia
Fázor
Faradayova klietka
Frekvencia (fyzika)
Graetzov mostík
Impedancia
Indukčnosť
Induktancia
Istič
Izolácia (elektrotechnika)
Izolant
Jadro vodiča
Jednobran
Jednosmerný prúd
Joulovo teplo
Katóda
Koaxiálny kábel
Kompenzácia účinníka
Konduktometria
Konektor (elektrotechnika)
Korónový výboj
Lanko (elektrotechnika)
Leptanie
Logické hradlo
Magnetická susceptibilita
Magnetizácia (veličina)
Merný elektrický odpor
Mobilné zariadenie
Napájací zdroj
Napäťový chránič
Napäťový násobič
Nortonova veta
Odpínač
Odpojovač
OLED
Olovený akumulátor
Paralelné zapojenie
Peltierov článok
Plošná hustota elektrického prúdu
Poistka (elektrotechnika)
Posuvný prúd
Prúdový chránič
Prenosové médium
Prieletový klystrón
Primárny elektrochemický článok
Reaktancia
Rekuperácia (dopravný prostriedok)
Relé
Reproduktorová výhybka
Rezistancia
Rozhranie (interface)
Sériové zapojenie
Seebeckov jav
Sekundárny elektrochemický článok
Settopbox
Skrat
Sonar
Spínač
Spínaný zdroj
Straty v mikropásikových vedeniach
Striedavý prúd
Stupeň ochrany krytom
Svetelná výbojka
Symetrizačný člen
Technická normalizácia
Tepelné relé
Tepelne vodivostný detektor
Termočlánok
Théveninova veta
Transformátor
Transformátor s fázovou reguláciou
Trojfázová sústava
Tuhá fáza (elektronika)
Tyratrón
Usmerňovač (elektrotechnika)
Uzemnenie
Uzol (vodiče)
Vírivý prúd
Výbojka
Varistor
Ventilátor
Vodič (elektrotechnika)
Voltov stĺp
Vstavaný systém
Zásuvka (elektrotechnika)
Zdroj (elektrotechnika)
Zisk antény
Text je dostupný za podmienok Creative
Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších
podmienok.
Podrobnejšie informácie nájdete na stránke Podmienky
použitia.
www.astronomia.sk | www.biologia.sk | www.botanika.sk | www.dejiny.sk | www.economy.sk | www.elektrotechnika.sk | www.estetika.sk | www.farmakologia.sk | www.filozofia.sk | Fyzika | www.futurologia.sk | www.genetika.sk | www.chemia.sk | www.lingvistika.sk | www.politologia.sk | www.psychologia.sk | www.sexuologia.sk | www.sociologia.sk | www.veda.sk I www.zoologia.sk