Skip to content

ipipan/kwjp100-varia

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

kwjp100-varia

To repozytorium zawiera publiczne zbiory danych stworzone na podstawie zrównoważonego Korpusu Współczesnego Języka Polskiego.

W katalogu freqlists znajdują się listy frekwencyjne słów i n-gramów wygenerowanych z KWJP100 oraz jego podkorpusów gatunkowych. Listy można również przeglądać bezpośrednio na stronie, na której znajduje się również dokładniejszy opis danych zawartych na listach.

Katalog KWJP½M zawiera zbiór krótkich próbek wylosowanych z KWJP100 w taki sposób, by każda książka lub tytuł prasowy był w nim reprezentowany w takiej samej proporcji jak w korpusie zrównoważonym. Próbki mają przeciętnie długość 40-60 słów, cały korpus zawiera pół miliona słów tekstowych (od spacji do spacji).

Releases

No releases published

Packages

No packages published