Что такое частотный словарь

Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Содержание

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. welk ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, англ. ipm, instances per million words ). Слово и имеет частоту около 30000 чмс, слово старость — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (англ. Likelihood-ratio test ) и т. п.

Источник

Частотный словарь

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Полезное

Смотреть что такое «Частотный словарь» в других словарях:

частотный словарь — Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи. [ГОСТ 7.60 2003] Тематики издания, основные виды и элементы EN frequency vocabulary DE Häufigkeitswörterbuch … Справочник технического переводчика

частотный словарь — частотный словарь: Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи Источник: ГОСТ 7.60 2003: Система стандартов по инфо … Словарь-справочник терминов нормативно-технической документации

ЧАСТОТНЫЙ СЛОВАРЬ — вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого либо языка, в т. ч. языка писателя, какого либо произведения и т. п. Обычно в качестве характеристики употребительности… … Большой Энциклопедический словарь

Частотный словарь — (или частотный список) набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов… … Википедия

частотный словарь — Rus: частотный словарь Deu: Häufigkeitswörterbuch Eng: frequency vocabulary Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи. ГОСТ 7.60 [3.2.4.3.5.2.2.6] … Словарь по информации, библиотечному и издательскому делу

частотный словарь — вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого либо языка, в том числе языка писателя, каких либо произведений и т. п. Обычно в качестве характеристики употребительности… … Энциклопедический словарь

частотный словарь — 1. Конкретная вероятностно статистическая модель изучаемого подъязыка на лексическом (или соответственно любом другом) уровне. 2. Модель истинного распределения истинных вероятностей (грамматических ожиданий, частоты слов, грамматических форм и т … Толковый переводоведческий словарь

частотный словарь — см. словарь лингвистический … Словарь лингвистических терминов

ЧАСТОТНЫЙ СЛОВАРЬ — лингвистический словарь, в котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). Слова обычно приводятся в двух списках: в порядке убывающей частотности употребления и в алфавитном порядке, с указанием… … Профессиональное образование. Словарь

Частотный словарь как философская картина мира — (frequency of words as a philosophical world picture) Частотный словарь языка показывает, какие смыслы и отношения наиболее необходимы людям для выражения мыслей и, следовательно, содержит в себе систему логических и эпистемологических… … Проективный философский словарь

Источник

Для чего нужны частотные словари и почему одни слова важнее других?

Компьютеры стали активно использоваться в лингвистике только в последней четверти XX века. До того ученые, которые изучали язык, по большей части занимались описанием грамматических правил и значений слов, не опираясь на количественные данные. Но когда появилась возможность обрабатывать большие массивы текстов, стало ясно, что мы многое теряем, если не различаем частотные и редкие явления. О том, какую пользу могут принести исследования частотности в языке, специально для «Ножа» рассказывает Александр Пиперски — доцент РГГУ, научный сотрудник НИУ ВШЭ, лауреат премии «Просветитель»–2017.

Заглонитель и турмы

Попробуйте прочитать такой текст на русском языке:

Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма. Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных. Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.

Один из турмов — старый, крупный лователь, выбатушенный корочением собаки, бросился за ней. Та отпешила скумановаться за лошадью, на которой сидел Оливер. Тогда турм бросился уже на Оливера. Он схватил подвешенца отмаленными твинами за плечи и вытокнул его на землю.

Цитируется по: Р. М. Фрумкина. Психолингвистика. М., 2001

Вы встретили множество незнакомых слов, но нет сомнений, что вы в целом поняли, о чем здесь говорится, и даже можете пересказать содержание. А сконструирован этот текст очень простым способом: взят нормальный текст, но сохранены в нем только самые частотные слова, а все редкие заменены вымышленными. Вот оригинал этой истории:

Скотовод Ланс Оливер чуть не погиб в результате нападения кенгуру. Он ехал верхом на лошади неподалеку от Мэнсфилда (Австралия) и увидел стадо кенгуру, в котором было примерно 15 животных. Возможно, ничего бы и не случилось, если бы собака Оливера не начала лаять на стадо.

Один из кенгуру — старый крупный самец, раздраженный лаем собаки, бросился за ней. Та попыталась укрыться за лошадью, на которой сидел Оливер. Тогда кенгуру бросился уже на Оливера. Он схватил всадника передними лапами за плечи и сбросил его на землю.

Получается, для того, чтобы понимать человеческий язык, достаточно неполных знаний. Более того, полных знаний и не бывает: никто из нас не может знать все слова и гарантировать, что поймет от начала и до конца любое встретившееся ему предложение.

«и», «в», «не», «на»: частотный словарь

Представьте себе, что вы изучаете русский язык и хотите узнать: сколько слов надо выучить, чтобы понимать 20 % текста на этом языке? Ну или не понимать, а хотя бы опознавать 20 % слов в тексте.

Очевидно, что полезно сперва учить частотные слова, а потом уже редкие: знать слово «собака» куда важнее, чем «самец» или «всадник», и уж тем более, чем «вольвокс» или «рейсфедер».

Самый популярный частотный словарь для русского языка в 2009 году создали Ольга Ляшевская и Сергей Шаров. Он свободно доступен на сайте Института русского языка им. В. В. Виноградова. Первое по частотности русское слово — это слово «и», за ним следуют «в», «не», «на», «я» и т. д. — вот и будем запоминать их подряд по этому списку:

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Вернемся к предложению, в котором мы поставили перед собой задачу:

Представьте себе, что вы изучаете русский язык и хотите узнать: сколько слов надо выучить, чтобы понимать 20 % текста на этом языке?

В нем 20 слов, а значит, 20 % от них — это 4 слова. А теперь присмотритесь внимательно: оказывается, выучив первые 14 слов из частотного словаря, мы и узнаем в этом тексте 4 слова — «что», «и», «на» и «этом». Желанный результат достигнут: 20 % текста поняты (хотя до смысла, конечно, еще очень далеко).

В частотном словаре каждому слову приписано число, которое показывает, сколько раз это слово встретится, если мы возьмем текст длиной 1 миллион слов. Слово «и» мы в таком тексте увидим примерно 35 802 раза, слово «в» — 31 374 раза и т. д. Если сложить частоты первых 14 слов, то окажется, что они покроют 188 072 слова из миллиона — то есть почти те самые 20 %, к которым мы стремились. Чтобы выйти за 200 000, к ним надо добавить еще три слова («к», «но» и «они»). А чтобы понять 10 % текста, достаточно и вовсе 4 слов.

Вот полные списки слов, которых хватит, чтобы понять 10 %, 20 %, 30 % и 40 % текста на русском языке:

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Видно, что на первые 10 % у иностранца уйдет совсем мало усилий. На следующие 10 % понадобится еще 13 слов; чтобы достигнуть 30-процентного понимания, придется добавить 29 слов, а чтобы добраться до 40 % — 86 слов. Чем дальше мы идем по частотному списку, тем менее полезно нам каждое следующее слово:

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Иначе говоря, в любом языке есть совсем немного высокочастотных слов и много низкочастотных. Например, 1 раз на миллион слов, согласно словарю Ляшевской и Шарова, встретится 1478 слов; среди них — «резвость», «увильнуть», «боезапас», «сызнова», «картографирование». Ясно, что это совсем не то, что надо учить в первую очередь.

Слова, города и всё на свете: закон Ципфа

Частоты слов подчиняются простой математической закономерности, которую в середине XX века открыл американец Джордж Кингсли Ципф (1902–1950).

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарьИсточник

Он сформулировал такую зависимость, которая получила название «закон Ципфа»: частотность слова обратно пропорциональна номеру слова в частотном списке. Например, если первое слово имеет частотность 60 000, то у второго слова будет частотность 60 000 / 2 = 30 000, у третьего — 60 000 / 3 = 20 000 и т. д. В реальном языке всё не получается так красиво: например, русский частотный словарь укладывался бы в закон Ципфа гораздо лучше, если бы у слова «и» частотность была не 35 802, а как раз около 60 000, тем не менее даже это приближение неплохо работает. Если изобразить распределение частот для первых 200 русских слов на графике, видно, что оно имеет форму гиперболы.

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Закон Ципфа — один из редких примеров закона, который был открыт на материале языка, а потом нашел применение во множестве других областей.

Ему подчиняются размеры населенных пунктов, количество ссылок на сайты, размеры компаний: в стране обычно есть совсем немного крупных городов и много-много мелких населенных пунктов; есть небольшое количество очень важных сайтов, на которые все ссылаются, и много сайтов, на которые не ссылается никто или почти никто; бывают гигантские компании, но мелких гораздо больше.

Например, в Берлине 3,5 млн жителей; во втором по величине городе Германии — Гамбурге — примерно в два раза меньше: 1,8 млн. В шестом городе страны — Штутгарте — примерно в шесть раз меньше: 600 тысяч, и т. д. Видно, что на этих данных закон Ципфа работает превосходно.

Когда пытаются понять, написан ли какой-то текст на человеческом языке или нет, одна из первых проверок, которые стоит сделать, — посмотреть, подчиняется ли текст закону Ципфа.

Например, в загадочном манускрипте Войнича закон Ципфа соблюден довольно неплохо. Правда, это только необходимое условие, но еще не доказательство того, что перед нами естественный язык: именно потому, что закон Ципфа применим почти к чему угодно, в том числе и к неязыковым данным.

Зачем нужны частоты

Частотный словарь может быть полезен на практике для изучающих иностранный язык: конечно, не стоит заставлять человека, когда он узнает новое слово, выяснять точно, какое именно место в частотном списке оно занимает, но можно дать ему представление о том, стоит ли вообще это слово запоминать. Например, в словарях издательства Macmillan есть два типа слов: красные и чёрные, причём у красных слов стоят еще звездочки — одна, две или три. Вот несколько примеров:

Что такое частотный словарь. Смотреть фото Что такое частотный словарь. Смотреть картинку Что такое частотный словарь. Картинка про Что такое частотный словарь. Фото Что такое частотный словарь

Красные слова с тремя звездочками занимают в частотном словаре места с 1-го по 2500-е, слова с двумя звездочками — с 2501-го по 5000-е, а слова с одной звездочкой — с 5001-го по 7500-е. Черные слова располагаются ниже 7500-го места. Для пользователя это имеет очень простые следствия. Если ты ищешь в словаре слово и видишь при нем три звездочки, выучи его обязательно: оно наверняка попадется еще много раз. Если при слове только одна звездочка, это достаточно полезное слово, но часто не пригодится. И, наконец, черные слова — совсем редкие; их стоит заучивать, только если стремишься выучить язык на продвинутом уровне, но если не получится, то ничего страшного. Можно прекрасно говорить по-английски, не зная, что thatch значит «соломенная крыша», а crescent — «полумесяц»; без слов restriction «ограничение» и allegedly «якобы» тоже можно прожить, а вот слова animal «животное» и play «играть» точно надо знать.

Еще одна важная область, в которой применяется частотный анализ, — это автоматическая обработка текста (natural language processing). Например, для проверки орфографии и исправления опечаток очень важно понимать, какие слова редкие, а какие — частотные. Предположим, что пользователь напечатал такую английскую фразу:

I am looking at teh black dog.

Мы прекрасно понимаем, что в ней содержится опечатка: вместо teh должно быть написано the. Но ведь teh могло легко получиться и из чего-нибудь другого: что если пользователь хотел ввести ten, но случайно попал в букву h вместо n? Или, может быть, он хотел напечатать tech, но пропустил букву c? Почему же мы всё-таки полагаем, что имелось в виду слово the, в котором переставились две буквы? Можно, конечно, долго рассуждать о том, что с ten и с tech получится неправильное предложение (например, ten black dog — плохое сочетание слов, а должно быть ten black dogs), но это знание трудно формализовать и вложить в компьютер. Но можно поступить проще: заглянем в частотный словарь, и он сообщит нам, что the — самое популярное английское слово, так что вероятность того, что пользователь хотел напечатать именно его, особенно велика. Эта стратегия — всегда исправляй опечатку на самое частотное из похожих слов — может показаться примитивной, но она неплохо работает.

В 2007 году директор по исследованиям компании Google Питер Норвиг за несколько часов, проведе–нных в самолете (даже без интернета!), написал программу для исправления опечаток, которая занимает всего 22 строки кода на языке Python и в первую очередь опирается на частотность.

Всё это свидетельствует об одном: человеческий язык не описывается только грамматическими правилами. Важно знать, как часто встречаются в нем те или иные слова. К счастью, такие знания благодаря компьютерам можно очень легко получить, и это открывает для лингвистики новые перспективы.

Источник

Словари

1. Конкретная вероятностно-статистическая модель изучаемого подъязыка на лексическом (или соответственно любом другом) уровне.

2. Модель истинного распределения истинных вероятностей (грамматических ожиданий, частоты слов, грамматических форм и т.п.).

3. Модель, отражающая статистические свойства генеральной совокупности (подъязыка) в плане его лексико-грамматической архитектоники.

4. Модель статистической структуры текста, в которой формализуется (табулярно) обратная зависимость между рангом (порядковым номером) словоформы в частотном списке и ее частотой.

5. Последовательность словоформ, снабженных рядом статистико-информационных характеристик, сведенных для обследования в ранжированные

6. некоторой выборки из текстов, в котором каждая словарная единица снабжена заданными информационно-статистическими характеристиками.

8. Частотные словари предстают в рамках инженерной лингвистики в трех аспектах: во-первых, они могут быть получены с помощью ЭВМ, т.е. инженерно-лингвистическим способом; во-вторых, они могут служить средством достижения лингвистических целей с помощью ЭВМ; в-третьих, само стати-моделирование лексики или иных языковых уровней частотными словарями является неотъемлемой частью инженерно-лингвистического подхода.

9. Составленная в результате статистического анализа конкретная вероятностно-статистическая модель изучаемого подъязыка на лексическом (и соответственно любом другом) уровне.

10. Модель истинного распределения истинных вероятностей (математических ожиданий, частот слов, грамматических формул и т.п.).

11. Последовательность словоформ или других языковых объектов), зарегистрированных в обследованных текстах, снабженных рядом статистико-информационных характеристик и сведенных для итогового анализа в ранжированные списки.

12. Словарь, содержащий перечень слов данного языка, расположенный по степени их употребительности (по алфавиту, рангу или концу слов) с цифровым указанием частоты встречаемости и других лингвостатистических параметров (данных).

13. Словарь, в котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч).

Источник

ЧАСТОТНЫЙ СЛОВАРЬ

Смотреть что такое ЧАСТОТНЫЙ СЛОВАРЬ в других словарях:

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в со. смотреть

ЧАСТОТНЫЙ СЛОВАРЬ

1. Конкретная вероятностно-статистическая модель изучаемого подъязыка на лексическом (или соответственно любом другом) уровне. 2. Модель истинного рас. смотреть

ЧАСТОТНЫЙ СЛОВАРЬ

частотный словарь: Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи Источник: ГОСТ 7.60-2003: Система ст. смотреть

ЧАСТОТНЫЙ СЛОВАРЬ

ЧАСТОТНЫЙ СЛОВАРЬ, вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого-либо языка, в т. ч. языка писателя, какого-либо произведения и т. п. Обычно в качестве характеристики употребительности используется частота встречаемости слова в тексте определенного объема.

ЧАСТОТНЫЙ СЛОВАРЬ

ЧАСТОТНЫЙ СЛОВАРЬ

ЧАСТОТНЫЙ СЛОВАРЬ, вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого-либо языка, в т. ч. языка писателя, какого-либо произведения и т. п. Обычно в качестве характеристики употребительности используется частота встречаемости слова в тексте определенного объема. смотреть

ЧАСТОТНЫЙ СЛОВАРЬ

лингвистический словарь, в котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). Слова обычно приводятся в двух списках: в порядке убывающей частотности употребления и в алфавитном порядке, с указанием частотности употребления каждого слова. смотреть

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *