Что такое орфографический контроль
3.2.3.1. Орфографический контроль
3.2.3.1. Орфографический контроль
Программы орфографического контроля обнаруживают (и предлагают варианты исправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях) слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), а также случайные, или немотивированные, ошибки.
Основные классы учитываемых случайных ошибок таковы:
– пропуск одной буквы (асемблер),
– одна лишняя буква (авттокод),
– замена одной буквы (конпьютер),
– перестановка двух соседних букв (аглоритм).
Признаком ошибки служит появление в обрабатываемом тексте формы незнакомого системе слова.
Предпринимается попытка «свести» такое незнакомое слово к знакомому с помощью преобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть в результате одного из таких «прямых» преобразований знакомого слова). Для предварительной оценки близости слов (основ слов) используется специально разработанная метрика.
Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощью конструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется также принадлежность всех представленных в исследуемом тексте дат этому диапазону.
Примеры работы программ:
ОЖИДАЕМОЕ СЛОВО: прочитана
ОЖИДАЕМОЕ СЛОВО : расчета
Читайте также
Родительский контроль
Родительский контроль В любой семье, где есть несовершеннолетние дети, рано или поздно возникает проблема ограничения доступа ребенка к компьютеру. Не секрет, что в последние годы серьезно обострилась проблема компьютерной зависимости детей и подростков. Над этой
3.2.3.3. Стилистический контроль
3.2.3.3. Стилистический контроль Программы данного блока фиксируют внешние характеристики фраз, свидетельствующие о сложности их структуры, а следовательно, и о сложности восприятия смысла. Имеются, например, программы, контролирующие длину фраз, количество запятых,
3.2.3.5. Синтаксический контроль
3.2.3.5. Синтаксический контроль Программа СИНТ1Программа СИНТ1 находит в указанной области именные словосочетания вида ‹прилагательное› + ‹существительное› и ‹существительное› + ‹существительное в форме родит. падежа› и др. Программа может оказаться
3.2.3.6. Пунктуационный контроль
3.2.3.6. Пунктуационный контроль Пунктуационные ошибки в реальных предложениях русского языка встречаются довольно часто. Разделим их условно на две группы. Ошибки одной группы связаны с уровнем пунктуационной грамотности и появляются в основном в тех типах текстов
3.2.3.7. Семантический контроль
3.2.3.7. Семантический контроль Программа СЕМ1Программа обнаруживает несовпадение ожидаемых семантических признаков актантов (подлежащее, дополнения) глагола и признаков слов (групп слов), реально занимающих соответствующие позиции. Такое несовпадение мешает завершить
Родительский контроль
Родительский контроль Дети очень быстро учатся пользоваться компьютером. Безо всяких книг, систем помощи или компьютерных курсов.Правда, пользуются дети компьютером только для игр (где они этого насмотрелись?!). Ну, еще для путешествий по Интернету, где они только болтают
Контроль над Помощником
Контроль над Помощником Используйте свойства объекта Assistant (табл. 14.1) для контроля за тем, как и когдаПомощник по Office будет появляться на экране. Пока вы не уверены в том. что Помощник уже включен, убедитесь в том, что его свойство On имеет значение True, прежде чем пытаться
Контроль анимации
Контроль анимации Следующей задачей является обеспечение гарантий того, что тип Timer сместит текущий фрейм визуализации в рамках PictureBox. Снова напомним, что число фреймов в цикле анимации зависит от текущей скорости автомобиля. Необходимость изменений изображений в PictureBox
Контроль ошибок
Контроль ошибок Существует широко распространенная проблема, связанная с вводом в машину данных, которые должны использоваться определенным образом. Один из методов ее решения состоит в «контроле ошибок». Это означает, что, перед тем как приступить к обработке данных,
Родительский контроль
Родительский контроль Существует способ ограничить доступ детей к определенным сайтам, играм, да и, вообще, к самому компьютеру. Скажем, после 21 часа работа на компьютере запрещена.Для этого в панели управления создается для ребенка учетная запись с ограниченными
Прикладное программное обеспечение: системы автоматической обработки текстов | Страница 11 | Онлайн-библиотека
Только что рассмотренный пример (программа ЛЕКС1) можно использовать и для иллюстрации четвертого критерия классификации программ контроля. Эта программа, как и ряд других, выдает некоторую глобальную информацию об исследуемом фрагменте текста, не фиксируя, в каких позициях (абзацах, фразах или строках) были обнаружены в тексте формы различных слов. Другие программы, например программы проверки орфографии, локализуют обнаруживаемые ими свойства (дефекты) текста.
И наконец, отметим еще одно (формальное) различие программ контроля. Для всех программ основным параметром является подлежащий обработке фрагмент текста. Однако для некоторых программ нужно обязательно указать дополнительные параметры, конкретизирующие задание. Например, при вызове программы ЛЕКС2 нужно указать, какие именно грамматические признаки слов интересуют пользователя.
Некоторые программы контроля получают в качестве параметра предельно допустимые (пороговые) числовые значения количественно оцениваемых параметров текста. Отметим, что, меняя порог, можно варьировать уровень требований, предъявляемых к тексту, моделируя тем самым оценку его разными адресатами. Например, можно установить в качестве предельно допустимой длины фразы 25 слов или ограничить число придаточных предложений (в составе сложного предложения) двумя. Фразы, в которых эти пороговые значения превышены, будут классифицированы соответствующими программами контроля как недопустимые.
3.2.3.1. Орфографический контроль
Программы орфографического контроля обнаруживают (и предлагают варианты исправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях) слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), а также случайные, или немотивированные, ошибки.
Основные классы учитываемых случайных ошибок таковы:
– пропуск одной буквы ( асемблер ),
– одна лишняя буква ( авттокод ),
– замена одной буквы ( конпьютер ),
– перестановка двух соседних букв ( аглоритм ).
Признаком ошибки служит появление в обрабатываемом тексте формы незнакомого системе слова.
Предпринимается попытка «свести» такое незнакомое слово к знакомому с помощью преобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть в результате одного из таких «прямых» преобразований знакомого слова). Для предварительной оценки близости слов (основ слов) используется специально разработанная метрика.
Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощью конструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется также принадлежность всех представленных в исследуемом тексте дат этому диапазону.
Примеры работы программ:
ОЖИДАЕМОЕ СЛОВО: прочитана
ОЖИДАЕМОЕ СЛОВО : расчета
3.2.3.2. Анализ лексического состава текста
Программа подсчитывает, сколько раз в тексте (области) употребляется то или иное слово. Программа формирует полный список всех различных слов текста с указанием частот их встречаемости. Можно задать диапазон частот (например, от 10 до 20 вхождений или ровно 15 вхождений) и сформировать список слов, количество употреблений которых лежит в границах этого диапазона. Если диапазон не задан, формируется полный частотный словарь текста.
Программа формирует список слов, обладающих указанными лексико-грамматическими характеристиками, например, находит все существительные, все причастия или все аббревиатуры, встретившиеся в тексте (области). Слова упорядочиваются по алфавиту, для каждого слова подсчитывается число его вхождений в исследуемый текст. Программа предназначена для анализа словарного состава текста.
В списке N 1 поиск ведется в последнюю очередь так как он, во-первых, самый большой, и во-вторых, если, например, в списках N 3 и N 1 присутствует одно и то же сокращение, но с различными расшифровками, то приоритет имеет сокращение из списка N 3. Результатом работы является список используемых в тексте аббревиатур с указанием их локализации в тексте и типа аббревиатуры.
Программа проверяет правильность расшифровки, то есть тот факт, что аббревиатура читается в расшифровке по началам слов, причем некоторые слова расшифровки могут не участвовать в образовании аббревиатуры. Пример работы программы:
НЕСООТВЕТСТВИЕ АББРЕВИАТУРЫ И РАСШИФРОВКИ:
ОБРАБАТЫВАЕТСЯ ПЕРЕЧЕНЬ АББРЕВИАТУР:
4 : ОЗУ * НЕТ РАСШИФРОВКИ
5 : МПК * НАРУШЕНИЕ АЛФ. ПОРЯДКА
7 : ПНП * РАСШИФРОВКА НЕ ЯВЛЯЕТСЯ ГРУППОЙ СУЩЕСТВИТЕЛЬНОГО
9 : СПТ * НЕСООТВ: АББР.-РАСШ.
3.2.3.3. Стилистический контроль
Михаил Георгиевич Мальковский, Татьяна Юрьевна Грацианова, И. Н. Полякова: Прикладное программное обеспечение: системы автоматической обработки текстов | 1 |
1. Сферы применения систем автоматической обработки текстов | 1 |
1.1. Машинный перевод | 1 |
1.2. Генерация текста | 2 |
1.3. Локализация и интернационализация | 3 |
1.4. Работа на ограниченном языке | 3 |
1.5. Создание текстовых документов (ввод, редактирование, исправление ошибок) | 3 |
1.6. Поиск информации | 3 |
2. Лингвистическое обеспечение систем автоматической обработки текстов | 4 |
2.1. Лингвистические банки данных | 4 |
2.2. Библиотека программ «Русская морфология» | 4 |
2.2.1. Словарь Зализняка | 4 |
2.2.2. Формальная модель русского словоизменения | 5 |
2.2.3. Основные программы | 6 |
3. Исправление ошибок в русскоязычных текстах | 8 |
3.1. Проблема речевых ошибок | 8 |
3.2. Система комплексного контроля качества текста ЛИНАР | 9 |
3.2.1. Функции системы ЛИНАР; сценарии работы с системой | 9 |
3.3.2. База знаний системы | 10 |
2.3.3. Программы контроля | 10 |
3.2.3.1. Орфографический контроль | 11 |
3.2.3.2. Анализ лексического состава текста | 11 |
3.2.3.3. Стилистический контроль | 11 |
3.2.3.4. Контроль структуры текста | 12 |
3.2.3.5. Синтаксический контроль | 12 |
3.2.3.6. Пунктуационный контроль | 12 |
3.2.3.7. Семантический контроль | 12 |
4. Информационно-поисковые системы | 13 |
4.1. Основные определения | 13 |
4.2. Тезаурус | 13 |
4.3. Релевантность | 14 |
4.4. Языковой компонент | 15 |
Орфографическая комиссия раскритиковала проект нового свода правил: В чем претензии лингвистов
Этот объемный текст с преамбулой и правилами на 131 странице появился 9 ноября на сайте regulation.gov.ru.
Известный педагог и член ОК Сергей Волков, который выложил письмо у себя в Facebook, высказался по этому поводу так: «На эту тему было много спекуляций в прессе. Вот позиция членов ОК, главная задача которой как раз и состоит в том, чтобы постоянно работать над правилами правописания».
Своим мнением о причинах, которые заставили ученых написать письмо в министерство, и предложенном к обсуждению проекте с «РГ» поделился член ОК, подписавший письмо в Минпросвещения, профессор РГГУ и НИУ ВШЭ Максим Кронгауз.
Максим Кронгауз: Главное, что меня расстраивает: непонятно, кто автор этого текста. В министерстве нет достаточного количества специалистов, которые могли бы сделать такую работу. Текст без авторов? На мой взгляд, это снимает ответственность за дело.
Максим Анисимович, проект повторяет сборник правил Лопатина?
Максим Кронгауз: Да, обсуждая это с коллегами, мы пришли к выводу, что чрезвычайно похоже на то.
В своде Минпросвещения сделана попытка частичной реабилитации буквы «ё». Предлагается закрепить ее, скажем, в позиции под ударением: «стажёр», «ребёнок». А вы считаете, мы правильно поступили, когда почти исключили эту букву из письма: употребляем ее только в детских книжках и в учебниках для иностранцев?
Максим Кронгауз: Я лично доволен факультативным статусом буквы «ё». Это привлекает к ней внимание, мы часто возвращаемся к ней в обсуждении. Она не исчезнет никогда. Мало того, из-за того, что лингвисты ее так любят, «ё» стала символом некоей странности русской орфографии.
В остальных же случаях мы привыкли обходиться без «ё». И если сейчас сделать эту букву обязательной, многие из нас станут безграмотными, будут забывать ставить эти две точки. Я точно буду забывать.
Почему новости, связанные с орфографией, всегда вызывают такой шквал толкований и протестов?
Орфографическая комиссия РАН предлагает:
1) рекомендовать отозвать подготовленный Минпросвещения Проект правил русской орфографии;
2) рассмотреть вопрос о признании не сокращенного и искаженного, а полного текста «Правила русской орфографии и пунктуации. Полный академический справочник» (включая раздел «Пунктуация») наиболее авторитетным сводом правил правописания, на основе которого могут составляться упрощенные редакции (например, для нужд образования);
3) предусмотреть механизм обновления правил (в том числе и содержащихся в ПАС), согласно которому правила русской орфографии и пунктуации и все вносимые в них уточнения, поправки и изменения, а также составляемые на основе полного свода его сокращенные и упрощенные варианты должны непременно получать экспертное одобрение Орфографической комиссии РАН.