что означает свойство целостности бд
Учитель информатики
Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.
В чем заключается построение модели данных?
а) В чем заключается построение модели данных?
б) Что означает свойство целостности БД?
в) Какие данные следует добавить в БД приемной комиссии, если требуется учитывать преподавателей, принимающих экзамены, и деление абитуриентов на экзаменационные группы?
г) Какие данные следует добавить в БД приемной комиссии, если дополнительно к требованиям предыдущего задания нужно учитывать расписание экзаменов, т. е. сведения о том, где, когда и какому преподавателю сдает экзамен данная группа?
д) Постройте схему БД с учетом выполнения заданий 2, в и 2, г.
Ответ
а) В описании всех используемых в ней отношений (таблиц) и построении схемы базы данных, то есть системы связей между таблицами.
б) Це́лостность ба́зы да́нных (database integrity) — соответствие имеющейся в базе данных информации её внутренней логике, структуре и всем явно заданным правилам.
г) Таблицу связи преподавателей и групп, состоящую из 4-х полей: ключ группы, ключ преподавателя, дата экзамена, аудитория. Если нужно хранить и название экзамена, то добавляется поле ключ экзамена (список экзаменов — отдельная таблица).
ГДЗ по информатике 11 класс учебник Семакин параграф 6
1. а) Перечислите задачи, которые должна решать проектируемая информационная система « Приемная комиссия ».
принять документы, аттестат, заявление и прочее.
добавить фамилию в списки, для вступительных экзаменов.
задачи должна решать:
Допускать ли абитуриентов до вступительных экзаменов, исходя из всей имеющейся информации об абитуриенте.
б) Какие информационные процессы происходят на различных этапах
приемной кампании в вузе?
в) Какая информация добавляется к базе данных на каждом этапе?
1. Подготовительный этап. На этом этапе от нашей ИС в первую очередь потребуются сведения о плане приема в университет: на каких факультетах какие специальности открыты для поступления; сколько человек принимается на каждую специальность. Кроме того, абитуриентов (и их родителей) интересует, какие вступительные экзамены сдаются на каждом факультете.
3. Этап приема экзаменов. Основная информация, представляющая интерес на этом этапе, — результаты сдачи экзаменов абитуриентами. Безусловно в реальной системе фигурируют данные о делении абитуриентов на экзаменационные группы, о датах и месте проведения экзаменов, об экзаменаторах и пр. Но мы ограничимся лишь одной таблицей, содержащей оценки, полученные каждым абитуриентом:
4. Этап зачисления в университет. Здесь нас будет интересовать окончательный список с информацией о том, кто из абитуриентов принят в университет, а кто — нет:
2. а) В чем заключается построение модели данных?
Построение реляционной модели данных заключается в описании всех используемых в ней отношений (таблиц) и построение схем базы данных, то есть системы связи между таблицами.
Связь между таблицами осуществляется через одноименные поля. Связь «один к одному » — через общий главный ключ; связь «один ко многим» — через главный ключ в одной таблице и одноименное поле в другой таблице — такое поле называют внешним ключом.
Поддержка целостности данных — автоматический контроль за согласованностью взаимосвязанных данных в разных таблицах.
б) Что означает свойство целостности БД?
в) Какие данные следует добавить в БД приемной комиссии, если требуется учитывать преподавателей, принимающих экзамены, и деление абитуриентов на экзаменационные группы?
г) Какие данные следует добавить в БД приемной комиссии, если дополнительно к требованиям предыдущего задания нужно учитывать расписание экзаменов, т. е. сведения о том, где, когда и какому преподавателю сдает экзамен данная группа?
д) Постройте схему БД с учетом выполнения заданий 2, в и 2, г.
3. а) При проектировании БД были определены следующие отношения:
МАГАЗИН(НОМЕР _МАГ, ТИП, АДРЕС, ДИРЕКТОР, ТЕЛЕФОН)
ОТДЕЛ (НАЗВАНИЕ_ОТД, ЗАВЕДУЮЩИЙ, ТЕЛЕФОН)
ПРОДАВЕЦ (ТАБЕЛЬНЫЙ_НОМ, ФАМИЛИЯ, ИМЯ, ОТЧЕСТВО,
Являются ли эти отношения связанными? Добавьте всё, что необходимо
для их связи; изобразите схему БД в графическом виде.
Сохранение целостности данных в схемах модели базы данных
Важно: Данная статья переведена с помощью машинного перевода, см. Отказ от ответственности. Используйте английский вариант этой статьи, который находится здесь, в качестве справочного материала.
Предполагаемое действие:
Правила целостности ссылочных данных
Использование правил целостности данных предотвращает случайное нарушение соответствия между связанными столбцами.
Предположим, в базе данных «Книги» имеются две таблицы — «Названия» и «Авторы». У каждой книги есть только один автор, но каждый автор может иметь несколько книг — это называется связью «один-ко-многим». Таблица на стороне «один» называется родительская таблица. Таблица на стороне «многие» — дочерняя таблица.
Чтобы собрать сведения о каждой книге и ее авторе, в запросах используются ключи для связи каждой книги в таблице «Названия» с ее автором в таблице «Авторы». В родительской таблице («Авторы») должен быть первичный ключ, однозначно определяющий каждую строку. В таблице «Названия» должен быть столбец, содержащий значение «КодАвтора» для каждой книги. Этот столбец называется внешний ключ. Первичный ключ определяет каждого автора, а внешний ключ — книги, написанные этим автором.
Если значение «КодАвтора» в родительской таблице будет изменено, а его обновление в таблице «Названия» выполнено не будет, книги в таблице «Названия» будут отображены с неверным автором.
Вместо изменения значения «КодАвтора» в обеих таблицах можно установить правила целостности данных по выполнению нужных действий. Можно выбрать вариант, при котором в модели базы данных будут выполнены определенные действия в случае изменения или удаления ключа в родительской таблице.
Примечание: Термины родительской и дочерней используются для означает, что-то совсем в категории, которые создаются с фигурами родительской категориям, категории и категории к дочернему. Дополнительные сведения о категории отображается Определение категорий в схеме модели базы данных.
Установка действий для обеспечения целостности данных
Дважды щелкните связь, для которой требуется установить действие.
В окне «Свойства базы данных» в группе Категории выберите вариант Действие ссылочной целостности.
Выберите действие, которое база данных должна выполнить с соответствующим значением в дочерней таблице:
Без действия При изменении или удалении значения в первичном ключе родительской таблицы соответствующее значение во внешнем ключе дочерней таблицы остается без изменений.
Каскад При изменении или удалении значения в первичном ключе родительской таблицы соответствующее значение во внешнем ключе дочерней таблицы изменяется или удаляется, чтобы совпадать с первичным ключом.
Присвоить пустое значение При изменении или удалении значения в первичном ключе родительской таблицы соответствующее значение во внешнем ключе дочерней таблицы будет NULL.
По умолчанию При изменении или удалении значения в первичном ключе родительской таблицы соответствующему значению во внешнем ключе дочерней таблицы будет задано значение по умолчанию.
Не обеспечивать Это действие отключает правила целостности данных для этой связи.
Примечание: Если параметры Присвоить пустое значение и По умолчанию недоступны, вероятно, для связи выбран параметр «Необязательный» на вкладке Прочее окна «Свойства базы данных».
Задание значения по умолчанию для столбца
Чтобы воспользоваться действием По умолчанию, для столбца необходимо задать значение по умолчанию.
Дважды щелкните таблицу в схеме, чтобы открыть окно «Свойства базы данных».
В группе Категории выберите вариант Столбцы, выделите столбец, для которого требуется создать значение по умолчанию, а затем нажмите кнопку Изменить.
На вкладке Определение диалогового окна Свойства столбца введите значение по умолчанию.
Отображение целостности данных с помощью нотации
Можно выбрать параметры документа, отображающие или скрывающие нотацию целостности данных рядом с линиями связи в модели.
Что означают буквы в нотации целостности данных
В нотации целостности данных связи отображаются двумя буквами, разделенными двоеточием, в виде: [выполненное действие в родительской таблице]:[результат в дочерней таблице]. Например, «d:C» означает удаление какого-либо элемента в родительской таблице, что приведет к каскадным изменениям в дочерней таблице.
Действия в родительской таблице обозначаются строчными буквами.
u Данные в родительской таблице обновлены.
Данные в родительской таблице d будут удалены.
Результаты в дочерней таблице обозначаются прописными буквами.
R (без действия) Изменение дочерней таблицы не требуется.
C (каскад) Повторение изменения в дочерней таблице.
D (по умолчанию) Вставка значения по умолчанию, заданного ранее для этого столбца в дочерней таблице.
N (присвоить пустое значение) Задание дочерней таблице значения NULL.
(Пусто) Не следить за целостностью данных этой связи.
Примечание: Эти параметры оказывают влияние на действия в фактической базе данных, а не в модели. В модели, реконструированной из существующей базы данных, можно видеть, каким образом база данных разработана с учетом целостности данных. В модели, созданной с нуля, эти параметры можно использовать для описания функционирования моделируемой базы данных.
Отображение целостности данных
В меню База данных выберите пункт Параметры, а затем — команду Документ.
На вкладке Отношение в группе Показывать установите флажок Действия ссылочной целостности.
Примечание: Отказ от ответственности относительно машинного перевода. Данная статья была переведена с помощью компьютерной системы без участия человека. Microsoft предлагает эти машинные переводы, чтобы помочь пользователям, которые не знают английского языка, ознакомиться с материалами о продуктах, услугах и технологиях Microsoft. Поскольку статья была переведена с использованием машинного перевода, она может содержать лексические,синтаксические и грамматические ошибки.
Целостность реляционной БД
Важнейшим свойством базы данных является её целостность, которая понимается как правильность данных в любой момент времени.
Эта цель может быть достигнута лишь в определенных пределах: СУБД не может контролировать правильность каждого отдельного значения, вводимого в базу данных (хотя каждое значение можно проверить на правдоподобность). Например, нельзя обнаружить, что вводимое значение 5 (представляющее номер дня недели) в действительности должно быть равно 3. С другой стороны, значение 9 явно будет ошибочным и СУБД должна его отвергнуть. Однако для этого ей следует сообщить, что номера дней недели должны принадлежать набору (1,2,3,4,5,6,7).
Для реляционной БД выделяют три группы правил целостности:
1. Целостность по сущностям (не допускается, чтобы какой-либо атрибут, участвующий в первичном ключе, принимал неопределенное значение).
2. Целостность по ссылкам (значение внешнего ключа должно либо быть равным значению первичного ключа цели, либо быть полностью неопределенным, т.е. каждое значение атрибута, участвующего во внешнем ключе должно быть неопределенным).
3. Целостность, определяемая пользователем. Для любой конкретной базы данных существует ряд дополнительных специфических правил, которые относятся к ней одной и определяются разработчиком. Чаще всего контролируются: уникальность тех или иных атрибутов; диапазон значений (экзаменационная оценка от 2 до 5); принадлежность набору значений (пол «М» или «Ж»).
Для того чтобы была обеспечена целостность по ссылкам, для каждого внешнего ключа необходимо решить три вопроса:
1. Может ли данный внешний ключ принимать неопределенные значения (NULL-значения)? Иначе говоря, может ли существовать некоторый экземпляр сущности данного типа, для которого неизвестна целевая сущность, указываемая внешним ключом?
В рассмотренном выше примере такая ситуация могла бы иметь смысл для внешнего ключа режиссер из таблицы фильмы (т.е. в таблицу занесен фильм, режиссер которого еще не занесен в базу). Но рассмотрим еще две таблицы, одна из которых содержит сведения обо всех клиентах видеопрокатного салона, а в другой хранится информация о взятых напрокат фильмах.
Очевидно, что внешний ключ клиент из таблицы заказ не может принимать неопределенное значение. В противном случае фильм могут не вернуть вовремя, а установить клиента, взявшего фильм, окажется невозможно.
2. Что должно случиться при попытке удаления целевой сущности, на которую ссылается внешний ключ? Например, при удалении клиента (может быть, он умер), который имеет на руках, по крайней мере, один фильм. Существует три возможности:
— каскадируется — операция удаления «каскадируется» с тем, чтобы удалить также заказы этого клиента;
— ограничивается — удаляются лишь те клиенты, у которых нет на руках фильмов. Иначе операция удаления отвергается (для рассматриваемого внешнего ключа это наиболее логичный вариант);
— устанавливается — для всех заказов удаляемого клиента внешний ключ устанавливается в неопределенное значение, а затем этот клиент удаляется. Такая возможность, конечно, неприменима, если данный внешний ключ не должен содержать NULL-значений (как в данном случае).
3. Что должно происходить при попытке обновления первичного ключа целевой сущности, на которую ссылается некоторый внешний ключ? Например, может быть предпринята попытка обновить номер такого клиента, который имеет на руках, по крайней мере, один фильм. Имеются те же три возможности, как и при удалении:
— каскадируется — операция удаления «каскадируется» с тем, чтобы обновить также заказы этого клиента (этот вариант подходит для абсолютного большинства внешних ключей);
— ограничивается — обновляются первичные ключи лишь тех клиентов, которые еще не осуществляли поставок, иначе операция обновления отвергается;
— устанавливается — для всех заказов такого клиента внешний ключ устанавливается в NULL-значение, а затем обновляется первичный ключ клиента.
Таким образом, для каждого внешнего ключа в проекте проектировщик БД должен указать не только поле или комбинацию полей, составляющих этот внешний ключ, и целевую таблицу, которая идентифицируется этим ключом, но также и ответы на перечисленные выше вопросы.
СУБД Access входит в состав Microsoft Office и предназначена для работы с реляционными БД, т.е. представленными в табличной форме. В отличие от табличного процессора Excel, Access имеет более развитые средства для отбора данных из взаимосвязанных таблиц, формирования новых таблиц и отчетов.
Основным элементом БД является таблица. Столбцы таблицы БД называются полями, а строки — записями. Первым этапом создания таблицы БД является задание ее структуры, т.е. определение количества и типа полей. Вторым этапом является ввод и редактирование записей в таблицу. БД считается созданной, даже если она пустая.
Поля таблицы просто определяют ее структуру и групповые свойства данных, записываемых в ячейках. Рассмотрим основные свойства полей БД.
1. Имя поля — определяет как надо обращаться к данным поля (имена используются как заголовки таблиц).
2. Тип поля — определяет тип данных, которые могут содержаться в данном поле (текстовые, числовые, дата, Memo, денежный, счетчик и др.).
3. Размер поля — определяет предельную длину данных, которые могут размещаться в поле.
4. Формат поля — способ форматирования данных в ячейках.
Запрос – требование на поиск, изменение или обработку данных в БД.Запросы можно использовать в качестве источников записей для форм, отчетов истраниц доступа к данным. Запрос в Access является объектом, которыйсохраняется в файле БД и может многократно исполняться.В Access существует несколько типов запросов:· запросы на выборку;· запросы с параметрами;· перекрестные запросы;· запросы на изменение (запросы на создание таблицы, удаление,· обновление, добавление записей);· запросы SQL (запросы на объединение, запросы к серверу, управляющиезапросы, подчиненные запросы). Запросы на выборку используются для выбора данных из таблиц по заданномупользователем условию. Результатом запроса является динамическая таблица,называемая также выборкой. Выборка формируется каждый раз заново на основереальных таблиц базы данных. Простой запрос – запрос на выборку, для формирования которогоиспользуется, как правило, одна базовая таблица. Простые запросы используютсядля элементарной обработки данных. Сложный запрос – запрос, который позволяет соединять воедино данные изразных таблиц и запросов, а также из разных баз данных. Таблицы (запросы) втаком запросе могут связываться с использованием внутренних, внешних,рекурсивных соединений и соединений по отношению. С помощью таких запросовможно создавать, обновлять, удалять таблицы, получать ответы на самыеразнообразные вопросы. Внутренние соединения чаще всего применяются для создания запросов навыборку. Если таблицы связаны соотношением “один-ко-многим”,объединения основываются на значении поля первичного ключа одной таблицы изначениях поля внешнего ключа другой таблицы. В результирующее множествозапроса попадают все записи из главной таблицы (таблица “один”), для которыхимеются соответствующие записи в подчиненной таблице (таблице “многие”).Внутренние соединения отображают в динамическом наборе соответствующие записив объединенных полях таблиц как одну запись. Подобного рода соединения междутаблицами создаются автоматически, если в таблицах имеются поля с одинаковымиименами и согласованными типами, причем одно из полей является ключевым либоэто соединение явно задано в окне Схема данных. “Согласованные типы” вбольшинстве случаев означают одинаковые типы. Исключением является поле типа Счетчик, которое может иметь размер длинного целого или кодарепликации и может связываться с числовыми полями соответствующего размера.Для обозначения внутренних соединений в Access используютсязарезервированные слова INNER JOIN.Для создания запроса, объединяющего все записи из одной таблицы и только тезаписи из второй таблицы, в которых связанные поля совпадают, используют внешнее соединение. В Access применяются правые (RIGHT JOIN) илевые (LEFT JOIN) внешние соединения. Запрос, основанный на таблицах слевым внешним соединением, отображает все записи главной таблицы (таблица“один”) с уникальным ключевым полем, независимо от того, имеются ли в связанныхполях подчиненной таблицы (таблице “многие”) совпадающие значения. Запрос,основанный на таблицах с правым внешним соединением, отображает все записитаблицы многие, независимо от того, существуют ли в связанных с нимиполях главной таблицы совпадающие значения. Записи в таблице со стороны многие, не имеющие связанных с ними записей в таблице один, обычно,но не обязательно, относятся к зависшим записям. Поэтому внешние соединенияиспользуются в системе поддержки БД для удаления из таблиц “зависших” записей идублирования данных в результате создания новых таблиц, содержащих записи суникальными значениями. Рекурсивные соединения (самообъединения) связывают данные в одной и тойже таблице. В Access самообъединения создаются в результате включения взапрос дубликата таблицы (Access назначает дубликату псевдоним), споследующим объединением между полями копий. Соединения по отношению (тэта-соединения) связывают данные с помощьюоператоров сравнения, отличных от оператора равенства (=). Запрос на изменение – запрос, с помощью которого создают новые таблицыбазы данных из таблиц запросов или вносят в таблицы значительные изменения.Такие запросы позволяют добавлять в таблицу новые записи или удалять их, иливносить изменения в записи с помощью выражений, встроенных в конструкциюзапроса. Перекрестный запрос – запрос, по требованию которого выполняютсяитоговые вычисления из одной или нескольких таблиц, и результаты которогопредставляются в виде сводной кросс-таблицы. Строки и столбцы кросс-таблицыименованные. Примеры перекрестных запросов: определить среднюю почасовуюоплату, сгруппированную по виду работ и названию области; определить итоговыесуммы продаж по месяцам для каждого типа изделий. Запросы с параметрами. Для того, чтобы не формировать множествоаналогичных по смыслу и структуре запросов, но с различными значениями вусловиях отбора, создаются запросы с параметрами. Параметрический запроспозволяет создать один-единственный запрос и ввести условие отбора посредствомдиалогового окна, который Access отображает при каждом запуске этогозапроса. Запросы с параметрами фактически не являются отдельным типомзапросов, поскольку функции запросов с параметрами можно добавить к запросамдругих типов.
Базой данных (БД) называется организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность сведений об объектах, процессах, событиях или явлениях, относящихся к некоторой предметной области, теме или задаче. Она организована таким образом, чтобы обеспечить информационные потребности пользователей, а также удобное хранение этой совокупности данных, как в целом, так и любой ее части.
Для работы с данными используются системы управления базами данных (СУБД). Основные функции СУБД:
— определение данных (описание структуры баз данных);
Любая СУБД позволяет выполнять следующие операции с данными:
— добавление записей в таблицы;
— удаление записей из таблицы;
— обновление значений некоторых полей в одной или нескольких записях в таблицах БД;
— поиск одной или нескольких записей, удовлетворяющих заданному условию.
Под управлением данными обычно понимают защиту данных от несанкционированного доступа, поддержку многопользовательского режима работы с данными и обеспечение целостности и согласованности данных.
29. Информационный поиск. ИПС, их типы, использование. Лингвистические основы разработки и функционирования ИПС.
Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.
Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписанию называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью.
Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.
Типы информационно-поисковых систем.По типу хранимой и обрабатываемой информации и особенностям поиска ИПС — документальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографическиеимеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокупность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризуется по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сетевые и реляционные. Наиболее распространены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столбцов.
Информационно-поисковые языки.Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для данной проблемной области семантические различия между документами, требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.
ИПЯ делятся на языки-классификации и языкидескрипторного типа. Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование.
Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.
В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.
На следующем этапе возникла технология лингвистического контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса (ИПТ). Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.
Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись.
Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии.
30. Контент-анализ, его идеология, основные понятия, использование.
Баранов.
Первые опыты использования количественных методов, близких к контент-аналитическим, относятся к концу XIX в. Именно тогда стало ощущаться влияние средств массовой информации — и особенно газет — на общество. В США по заказам некоторых общественных организаций и университетов был проведен ряд исследований тематики газетных статей. Тематика определялась на основе количественного анализа лексики. Общий вывод заключался в том, что пресса отдает предпочтение уголовной хронике, скандалам, сплетням и спорту, практически игнорируя сферу религии, науки и искусства [Speed 1893]. В 20-30-х гг. XX в. в США по текстам прессы отрабатываются техники изучения общественного мнения. В центре внимания контент-аналитических исследований оказываются более сложные категории, такие как установки, стереотипы, ценности.
Лассуэлл, с именем которого связывают существенный прогресс в технике контент-анализа, провел исследование основных тем и идей, превалировавших в официальной пропаганде стран-участников Первой мировой войны [Lasswell, Leites 1949; Lasswell 1952]. Во время Второй мировой войны контент-анализ стал составной частью оборонной политики. Эксперты лондонского радио проводили методом контент-анализа регулярный мониторинг текстов нацистской пропаганды в средствах массовой информации. Это позволило им выявить типичные последовательности действий министерства пропаганды, связанные с обоснованием тех или иных политических и военных акций. В результате аналитиками были предсказаны некоторые важные события в политической и военной сферах. Изучение документов агентства Transocean в США с использованием методов контент-анализа позволило разоблачить его сотрудников как нацистских агентов [Grawitz 1996, р. 550-582].
Рассмотрим методику контент-анализа с лингвистической точки зрения. Рациональность такого подхода объясняется тем, что по сути контент-анализ использует чисто лингвистическую информацию о характеристиках текста и пытается выявить его семантические особенности. Сущность контент-анализа заключается в том, чтобы по внешним — количественным — характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста — его намерениях, установках, желаниях, ценностных ориентациях и т. д. Для литературного текста может быть поставлена задача изучения особенностей изображения представленных в нем персонажей. Если количество привлекаемых текстов и авторов достаточно велико, то сделанные выводы могут быть распространены на большую социально значимую группу людей и даже на общественное сознание в целом. Конечно, оценка мышления вряд ли относится к собственно лингвистической проблематике, впрочем, такие задачи, как изучение идиолекта писателя, вполне рядоположены исследованию особенностей мышления.
Важнейшей категорией контент-анализа является концептуальная переменная — понятие, которое стоит в центре проводимого исследования. Например, концептуальной переменной (К-переменной) могут быть такие категории, как «СВОЙ-ЧУЖОЙ», «ДЕМОКРАТИЯ», «ПРАВА ЧЕЛОВЕКА», «ЖЕНСКИЙ ВОПРОС», «МАТЕРИАЛЬНОЕ БЛАГОПОЛУЧИЕ». В конкретном тексте концептуальная переменная представлена своими значениями — языковыми представителями. Так, концептуальная категория «СВОЙ—ЧУЖОЙ» в текстах может иметь следующие значения: мой, наш, мы, я, привычный, знакомый, близкий vs. их, его, ее, он, она, оно, они, их, ее, его, непривычный, дальний, незнакомый. С другой стороны, концептуальная переменная «ДЕМОКРАТИЯ» может быть представлена в текстах следующими языковыми коррелятами: демократия, демократический, демократично, демократический выбор, власть народа, народовластие, выборность, возможность выбора, разделение властей.
Абсолютная частота концептуальной переменной определяется как совокупность абсолютных частот ее значений (языковых репрезентантов). Отсюда следует, что для правильности контент-анализа очень важно определить весь список значений, иначе будут пропущены некоторые вхождения концептуальной переменной и результаты исследования будут неточны.
Этапы подготовки и проведения эксперимента. Первый этап подготовки эксперимента заключается в выборе материала — корпуса языковых данных. Классический для контент-анализа пример корпуса данных — газетные публикации за определенный период времени или программы политических партий в разные периоды существования партий. Как правило, структура корпуса данных и отбор материала тесно связаны с самой постановкой задачи исследования. Например, если предметом исследования являются языковые и стилистические особенности русского рассказа XIX в., то и создаваемый корпус должен охватывать соответствующие литературные тексты того времени. Для формирования корпуса можно использовать принципы, разработанные в корпусной лингвистике — см. §3 главы 3.
Второй этап — выбор концептуальной переменной и определение ее значений — языковых репрезентантов выбранного понятия в тексте. Если значения К-переменной можно выявить в предварительном эксперименте на незначительном количестве материала (для часто исследуемых проблемных областей в социальных науках и политологии разработаны специальные словари-тезаурусы значений наиболее очевидных К-перемен-ных), то выбор самой К-переменной остается нетривиальной проблемой. Один из наиболее частых подводных камней при выборе К-переменной — это корреляция между частотой и значимостью, а также постулат о равнозначности вхождения значений К-переменной. Если эта корреляция отсутствует или одно вхождение (группа вхождений) перевешивает по значимости другие вхождения, то контент-анализ в классическом варианте неприменим. Например, если известно, что Эйзенхауэр, уходя со своего поста, произнес известную речь об опасности военно-промышленного комплекса, то любые контент-аналитические выкладки в связи с К-переменной «ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС» не будут иметь никакого смысла по отношению к предшествующим выступлениям Эйзенхауэра, даже если бы они все были и позитивные или существенно превосходили отрицательные оценки. Иными словами, если исследователя интересует отношение данного политика к проблемам обороны и военного строительства, то в данном случае он должен выбрать другую переменную, например «АРМИЯ», «ВООРУЖЕННЫЕ СИЛЫ» и пр.
Третий этап — выбор единицы кодирования. Значения К-переменной могут приписываться текстам, их фрагментам, абзацам, предложениям и отдельным словам и словосочетаниям. Выбор единицы кодирования зависит от объема и характера корпуса данных и от типа контент-анализа. Если корпус данных — заголовки статей, то выбор единицы кодирования предопределен. С другой стороны, чем больше корпус данных, тем крупнее могут быть единицы кодирования. Для ручного контент-анализа зависимость единицы кодирования от объема корпуса очевидна. Если корпус насчитывает тысячи статей, а кодировщиков — два-три человека, то выбор в качестве единицы кодирования одной статьи вполне оправдан. Учитывается также и объем единиц хранения корпуса. Если корпус состоит из относительно небольших заметок, то опять-таки они и могут стать единицами кодирования.
Отбор кодировщиков и формулировка инструкций по кодированию образуют четвертый этап подготовки эксперимента. Ручной контент-анализ требует точной формулировки инструкций. Кодировщиков может быть несколько и они должны руководствоваться едиными принципами кодирования. Часто для обеспечения единообразия кодирования между кодировщиками и руководителями эксперимента проводятся семинары, позволяющие всем участникам уточнить и унифицировать принципы обработки материала. При компьютерном контент-анализе подготовка инструкций практически заменяется перечислением языковых форм выбранных значений К-переменной. Общие принципы кодировки задают два вида контент-анализа — жесткий и мягкий. При жестком варианте инструкции формулируются таким образом, что кодируются только явные вхождения К-переменной в текст, то есть только тогда, когда в тексте эксплицитно представлено одно из значений К-переменной. При мягком варианте контент-анализа инструкции позволяют кодировщику кодировать не только явные, но и неявные, имплицитные вхождения К-переменной и текст. Это допустимо в тех случаях, когда трудно исчислить все значения К-переменной. Например, К-переменная «ПРАВА ЧЕЛОВЕКА» 
На пятом этапе происходит кодировка данных. И, наконец, на шестом этапе осуществляется подсчет данных и интерпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кластерный анализ.
Факторы контроля качества эксперимента. В теории контент-анализа уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достоверности/обоснованности (validity). Фактор надежности проявляется в трех основных формах — стабильности, повторяемости и тщательности (accuracy). Стабильность — самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемость является более сильной формой надежности, она характеризует возможность получения тех же результатов разными кодировщиками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность, под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.
Фактор достоверности/обоснованности проявляется во многих разнообразных формах. Одна из них — семантическая достоверность — определяется тем, насколько инструкции кодировщику учитывают многозначность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирования, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война, отсеивая употребления типа (1).

