Текст — последовательность из нескольких (или многих) предложений, построенных согласно правилам языка. Связность текста обеспечивается грамматическими средствами (согласование времён или наклонений глагола в смежных предложениях, личные местоимения 3-го лица вместо повторяющихся существительных и т.д.) и смысловыми соотношениями (в каждом следующем предложении используется смысловая информация предыдущего).
Текст — это инструмент представления и долговременного хранения речевой информации. Появление письменности было связано именно с необходимостью сохранения в объективной и неизменной форме текстовых документов определенной информации, с целью ее более легкого распространения на большие расстояния или большому количеству получателей. Первые дошедшие до нас текстовые документы — своды законов и установлений, летописи, договоры.
Структура текста
Любой, даже самый простой, текстовый документ состоит из разделов (как минимум из одного), обязательным свойством которых является название раздела. Под разделом мы понимаем часть текста, представляющую собой некоторую законченную мысль. Разделы, в свою очередь, могут делиться на подразделы (разделы более низкого уровня) и так далее. Название раздела n-го уровня называют заголовком n-го уровня.
Текст внутри раздела наименьшего уровня также неоднороден. Он разбивается на абзацы, которые, в свою очередь, также могут нести различную смысловую и структурную нагрузку. Например, абзац может являться определением, цитатой, примечанием, обычным текстом.
Абзац подразделяется на фразы, а те — на слова. Внутри абзаца встречаются слова и словосочетания с определенным функциональным смыслом: главные слова, новые слова, аббревиатуры, вводные и служебные слова и т.д.
Выделение в тексте логически связанных структурных элементов обеспечивает упорядочение и формализацию документа, что способствует более адекватному восприятию текста читателем.
Каждый создатель текстового документа имеет право оформлять те или иные структурные элементы так, как считает нужным, как он привык или как это ему удобно. Однако восприятие данного документа другими людьми отличается от восприятия автора, и они тоже имеют право читать данный документ в той форме, которая для них более удобна. Помимо этого существует ряд требований по оформлению официальных документов, не зависящих от вкусов конкретного человека.
Каким образом можно предоставить максимальную свободу по оформлению текстового документа его создателю, и одновременно с этим сделать результирующий текст удобным для читателя, или удовлетворяющим формальным требованиям? Для этого необходимо разделить процесс структурирования и процесс форматирования (визуального оформления) документа.
Структурирование текста — это процесс разбиения текста на единицы, имеющие смысловую нагрузку. Такими единицами являются абзацы, заголовки, списки и т.д.
Форматирование текста — процесс придания тексту определенного вида, связанный с определением различных свойств оформления документа, например выравнивания абзацев, цвета и гарнитуры шрифта.
Информационное структурирование и текст
Информационная модель — это совокупность информации, характеризующая свойства и состояния объекта, процесса, явления, а также взаимосвязь с внешним миром. Информационная модель описывается на каком-либо языке.
На информационную модель (совокупность данных об объектах моделирования) накладывается та или иная информационная структура (элементы модели организуются в информационную структуру). Решение о применении определенной информационной структуры принимается исходя из нужд конкретной задачи, которую предстоит решать для данной информационной модели.
На одной информационной модели могут быть развернуты самые разные информационные структуры. Какая информационная структура нужна – определяется задачей. Одна и та же информационная структура на одной и той же информационной модели может оказаться прекрасно пригодной для решения одной задачи и крайне затруднить решение другой.
Рассмотрим пример. Пусть объектом исследования является слово. Из одного слова можно извлечь достаточно много информации; будет ли использована та или иная информация, зависит от задачи. Например, по слову можно установить: его смысл; количество букв (всего, гласных и согласных, звонких и щипящих и т.д.); количество слогов; местоположение ударения; морфологическую структуру (приставка, корень, суффикс, окончание); определить, какой частью речи является слово и в какой форме оно находится (падеж для существильного или лицо для глагола) и так далее, и так далее. Даже для такого, казалось бы, «небольшого» объекта как слово объем извлекаемой информации может быть огромным. Эту информацию нужно уметь использовать, а для этого надо отбросить ненужную часть информации, а нужную выстроить в удобную для обработки структуру. Однако «нужность» и «ненужность» — очень субъективные вещи, и зависят исключительно от решаемой задачи.
Если, например, решается задача построения системы автоматизированного перевода текста, то из всей информационной модели слова потребуется выделить информацию обо всех корнях слова, о том, какой частью речи слово является и о том, в какой форме оно употреблено. Если решается задача синтеза речи (написание программы, которая «произносит вслух» определенный текст; например, программа озвучивания текста для слепых), то все это окажется абсолютно бесполезным. Зато в слове потребуется выделить все звуки, информацию об их произношении (гласный/согласный, длинный/короткий, звонкий/шипящий) и информацию об ударении.
Формализованное описание информационной структуры осуществляется на том или ином формальном языке. Если необходимо хранить и передавать текст вместе с существующей на нем информационной структурой, то описание структуры должно быть каким-либо образом внедрено в сам текст. При этом язык описания информационной структуры должен отличаться от языка самого текста. Язык описания информационной структуры текста обычно называют языком разметки. Существует довольно большое количество широко распространенных языков разметки текста, применяемых в различных ситуациях, но в последнее время глобальное значение приобретает используемый в самых различных приложениях язык XML (eXtensible Markup Language — расширяемый язык разметки).
Вернемся к нашему примеру построения информационной модели и информационной структуры слова. Вот как могла бы выглядеть описанная с помощью XML информационная структура слова «громоотвод», построенная в связи с задачей автоматизированного перевода:
<слово часть_речи=”существительное” падеж=”именительный”>
<корень>гром</корень>
<соединительная_гласная>о</соединительная_гласная>
<приставка>от</приставка>
<корень>вод</корень>
</слово>
Для понимания этого примера поясним, что синтаксические конструкции языка XML — они называются теги — состоят из двух частей, обозначающих начало и конец тега. Открывающий элемент тега может содержать описание значений атрибутов тега; с помощью атрибутов представляется дополнительная информация, не содержащаяся в самом тексте. Закрывающий элемент тега имеет то же имя, что и открывающий, но начинается косой чертой.
А вот информационная структура того же самого слова с точки зрения второй из рассмотренных примерных задач:
<слово>
<слог ударение=”нет”>
<звук>г</звук>
<звук>р</звук>
<звук>о</звук>
</слог>
<слог ударение=”да”>
<звук>м</звук>
<звук>о</звук>
</слог>
<слог ударение=”нет”>
<звук>а</звук>
<звук>т</звук>
</слог>
<слог ударение=”да”>
<звук>в</звук>
<звук>о</звук>
<звук>т</звук>
</слог>
</слово>
Программа автоматического перевода (если не находит слова целиком в своем словаре) может использовать построенную для нее информационную структуру таким образом: отобрать все корни, перевести их, и составить из того что получится перевод слова, используя информацию о служебных частях и грамматической форме слова. Программа синтеза речи может двигаться по слову звук за звуком, составлять из звуков слоги, формировать «звуковой портрет» слогов в зависимости от наличия или отсутствия ударения и «проговаривать» их.
Информация в сети
Интернет — это всемирное сообщество компьютерных сетей — сеть сетей, в которой обмен информацией происходит по общим правилам, зафиксированным в сетевых и программных протоколах.
Интернет появился в конце шестидесятых как результат экспериментов по созданию жизнестойких компьютерных сетей. Он стал реализацией заказа министерства обороны США, целью которого было создание такой сети, которая перенесла бы потерю нескольких машин, но сохранила бы за уцелевшими возможность общаться между собой. Получившаяся сеть стала удивительным достижением техники, но оставалась ограниченной в размерах и применялась лишь в сфере обороны и науки.
С появлением скоростных модемов, пригодных для цифровой связи по обычным телефонным линиям, некоторые люди и организации стали подключаться к сети и использовать выгоды передовой глобальной коммуникации. Стремительный взлет популярности Интернет начался лишь в начале 90-х годов прошлого века, когда крупнейшие сети, связанные с Интернет, открыли свои системы для практически свободного применения. Но установление соединения и применение разнообразного программного обеспечения ставило непреодолимый технический барьер перед большинством людей. При этом наиболее доступной информацией в сети были текстовые файлы, посвященные научным материям. Мало кто обладал достаточным знанием и мотивом, чтобы изучать таинственное программное обеспечение, или избытком времени для перекапывания гор документов в поисках нужного материала.
Прорывом, приведшим к резкому упрощению процесса обмена текстовой информацией в сети, и многократному увеличению числа людей, вовлеченных в этот обмен, стало применение методологии гипертекста. Гипертекст — это текст, содержащий ссылки к отдельным частям этого текста или к другим текстовым документам. Примерами гипертекста являются документы со сносками, каталоги, энциклопедии.
Через некоторое время некое научное сообщество объявило о создании нового языка, разработанного для формирования и передачи по сети гипертекстовых электронных документов, включающих в себя мультимедиа-элементы. Так родились язык разметки гипертекста (HyperText Markup Language, HTML), программа-броузер и World Wide Web. Авторам теперь уже не нужно было распространять свои работы, разбитые на части и содержащие по отдельности звуки, изображение и текст. HTML объединил все эти элементы. Более того, World Wide Web-системы ввели в обращение гипертекстовые ссылки, благодаря которым документ автоматически связывался с другими документами, находящимися где угодно в сети. Это повлекло за собой уменьшение затрат времени на поиски и возрастание эффективности пребывания в Интернет.
Интернет породил совершенно новое средство для глобального обмена информацией. Публикации, включающие изображения и другие виды информации, подобные исполняемым программам, достигают своей аудитории в мгновение ока, тогда как прежде требовались месяцы для печати и распространения.
Интернет — это сеть сетей. Он разделен на части, именуемые доменами, которые в свою очередь, подразделяются на один или несколько поддоменов. Имя компьютера при добавлении к нему всех доменных имен в виде разделенных точками суффиксов дает полностью квалифицированное доменное имя. Например, полностью квалифицированное имя www.uspu.ru читается как имя машины «www», которая принадлежит домену «uspu», а он, в свою очередь, является частью российской (ru) ветви Интернет.
Интернет связывает компьютеры двух типов: серверы, хранящие документы и обслуживающие внешние запросы, и клиенты, которые получают документы и отображают их для людей. Чтобы получить и отобразить веб-документы, используют программы, называемые броузерами. От имени клиента броузер обращается к веб-серверам в Интернет для получения доступа к документам. Каждый броузер обладает своим набором возможностей для отображения документа на экране компьютера. К самым распространенным броузерам относятся такие программы как Microsoft Internet Explorer, Netscape Navigator, Opera, которые позволяют отображать разнообразные электронные документы Интернет, включая аудио- и видеофайлы.
Для получения информации пользователь запускает свой броузер и набирает в адресной строке имя сервера, документы которого он хочет получить. Запрос, который броузер отправляет нужному серверу, имеет формат, предписанным стандартом протокола передачи гипертекста (HyperText Transfer Protocol, HTTP).
Получив такой запрос, сервер выясняет, имеет ли клиент право на получение документа, и если это так, проверяет наличие запрашиваемого документа. Если документ найден, сервер посылает его броузеру. Броузер выясняет определение типа документа (Document Type Definition, DTD), в соответствии с которым он написан, и соответственно отображает его. Пользователь просматривает документ, возможно, переходит по гиперссылке к другому документу (на этом же или другом сервере), и тогда процесс начинается сначала.
Также с помощью броузера можно загружать и отображать документы, сохраненные на локальном компьютере пользователя.
Деятельность Интернет и стандартизацию любых технологий, относящихся к World Wide Web, регулирует международная организация World Wide Web Consortium, или, сокращенно, W3C.
Текст в Интернете
Самый распространенный тип документов в Интернет — это документы, описанные на языке HTML.
HTML — это язык макетирования документов и описания гиперссылок. HTML определяет синтаксис и правила употребления специальных встроенных в язык инструкций — тегов, которые не воспроизводятся броузером, но указывают ему, как надо отобразить содержимое документа: изображения, текст и другие вспомогательные виды информации. Кроме того, язык HTML позволяет сделать документ интерактивным с помощью гипертекстовых ссылок, которые связывают его с документами на том же или любом другом компьютере, а также с другими ресурсами Интернет. Важной особенностью языка HTML является независимость от типа компьютерных платформ. Благодаря этому, HTML-документ можно просмотреть на компьютере с любой операционной системой.
Обработка различных сетевых документов требует создания новых HTML-подобных языков. Для этого W3С определил расширяемый язык разметки (eXtensible Markup Language, XML). XML является метаязыком, который предоставляет широкие возможности для создания собственной разметки и документов на её основе.
Язык HTML, широко распространенный на практике, не соответствует достаточно строгому стандарту XML. Поэтому W3С предложил язык XHTML, переработав HTML в соответствии с требованиями XML. XHTML поддерживает все возможности HTML, применяя более жесткие правила XML. Создавать XHTML-документы ничуть не сложнее чем писать обычную HTML-разметку, а перспективы использования таких документов значительно шире, поскольку к ним оказывается применим весь инструментарий XML. Именно поэтому в последнее время наибольшее внимание уделяется именно XHTML, как приоритетному инструменту разметки гипертекста.
При всем богатстве свойств (использование мультимедиа, применение новейших технологий и структурирование материала на странице), определивших ведущую роль HTML/XHTML-документов в Интернет, эти языки остаются ограниченными в своих возможностях. Они не являются средством обработки текста или даже языками программирования. Их основная задача — определить структуру и внешний вид документов так, чтобы они могли быть легко доставлены пользователю по сетям и отображены с помощью самых различных устройств вывода информации.
Внешнее оформление одного и того же элемента может выглядеть в разных броузерах по-разному. Это может быть вызвано как особенностями реализации, так и просто программистскими ошибками. Однако, ошибки броузеров не следует эксплуатировать для достижения специальных эффектов в документах. Это неразумно хотя бы потому, что в следующей версии броузера ошибка может быть исправлена.
Следует также усвоить ещё одно фундаментальное правило. Эти языки разметки созданы для того, чтобы структурировать документы и делать их содержание более доступным, а вовсе не для форматирования их перед отображением. Разумеется, внешний вид важен, поскольку он может как ухудшать, так и улучшать восприятие информации и её использование. Однако в HTML и XHTML первостепенную важность имеет работа с содержанием. Внешний вид имеет второстепенное значение, потому, что он менее предсказуем в силу различия возможностей броузеров в отображении графики и визуальном форматировании текста. Кроме того, языки разметки содержат множество средств для структурирования документа, не подразумевающих конкретного способа отображения.