| Планирование уроков и материалы к урокам | 11 классы | Планирование уроков на учебный год (по учебнику Семакина И.Г.) 2 часа в неделю |

Уроки 24 - 29
Организация и услуги Интернет (§§ 10 - 12)
Практическая работа 2.1. "Интернет. Работа с электронной почтой и телеконференциями"
Практическая работа 2.2. "Интернет. Работа с браузером. Просмотр Web-страниц"
Практическая работа 2.3. "Интернет. Сохранение загруженных Web-страниц"
Практическая работа 2.4. "Интернет. Работа с поисковыми системами"

Интернет как глобальная информационная система (§ 11)

Интернет как глобальная информационная система (§ 11)

Далее мы будем говорить об Интернете с точки зрения выполнения им своего главного назначения: быть глобальной информационной системой. Системой, дающей пользователю неограниченные возможности как для информационных коммуникаций с другими людьми, так и для получения любой интересующей его информации.

Средства обеспечения определенных информационных услуг для пользователей Сети принято называть службами (сервисами) Интернета. Число различных служб в Сети непрерывно растет. Опишем лишь некоторые самые известные службы, разделив их на коммуникационные и информационные.

Всякая услуга в Интернете предоставляется с помощью программ-серверов. Серверы делятся на несколько видов, в зависимости от типа услуги, которая предоставляется пользователям: web-серверы предоставляют доступ к информации в виде web-страниц, файловые серверы обеспечивают доступ к файлам, почтовые серверы выполняют обмен почтовыми сообщениями, игровые серверы служат для одновременной игры нескольких пользователей и др. С сервером взаимодействует программа-клиент, работающая на компьютере пользователя.

17.03.1996 Павел Храмцов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos. Архитектура современных ИПС для WWW Информационные ресурсы и их представление в ИПС Индекс поиска Информационно-поисковый язык системы Интерфейс системы Заключение Литература Пользователям Internet уже хорошо известны названия таких сервисов

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам.

При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы (рис.).

Рис. Типовая схема информационно-поисковой системы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

Как видно из рисунка, документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что имеется в указанных хранилищах. Естественно возникает вопрос - как информационно-поисковая система должна со всем этим работать?

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В WWW ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

Индекс поиска

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Информационно-поисковый язык системы

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно ".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На схеме из рисунка указаны сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле , где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

Заключение

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Литература

1. Дж. Солтон. Динамические библиотечно-информационные системы. Мир, Москва, 1979.
2. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.
4. Alta Vista . Digital Equipment Corporation, 1996.
5. Brain Pinkerton. Finding What People Want: Experiences with the WebCrawler .
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation .
9. Ian R.Winship. World Wide Web searching tools -an evaluation . VINE (99).
10. G.Salton, C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation Releases Industry"s Highest Performance Text Retrieval System.

Павел Храмцов ([email protected]) - независимый эксперт, (Москва).

Введение………………………………………………………………………3

1. Характеристика глобальных информационных сетей…………….4

2. История INTERNET ………………………………………………....7

3. Поиск информации Internet…………………………………………..9

4. Назначение Internet Explorer………………………………………....9

5. World Wide Web……………………………………………………….12

Заключение…………………………………………………………….16

Список использованной литературы…………………………………17

Введение

На сегодняшний день в мире существует более 130 миллионов компьютеров и более 80 % из них объединены в различные информационно-вычислительные сети от малых локальных сетей в офисах до глобальных сетей типа Internet, FidoNet, FREEnet и т.д. Всемирная тенденция к объединению компьютеров в сети обусловлена рядом важных причин, таких как ускорение передачи информационных сообщений, возможность быстрого обмена информацией между пользователями, получение и передача сообщений (факсов, E-Mail писем, электронных конференций и т.д.) не отходя от рабочего места, возможность мгновенного получения любой информации из любой точки земного шара, а так же обмен информацией между компьютерами разных фирм производителей работающих под разным программным обеспечением.

Такие огромные потенциальные возможности, которые несет в себе вычислительная сеть и тот новый потенциальный подъем, который при этом испытывает информационный комплекс, а так же значительное ускорение производственного процесса не дают нам право игнорировать и не применять их на практике.

Зачастую возникает необходимость в разработке принципиального решения вопроса по организации ИВС (информационно-вычислительной сети) на базе уже существующего компьютерного парка и программного комплекса, отвечающей современным научно-техническим требованиям с учетом возрастающих потребностей и возможностью дальнейшего постепенного развития сети в связи с появлением новых технических и программных решений.

1. Характеристика глобальных информационных сетей

Глобальные информационные сети – одно из основных достижений человечества в области информационных технологий, главная примета вхождения в эпоху информационного общества. Делая возможным оперативное общение на огромных расстояниях (в разных странах и даже на континентах), глобальные сети уже изменили для многих людей характер и возможности образования и профессиональной деятельности. Потенциальные возможности глобальных сетей пока используются лишь в малой мере, но эта область прикладной информатики является самой динамичной.

В настоящее время на Западе действует много глобальных сетей. Назовём для примера BITNET – сеть, объединяющую более 800 коллективных участников, преимущественно из числа университетов, колледжей и научных центров, охватывающую 35 стран Америки, Европы и Азии.

Из российских телекоммуникационных сетей крупнейшей (фактически действующей во всех странах СНГ и Прибалтики) является сеть RELCOM, созданная в 1990 году. Уже в 1996 году она имела порядка 300 узлов и насчитывала десятки тысяч абонентов. Сеть является членом Европейского консорциума EUNET, объединяющего многие сети Восточной Европы и Северной Африки, которая, в свою очередь, является участником гигантского мирового сообщества INTERNET. Ещё в 1994 году пользователи RELCOM имели доступ к более чем миллиону компьютеров по всему миру. Шлюз, позволяющий RELCOM выходить в зарубежные сети, находится в Москве, оттуда информация, адресованная за рубеж, поступает в Хельсинки – Амстердам – и далее по всему миру с использованием всех существующих видов связи.

Сеть универсальна, она предоставляет все виды услуг – от простой электронной почты до выхода в INTERNET. Подключившись к сети RELCOM, пользователь получает возможность обмениваться любой информацией со всеми абонентами этой сети и десятков других сетей. Это может быть личная или служебная переписка, обмен научной и деловой информацией с группой пользователей или со всеми пользователями, интересующимися данным вопросом (с помощью, так называемых, телеконференций).

Кроме RELCOM в России действуют не менее трёх десятков независимых сетей. Большинство из них являются ведомственными и имеют относительно немного клиентов. Например, любительская компьютерная сеть – FidoNet. В качестве каналов связи в ней используются практически только коммутируемые телефонные каналы. Пользователь сети имеет возможность обмена почтовыми сообщениями и файлами. На большинстве серверов сети действуют электронные «доски объявлений». Работа в этой сети ведётся в режиме очень похожем на разговор по телефону только в определённые часы.

Глобальные информационные сети включают в себя огромное множество абонентских пунктов, в ней существуют специальные компьютерные узлы связи, функционирующие круглосуточно. Пользователь включается в обмен информацией в желаемое для него время. Для этого он соединяется с ближайшей к нему хост-машиной, которая, в свою очередь, соединяется с другими хост-машинами в соответствии с адресом, указываемым пользователем сети. Хост-машина хранит поступившие на неё сообщения до тех пор, пока пользователь их не заберёт (или ограничивается разумным сроком хранения). Хост-машины постоянно связаны между собой по выделенным каналам связи и обмениваются информацией в автоматическом режиме под управлением специальных программ.

В глобальных компьютерных сетях используется структура древовидной топологии. Разрыв кабеля в такой сети выводит из строя лишь её часть – это важное преимущество сети древовидной топологии.

Процесс передачи данных по сети древовидной топологии определяет шесть компонент:

Компьютер-источник;

Блок протоколов;

Передатчик;

Физическая кабельная сеть;

Приёмник;

Компьютер-адресат.

В глобальных сетях существуют два режима информационного обмена. Диалоговый режим (или режим реального времени), в котором пользователь, получив порцию информации, может немедленно на неё реагировать, подавать новую команду в сеть для получения новых порций информации, называется on-line. В пакетном режиме, называемом off-line, пользователь передаёт порцию информации (или принимает её) в коротком сеансе связи и на некоторое время отключается от сети. Это время может быть достаточно длительным – от нескольких часов до нескольких суток – пока его запрос не будет обработан. On-line похож на разговор по телефону, off-line – на обмен обычными письмами по почте.

Пользователю глобальной сети доступен, по существу, весь мир. Самой известной глобальной сетью является сеть Интернет (это слово с некоторых пор стало нарицательным, поэтому, можно его писать с маленькой буквы), представляющая собой объединение огромного числа сетей, – отраслевого, регионального и ещё более узкого – локального уровня. “Малые” сети имеют выходы (шлюзы) в сети более высокого ранга, в согласованную систему адресов и протоколов (правил) передачи данных, и так образуют INTERNET – сеть сетей.

2. История INTERNET

Как и большинство технологий Интернет в своем развитии прошёл 3 периода:

1. Исследовательский (1957 – 1969). В агентстве перспективных проектов и исследований министерства обороны США начались эксперименты по соединению компьютеров друг с другом с помощью телефонных линий. Возникла сеть ARPA , предназначавшаяся для управления военными операциями и страной в период войны: каждая пара ПК в сети взаимодействуют автономно, а канал связи между ними в любой момент может быть разрушен, например бомбежкой. Уцелевший ПК может подключиться к сети через уцелевшие каналы связи.

2. Период становления (1969 – 1995). Датой рождения Интернета, который в начале назывался ARPAnet, принято считать 29 октября 1969 года, когда удалось соединить 4 ПК. Первый выход в свет засекреченная ARPAnet совершила в 1972 году, когда ее представляли на Международной компьютерной конференции связи. Уже тогда сеть содержала электронную почту e-mail. К концу 70-х годов были разработаны средства связи между ARPAnet и ее контрагентами в других странах. Мир оказался сведен в одно целое паутиной компьютерных сетей.

3. Период развития. В 80-ые годы сообщество сетей стало называться INTERNET. Были разработаны протоколы передачи данных. Как это часто происходит в жизни, и в компьютерной в частности, сначала появляется некое устройство, а потом правила пользования ею. Часто сам изобретатель не догадывается обо всех возможностях, скрытых в его изобретении. Примерно это произошло с INTERNET. Задуманная с довольно нелепой целью – связать всего-то около двух тысяч программистов с ничтожным количеством суперкомпьютеров, сеть выросла в глобальную информационную систему, охватывающую огромное количество людей и миллионы компьютеров. В 1990 году число объединившихся сетей достигло 3-х тысяч, а число ПК 200 тысяч. В 1992 году – 1млн. ПК, в 1995 году – 20 млн. ПК.

А в России?

В Россию Интернет проник в начале 90-х. Ряд университетов и исследовательских институтов приступили к построению своих сетей, например, на базе института атомной энергии им. Курчатова были созданы 2 сети: Relcom и Демос. До 1993 года сети предоставляли только услуги электронной почты.

В 1993 году мощный импульс развитию Интернета в России придала “Телекоммуникационная программа Международного научного фонда”. Она финансировалась Джорджем Соросом – известным американским мультимиллионером.

В 1994 году появилась сеть RUNnet (университетская).

В 1996 – 1998г. – сеть для нужд науки и высшей школы RBnet (на волоконно-оптических каналах).

В 1998г. – сеть Ростелеком (самый крупный поставщик услуг Интернета в России), Голден Телеком и Глобал Один. Другие сети: PIDOnet, Telnet, Glasnet. Сейчас 10 млн. пользователей Интернета – россияне.

В настоящее время на десятках миллионов компьютеров, подключенных в Интернет, хранится громадный объём информации (миллионы файлов, документов и т. д.) и сотни миллионов людей пользуются услугами Интернет.

3. Поиск информации в Internet

Пользователь ищет информацию в INTERNET либо с какой-либо целью, либо просто осматривается вокруг, чтобы знать, что есть в наличии. Море информации представлено в INTERNET, так что можно потратить огромное количество времени, просто переходя c одного сайта на другой и определяя, какая информация имеется в наличии. Эффект взрыва произвело появление таких средств управления поиском информации как GOPHER и WWW. GOPHER использует систему меню, чтобы позволить пользователям осуществлять выбор информации. WWW использует метафору web - паутина, т.к. эта система позволяет свободно перемещаться внутри системы, построенной на основе гипертекста (НТТР).

Создание информационных систем (часто говорят служб) связано
с разработкой новых протоколов обмена данными. В настоящее время создано много сетевых протоколов, среди которых можно отметить следующие основные:

1) HTTP (Hyper Text Transfer Protocol) – протокол передачи гипертекста;

2) FTP (File Transfer Protocol) – протокол передачи файлов;

3) SMTP (Simple Mail Transfer Protocol) – простой протокол пере-сылки электронной почты;

4) NNTP (Network News Transfer Protocol) – протокол передачи но-востей;

5) TELNET (TErminaL over NETwork Protocol) – протокол удаленного доступа, т.е. дистанционного исполнения команд на удаленном компь-ютере;

6) Gopher – протокол поиска серверов.

В зависимости от протокола обмена данными различают следующие основные информационные системы (службы), реализованные в сети «Интернет»:

1) WWW – гипертекстовая информационная система;

2) Е- мail – электронная почта;

3) BBS (Bulletin Board System) – электронные доски объявлений;

4) Usenet – система телеконференций;

5) FTP – система пересылки файлов;

6) IRC , ISQ – системы прямого общения пользователей;

7) TELNET – система удаленного доступа;

8) Gopher – система поиска серверов;

9) WAIS (Wide Area Information System) – система поиска баз данных.

Гипертекстовая информационная система WWW

Самым удобным, интересным и эффективным ресурсом Интернета является в настоящее время гипертекстовая информационная система WWW (World Wide Web) – «всемирная паутина».

WWW – это гипертекстовая информационная система, содер-жащая связанные между собой документы, которые могут созда-ваться в различных программных средах и находиться в любом из компьютеров сети «Интернет».

Интернет и «всемирная паутина WWW» – не одно и то же. Интернет включает в себя компьютеры, линии связи, программное обеспечение и данные, находящиеся в компьютерах сети. «Всемирная паутина WWW» – это только одна из возможностей Интернета.

WWW – информационная система, реализованная в рамках глобаль-ной сети «Интернет».

Гипертекстовые документы, содержащиеся во «всемирной паутине WWW», называются Web-документами. Гипертекстовый документ – это текстовый документ, содержащий гиперссылки . Гиперссылки позво-ляют указать:

1) другие части данного документа;

2) другие документы;

3) объекты нетекстового формата (звук, графику, видео).

В качестве гиперссылок могут выступать: текст и графические изображения. Щелчок по гиперссылке приводит к переходу к тому документу (или его части), на который указывает гиперссылка.

Web-документы бывают двух видов: Web-страницы и Web-сайты.

Web-страница – это основная единица передаваемой по «всемирной паутине» информации. Web-страница может иметь любую «длину». Это значит, что часто на экране монитора нельзя целиком увидеть всю страницу. Web-страница хранится в виде отдельного файла с расширением.html или.htm. Файлы Web-страниц хранятся на специальных компь-ютерах, называемых Web-серверами. Web-сервером может служить любой подключенный к сети Интернет компьютер, на котором установлено специальное программное обеспечение, такое как Microsoft Internet Information Services или Apache . Web-сервер должен быть постоянно подключен к сети Интернет или большую часть суток.

Группа тематически взаимосвязанных Web-страниц называется Web-сайтом или Web-узлом . Сайт может содержать произвольное коли-чество Web-страниц. Доступ на каждый сайт всегда производится через главную (часто говорят домашнюю или стартовую) страницу.

Сайты, обеспечивающие удобный доступ к разным ресурсам Интернета (электронной почте и др.), называются порталами. Например, TUT.BY – белорусский портал, MAIL.RU – российский портал.

URL-адреса и браузеры

Каждая Web-страница представляет собой файл, находящийся на одном из дисковых устройств Web-сервера. Следовательно, чтобы по-лучить доступ к какой-либо странице, необходимо знать адрес файла, содержащего эту страницу. Для этих целей используются так называемые унифицированные указатели ресурсов или URL-адреса (Uniform Resource Locator – универсальный указатель ресурсов).

URL-адрес представляет собой стандартизованную строку симво-лов, указывающую местонахождение документа в сети Интернет .

Структура URL-адреса имеет вид.

Шпаргалка по информационному праву Якубенко Нина Олеговна

39. ПОРЯДОК СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ И ИХ СЕТЕЙ. ИНФОРМАЦИОННЫЕ СИСТЕМЫ СВЯЗИ: ИНТЕРНЕТ, ЭЛЕКТРОННАЯ ПОЧТА, ЦИФРОВАЯ СВЯЗЬ И ДР

Как известно, Интернет называют еще – World Wide Web (WWW) – «всемирная информационная паутина». Причем не просто паутина, а паутина, включающая в себя многочисленные базы и банки данных.

Другими словами – это распределенная всемирная база знаний, включающая в себя множество различных информационных массивов (информационных ресурсов, баз данных или знаний), состоящих из документов, данных, текстов, объединенных между собой трансграничной телекоммуникационной информационной паутиной или сетью.

Эта всемирная информационная паутина сформирована на базе бесчисленного множества компьютеров (средств вычислительной техники) разных типов и назначения, программных средств, информационных ресурсов, средств связи и телекоммуникаций, по которым передается и получается информация.

Совокупность информационных массивов World Wide Web как бы пронизывается многочисленными «гипертекстовыми» связями. Каждая такая связь «соединяет» между собой любые точки текстовых или графических документов WWW или элементов документов. Они представляются в формате HTML (Hiper Text Markup Laguage) и могут состоять из текстовых и графических фрагментов, элементов оформления, отдельных данных и других аналогичных структур.

В состав Интернета входят и обеспечивают ее функционирование множество провайдеров (субъектов, предоставляющих информационные услуги пользователям Интернета), владельцев серверов (компьютеров, на которых размещаются запасы информации) и, наконец, пользователей услугами Интернета и потребителей информации.

В результате развитие телекоммуникационных систем, глобальных сетей и интерактивных средств распространения информации создает возможность доступа отдельного пользователя к практически неограниченным информационным массивам. Таким образом, создается единое мировое электронное информационное пространство.

В начале 90-х гг. бывший президент фирмы Appje Д. Скаллде и другие специалисты выдвигали идеи навигации в едином открытом информационном пространстве – «навигации знании». Таким открытым информационным пространством и стал Интернет.

Можно ли назвать такую сложную всемирную паутину, именуемую «Интернет», автоматизированной информационной системой? Для этого вернемся к определению, принятому законодателем.

Федеральным законом «Об информации, информатизации и защите информации» определено понятие «информационная система» – организационно упорядоченная совокупность документов (массивов документов) и информационных технологий, в том числе использованием средств вычислительной техники реализующих информационные процессы» (ст. 2).

В этой статье дано также определение термина «средства обеспечения автоматизированных информационных систем и их технологий – программные, технические, лингвистические, правовые, организационные средства (программы для электронных вычислительных машин; средства вычислительной техники и связи; словари, тезаурусы и классификаторы; инструкции и методики; положения, уставы, должностные инструкции; схемы и их описания, другая эксплуатационная и сопроводительная документация), используемые или создаваемые при проектировании информационных систем и обеспечивающие их эксплуатации».

Из книги Таможенный кодекс РФ автора Законы РФ

Статья 424. Сертификация информационных систем, информационных технологий, средств их обеспечения и защиты Информационные системы, информационные технологии, средства их обеспечения, а также программно-технические средства защиты информации, применяемые в таможенном

Из книги Таможенный кодекс РФ автора Дума Государственная

Из книги Градостроительный кодекс Российской Федерации. Текст с изменениями и дополнениями на 2009 год автора Автор неизвестен

Статья 57. Порядок ведения информационных систем обеспечения градостроительной деятельности и предоставления сведений информационных систем обеспечения градостроительной деятельности 1. Ведение информационных систем обеспечения градостроительной деятельности

Из книги Таможенный кодекс Российской Федерации. Текст с изменениями и дополнениями на 2009 год автора Автор неизвестен

СТАТЬЯ 424. Сертификация информационных систем, информационных технологий, средств их обеспечения и защиты Информационные системы, информационные технологии, средства их обеспечения, а также программно-технические средства защиты информации, применяемые в таможенном

Из книги Уголовный кодекс Украины в анекдотах автора Кивалов С В

Раздел XVI ПРЕСТУПЛЕНИЯ В СФЕРЕ ИСПОЛЬЗОВАНИЯ ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНЫХ МАШИН (КОМПЬЮТЕРОВ, СИСТЕМ И КОМПЬЮТЕРНЫХ СЕТЕЙ И СЕТЕЙ

Из книги Комментарий к правилам оказания услуг связи автора Сухарева Наталия Владимировна

Статья 361. Несанкционированное вмешательство в работу электронно-вычислительных машин (компьютеров), автоматизированных систем, компьютерных сетей или сетей электросвязи 1. Несанкционированное вмешательство в работу электронно-вычислительных машин (компьютеров),

Из книги Шпаргалка по информационному праву автора Якубенко Нина Олеговна

III. Порядок присоединения сетей связи телерадиовещания и их взаимодействия с сетью связи телерадиовещания оператора сети связи телерадиовещания, занимающего существенное положение Комментарий к пункту 14Реестр ведется по форме, установленной Мининформсвязи .

Из книги Право Европейского Союза автора Кашкин Сергей Юрьевич

17. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ ОСУЩЕСТВЛЕНИИ ПОИСКА, ПОЛУЧЕНИЯ И ПОТРЕБЛЕНИЯ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ РЕСУРСОВ, ИНФОРМАЦИОННЫХ ПРОДУКТОВ, ИНФОРМАЦИОННЫХ УСЛУГ Такие права и обязанности возникают у потребителей информации, действующих в

Из книги Экзамен на адвоката автора

18. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ ПРОИЗВОДСТВЕ, ПЕРЕДАЧЕ И РАСПРОСТРАНЕНИИ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ РЕСУРСОВ, ИНФОРМАЦИОННЫХ ПРОДУКТОВ, ИНФОРМАЦИОННЫХУСЛУГ Характер и особенности прав и обязанностей, возникающих при производстве, передаче и

Из книги Управление дебиторской задолженностью автора Брунгильд Светлана Геннадьевна

19. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ СОЗДАНИИ И ПРИМЕНЕНИИ ИНФОРМАЦИОННЫХ СИСТЕМ, ИХ СЕТЕЙ, СРЕДСТВ ОБЕСПЕЧЕНИЯ И МЕХАНИЗМОВ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ Информационные правоотношения, возникающие при осуществлении таких информационных процессов,

Из книги автора

52. ПРАВОВОЙ РЕЖИМ ИНФОРМАЦИОННЫХ СИСТЕМ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СРЕДСТВ ИХ ОБЕСПЕЧЕНИЯ Основными источниками правового регулирования отношений в области создания и применения автоматизированных информационных систем, информационных технологий средств связи и

Из книги автора

53. ПОРЯДОК РАЗРАБОТКИ И ВНЕДРЕНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ, ТЕХНОЛОГИЙ И СРЕДСТВ ОБЕСПЕЧЕНИЯ Отношения, возникающие при разработке и внедрении информационных систем, технологий и средств их обеспечения, регулируются нормами ГК РФ (гл. 38 «Выполнение

Из книги автора

54. ГОСУДАРСТВЕННАЯ ПОЛИТИКА В ОБЛАСТИ СОЗДАНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СРЕДСТВ ИХ ОБЕСПЕЧЕНИЯ Федеральным законом «Об информации, информатизации и защите информации» определена государственная политика в сфере создания и применения

Из книги автора

149. Как регулируется в праве Европейского Союза электронная цифровая подпись? В декабре 1999 г. Европейским парламентом совместно с Советом была принята Директива о порядке использования электронных подписей в Европейском сообществе. В соответствии со ст. 2 Директивы

Из книги автора

Вопрос 50. Справочные правовые системы, информационные Интернет-ресурсы в работе адвоката. Справочно-правовые системы (СПС) – это компьютерные базы данных, содержащие тексты нормативных правовых актов, решения высших судебных органов, материалы судебной практики,

Интернет и информационные системы. Информационно-поисковые системы Internet

Интернет как глобальная информационная система (§ 11)

Архитектура современных ИПС для WWW

Информационные ресурсы и их представление в ИПС

Индекс поиска

Информационно-поисковый язык системы

Интерфейс системы

Заключение

Литература

3. Поиск информации Internet…………………………………………..9

4. Назначение Internet Explorer………………………………………....9

3. Поиск информации в Internet