Информационный объем текста и единицы измерения информации

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Для измерения длины есть такие единицы, как миллиметр, сантиметр, метр, километр. Известно, что масса измеряется в граммах, килограммах, центнерах и тоннах. Бег времени выражается в секундах, минутах, часах, днях, месяцах, годах, веках. Компьютер работает с информацией и для измерения ее объема также имеются соответствующие единицы измерения.

Мы уже знаем, что компьютер воспринимает всю информацию .

Бит – это минимальная единица измерения информации, соответствующая одной двоичной цифре («0» или «1»).

Байт состоит из восьми бит. Используя один байт, можно закодировать один символ из 256 возможных (256 = 2 8). Таким образом, один байт равен одному символу, то есть 8 битам:

1 символ = 8 битам = 1 байту.

Буква, цифра, знак препинания – это символы. Одна буква – один символ. Одна цифра – тоже один символ. Один знак препинания (либо точка, либо запятая, либо вопросительный знак и т.п.) – снова один символ. Один пробел также является одним символом.

Изучение компьютерной грамотности предполагает рассмотрение и других, более крупных единиц измерения информации.

Таблица байтов:

1 байт = 8 бит

1 Кб (1 Килобайт ) = 2 10 байт = 2*2*2*2*2*2*2*2*2*2 байт =
= 1024 байт (примерно 1 тысяча байт – 10 3 байт)

1 Мб (1 Мегабайт ) = 2 20 байт = 1024 килобайт (примерно 1 миллион байт – 10 6 байт)

1 Гб (1 Гигабайт ) = 2 30 байт = 1024 мегабайт (примерно 1 миллиард байт – 10 9 байт)

1 Тб (1 Терабайт ) = 2 40 байт = 1024 гигабайт (примерно 10 12 байт). Терабайт иногда называют тонна .

1 Пб (1 Петабайт ) = 2 50 байт = 1024 терабайт (примерно 10 15 байт).

1 Эксабайт = 2 60 байт = 1024 петабайт (примерно 10 18 байт).

1 Зеттабайт = 2 70 байт = 1024 эксабайт (примерно 10 21 байт).

1 Йоттабайт = 2 80 байт = 1024 зеттабайт (примерно 10 24 байт).

В приведенной выше таблице степени двойки (2 10 , 2 20 , 2 30 и т.д.) являются точными значениями килобайт, мегабайт, гигабайт. А вот степени числа 10 (точнее, 10 3 , 10 6 , 10 9 и т.п.) будут уже приблизительными значениями, округленными в сторону уменьшения. Таким образом, 2 10 = 1024 байта представляет точное значение килобайта, а 10 3 = 1000 байт является приблизительным значением килобайта.

Такое приближение (или округление) вполне допустимо и является общепринятым.

Ниже приводится таблица байтов с английскими сокращениями (в левой колонке):

1 Kb ~ 10 3 b = 10*10*10 b= 1000 b – килобайт

1 Mb ~ 10 6 b = 10*10*10*10*10*10 b = 1 000 000 b – мегабайт

1 Gb ~ 10 9 b – гигабайт

1 Tb ~ 10 12 b – терабайт

1 Pb ~ 10 15 b – петабайт

1 Eb ~ 10 18 b – эксабайт

1 Zb ~ 10 21 b – зеттабайт

1 Yb ~ 10 24 b – йоттабайт

Выше в правой колонке приведены так называемые «десятичные приставки», которые используются не только с байтами, но и в других областях человеческой деятельности. Например, приставка «кило» в слове «килобайт» означает тысячу байт, также как в случае с километром она соответствует тысяче метров, а в примере с килограммом она равна тысяче грамм.

Продолжение следует…

Возникает вопрос: есть ли продолжение у таблицы байтов? В математике есть понятие бесконечности, которое обозначается как перевернутая восьмерка: ∞.

Понятно, что в таблице байтов можно и дальше добавлять нули, а точнее, степени к числу 10 таким образом: 10 27 , 10 30 , 10 33 и так до бесконечности. Но зачем это надо? В принципе, пока хватает терабайт и петабайт. В будущем, возможно, уже мало будет и йоттабайта.

Напоследок парочка примеров по устройствам, на которые можно записать терабайты и гигабайты информации.

Есть удобный «терабайтник» – внешний жесткий диск, который подключается через порт USB к компьютеру. На него можно записать терабайт информации. Особенно удобно для ноутбуков (где смена жесткого диска бывает проблематична) и для резервного копирования информации. Лучше заранее делать резервные копии информации, а не после того, как все пропало.

Флешки бывают 1 Гб, 2 Гб, 4 Гб, 8 Гб, 16 Гб, 32 Гб, 64 Гб и даже 1 терабайт.

Тема: «Измерение информации»

Формулы

Для определения информационного объема сообщения потребуются две формулы:

1. \(N= 2^i \)

N — мощность алфавита

2. \(I = k * i \) 

I — информационный объём сообщения

k — количество символов в сообщении

i — информационный объём одного символа в алфавите

Формула нахождения k:

Формула нахождения i:

Задачи

Задача №1. Сообщение, записанное буквами из 128-символьного алфавита, содержит 30 символов. Найти информационный объем всего сообщения?

Решение.

\(I = ? \)

\(i = ? \)

\(N= 2^i \) = \(128= 2^7 \)

\(i = 7 \) бит. Какая степень двойки, такой вес одного символа в алфавите. Далее определяем информационный объем сообщения по формуле:

\(I = k * i \) = 30 * 7 = 210 бит

Ответ: 210 бит

Задача №2. Информационное сообщение объемом 4 Кбайта содержит 4096 символов. Сколько символов содержит алфавит, при помощи которого было записано это сообщение?

Решение. Запишем, что дано по условию задачи и что необходимо найти:

\(I = 4 \) Кб

\(N = ? \)

\(i = ? \)

Очень важно перевести все числа в степени двойки:

1 Кб = \(2^{13} \) бит

\(I = 4 \) Кб = \(2^2 \) * \(2^{13} \) = \(2^{15} \) бит

k = 4096 = \(2^{12} \)

Сначала найдем вес одного символа по формуле:

\(i = \frac{\mathrm I}{\mathrm k} \) = \(2^{15} \) : \(2^{12} \) = \(2^3 \) = 8 бит

\(N= 2^i \) \(2^8 =256\)

Ответ: 256 символов в алфавите.

Задача №3. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составляет 1/16 Мб?

Решение. Запишем, что дано по условию задачи и что необходимо найти:

Мб

\(k = ? \)

\(i = ? \)

Представим \(I = \frac{\mathrm 1}{\mathrm 16} \) Мб в степень двойки:

1 Мб = \(2^{23} \) бит

\(I = \frac{\mathrm 1}{\mathrm 16} \) Мб = \(2^{23} \) : \(2^4 \) = \(2^{19} \) бит.

Сначала найдем вес одного символа по формуле:

\(N= 2^i \) = \(2^4 = 16 \)

\(i = 4 \) бит = \(2^2 \)

Теперь найдём количество символов в сообщении k:

\(k = \frac{\mathrm I}{\mathrm i} \) = \(2^{19} \) : \(2^2 \) = \(2^{17} \) = 131072

Ответ: 131072 символов в сообщении.

Цель урока:

Иметь представление об алфавитном подходе к определению количества информации;
Знать формулу для определения количества информационных сообщений,количества информации в сообщений;
Уметь решать задачи на определение количества информационных сообщений и количества информации, которое несет полученное сообщение.

Ход урока

1. Актуализация знаний:

Ребята давайте понаблюдаем за тем, что мы видим за окном. Что вы можете сказать о природе? (Наступила зима.)
- Но почему вы решили, что наступила зима? (Холодно, идет снег.)
- Но ведь нигде не написано, что это признаки зимы. (Но мы знаем, что все это означает: наступила зима.)

Поэтому и получается, что, то знание, которое мы извлекаем из окружающей действительности и есть информация. (слайд 1 )

Разминка.

Заполнить таблицу и стрелочками показать соответствия.

Можно ли измерить количество информации и как это сделать? (Да)

Оказывается, информацию также можно измерять и находить ее количество.

Существуют два подхода к измерению информации. С одним из них мы сегодня познакомимся. (Смотри приложение слайд 2 )

2. Изучение нового материала.

Каким образом можно найти количество информации?

Рассмотрим пример.

У нас есть небольшой текст, написанный на русском языке. Он состоит из букв русского алфавита, цифр, знаков препинания. Для простоты будем считать, что символы в тексте присутствуют с одинаковой вероятностью.

Множество используемых в тексте символов называется алфавитом .

В информатике под алфавитом понимают не только буквы, но и цифры, и знаки препинания, и другие специальные знаки.

У алфавита есть размер (полное количество символов) , который называется мощностью алфавита. При алфавитном подходе считается, что каждый символ текста имеет определенный “информационный вес”. С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита.

Обозначим мощность алфавита через N.

Найдем зависимость между информационным весом символа (i) и мощностью алфавита (N). Самый наименьший алфавит содержит 2 символа, которые обозначаются “0” и “1”. Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит. (Cмотри приложение слайд 3 )

N	2	4	8	16	32	64	128	256
i	1бит	2бит	3бит	4бит	5бит	6бит	7бит	8бит

В компьютере также используется свой алфавит, который можно назвать компьютерным. Количество символов, которое в него входит, равно 256 символов. Это мощность компьютерного алфавита.

Также мы выяснили, что закодировать 256 разных символов можно показать с помощью 8 битов.

8 бит является настолько характерной величиной, что ей присвоили свое название – байт.

1байт = 8 битам

Используя этот факт: можно быстро подсчитать количество информации, содержащееся в компьютерном тексте, т.е.в тексте набранном с помощью компьютера, учитывая, что большинство статей, книг, публикаций и т.д. написаны с помощью текстовых редакторов, то таким способом можно найти информационный объем любого сообщения, созданного подобным образом.

Правило для измерения информации с точки зрения алфавитного подхода посмотрим на слайде. (Cмотри приложение слайд 4 )

Пример:

Найти информационный объем страницы компьютерного текста.

Решение:

Используем правило.

1. Найдем мощность: N=256
2. Найдем информационный объем одного символа: N= 2 i i = 8 бит = 1 байт.
3. Найдем количество символов на странице. Примерно.

(Найти количество символов в строке и умножить на количество строк)

Пояснение:

Пусть дети выберут произвольную строку и подсчитают количество символов в ней, учитывая все знаки препинания и пробелы.

40 символов * 50 строк = 2000символов.

4. Найдем информационный объем всей страницы: 2000 * 1 = 2000 байтам

Согласитесь, что байт – маленькая единица измерения информации. Для измерения больших объемов информации используют следующие единицы (Cмотри приложение слайд5 )

3. Закрепление изученного материала.

На доске:

Заполнить пропуски числами и проверить правильность.

1 Кбайт = ___ байт = ______бит,
2 Кбайт = _____ байт =______бит,
24576 бит =_____байт =_____Кбайт,
512 Кбайт = ___ байт =_____бит.

Предлагается ученикам задачи:

1) Сообщение записано с помощью алфавита, содержащего 8 символов. Какое количество информации несет одна буква этого алфавита?

Решение: N=8 , то i= 3 битам

2) Сообщение, записанное буквами из 128-символьного алфавита, содержит 30 символов. Какой объем информации оно несет?

1. N= 128 , K=30
2. N= 2 i i= 7 битам (объем одного символа)
3. I = 30*7 = 210бит (объем всего сообщения)

4. Творческая работа.

Наберите на компьютере текст, информационный объем которого равен 240 байт.

5. Итоги урока.

Что нового сегодня мы узнали на уроке?
- Как определяется количество информации с алфавитной точки зрения?
- Как найти мощность алфавита?
- Чему равен 1байт?

6. Домашнее задание (Cмотри приложение слайд 6 ).

Выучить правило для измерения информации с точки зрения алфавитного подхода.

Выучить единицы измерения информации.

Решить задачу:

1) Мощность некоторого алфавита равна 64 символам. Каким будет объем информации в тексте, состоящем из 100символов.
2) Информационный объем сообщения равен 4096 бит. Оно содержит 1024 символа. Какова мощность алфавита, с помощью которого составлено это сообщение?

Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста , который пропорционален размеру текста - количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.

Каждый символ текста несет определенное количество информации. Его называют информационным весом символа . Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.

Здесь предполагается, что текст - это последовательная цепочка пронумерованных символов. В формуле (1) i 1 обозначает информационный вес первого символа текста, i 2 - информационный вес второго символа текста и т.д.; K - размер текста, т.е. полное число символов в тексте.

Все множество различных символов, используемых для записи текстов , называется алфавитом . Размер алфавита - целое число, которое называется мощностью алфавита . Следует иметь в виду, что в алфавит входят не только буквы определенного языка, но все другие символы, которые могут использоваться в тексте: цифры, знаки препинания, различные скобки, пробел и пр.

Определение информационных весов символов может происходить в двух приближениях:

1) в предположении равной вероятности (одинаковой частоты встречаемости) любого символа в тексте;

2) с учетом разной вероятности (разной частоты встречаемости) различных символов в тексте.

Приближение равной вероятности символов в тексте

Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N - мощность алфавита. Тогда доля любого символа в тексте составляет 1/N -ю часть текста. По определению вероятности (см. ) эта величина равна вероятности появления символа в каждой позиции текста:

p = 1/N

Согласно формуле К.Шеннона (см. “Измерение информации. Содержательный подход” ), количество информации, которое несет символ, вычисляется следующим образом:

i = log2(1/p ) = log2N (бит ) (2)

Следовательно, информационный вес символа (i ) и мощность алфавита (N ) связаны между собой по формуле Хартли (см. “Измерение информации. Содержательный подход” )

2 i = N.

Зная информационный вес одного символа (i ) и размер текста, выраженный количеством символов (K ), можно вычислить информационный объем текста по формуле:

I = K · i (3)

Эта формула есть частный вариант формулы (1), в случае, когда все символы имеют одинаковый информационный вес.

Из формулы (2) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.

С позиции алфавитного подхода к измерению информации 1 бит - это информационный вес символа из двоичного алфавита.

Более крупной единицей измерения информации является байт .

1 байт - это информационный вес символа из алфавита мощностью 256.

Поскольку 256 = 2 8 , то из формулы Хартли следует связь между битом и байтом:

2 i = 256 = 2 8

Отсюда: i = 8 бит = 1 байт

Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно,
1 символ такого текста “весит” 1 байт.

Помимо бита и байта, для измерения информации применяются и более крупные единицы:

1 Кб (килобайт) = 2 10 байт = 1024 байта,

1 Мб (мегабайт) = 2 10 Кб = 1024 Кб,

1 Гб (гигабайт) = 2 10 Мб = 1024 Мб.

Приближение разной вероятности встречаемости символов в тексте

В этом приближении учитывается, что в реальном тексте разные символы встречаются с разной частотой. Отсюда следует, что вероятности появления разных символов в определенной позиции текста различны и, следовательно, различаются их информационные веса.

Статистический анализ русских текстов показывает, что частота появления буквы “о” составляет 0,09. Это значит, что на каждые 100 символов буква “о” в среднем встречается 9 раз. Это же число обозначает вероятность появления буквы “о” в определенной позиции текста: p o = 0,09. Отсюда следует, что информационный вес буквы “о” в русском тексте равен:

Самой редкой в текстах буквой является буква “ф”. Ее частота равна 0,002. Отсюда:

Отсюда следует качественный вывод: информационный вес редких букв больше, чем вес часто встречающихся букв.

Как же вычислить информационный объем текста с учетом разных информационных весов символов алфавита? Делается это по следующей формуле:

Здесь N - размер (мощность) алфавита; n j - число повторений символа номер j в тексте; i j - информационный вес символа номер j .

Алфавитный подход в курсе информатики основой школы

В курсе информатики в основной школе знакомство учащихся с алфавитным подходом к измерению информации чаще всего происходит в контексте компьютерного представления информации. Основное утверждение звучит так:

Количество информации измеряется размером двоичного кода, с помощью которого эта информация представлена

Поскольку любые виды информации представляются в компьютерной памяти в форме двоичного кода, то это определение универсально. Оно справедливо для символьной, числовой, графической и звуковой информации.

Один знак (разряд ) двоичного кода несет 1 бит информации.

При объяснении способа измерения информационного объема текста в базовом курсе информатики данный вопрос раскрывается через следующую последовательность понятий: алфавит - размер двоичного кода символа - информационный объем текста.

Логика рассуждений разворачивается от частных примеров к получению общего правила. Пусть в алфавите некоторого языка имеется всего 4 символа. Обозначим их:, , , . Эти символы можно закодировать с помощью четырех двухразрядных двоичных кодов: - 00, - 01, - 10, - 11. Здесь использованы все варианты размещений из двух символов по два, число которых равно 2 2 = 4. Отсюда делается вывод: информационный вес символа из 4-символьного алфавита равен двум битам.

Следующий частный случай - 8-символьный алфавит, каждый символ которого можно закодировать 3-разрядным двоичным кодом, поскольку число размещений из двух знаков группами по 3 равно 2 3 = 8. Следовательно, информационный вес символа из 8-символьного алфавита равен 3 битам. И т.д.

Обобщая частные примеры, получаем общее правило: с помощью b- разрядного двоичного кода можно закодировать алфавит, состоящий из N = 2 b - символов.

Пример 1. Для записи текста используются только строчные буквы русского алфавита и “пробел” для разделения слов. Какой информационный объем имеет текст, состоящий из 2000 символов (одна печатная страница)?

Решение. В русском алфавите 33 буквы. Сократив его на две буквы (например, “ё” и “й”) и введя символ пробела, получаем очень удобное число символов - 32. Используя приближение равной вероятности символов, запишем формулу Хартли:

2 i = 32 = 2 5

Отсюда: i = 5 бит - информационный вес каждого символа русского алфавита. Тогда информационный объем всего текста равен:

I = 2000 · 5 = 10 000 бит

Пример 2. Вычислить информационный объем текста размером в 2000 символов, в записи которого использован алфавит компьютерного представления текстов мощностью 256.

Решение. В данном алфавите информационный вес каждого символа равен 1 байту (8 бит). Следовательно, информационный объем текста равен 2000 байт.

В практических заданиях по данной теме важно отрабатывать навыки учеников в пересчете количества информации в разные единицы: биты - байты - килобайты - мегабайты - гигабайты. Если пересчитать информационный объем текста из примера 2 в килобайты, то получим:

2000 байт = 2000/1024 1,9531 Кб

Пример 3. Объем сообщения, содержащего 2048 символов, составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?

Решение. Переведем информационный объем сообщения из мегабайтов в биты. Для этого данную величину умножим дважды на 1024 (получим байты) и один раз - на 8:

I = 1/512 · 1024 · 1024 · 8 = 16 384 бита.

Поскольку такой объем информации несут 1024 символа (К ), то на один символ приходится:

i = I /K = 16 384/1024 = 16 бит.

Отсюда следует, что размер (мощность) использованного алфавита равен 2 16 = 65 536 символов.

Объемный подход в курсе информатики в старших классах

Изучая информатику в 10–11-х классах на базовом общеобразовательном уровне, можно оставить знания учащихся об объемном подходе к измерению информации на том же уровне, что описан выше, т.е. в контексте объема двоичного компьютерного кода.

При изучении информатики на профильном уровне объемный подход следует рассматривать с более общих математических позиций, с использованием представлений о частотности символов в тексте, о вероятностях и связи вероятностей с информационными весами символов.

Знание этих вопросов оказывается важным для более глубокого понимания различия в использовании равномерного и неравномерного двоичного кодирования (см. “Кодирование информации” ), для понимания некоторых приемов сжатия данных (см. “Сжатие данных” ) и алгоритмов криптографии (см. “Криптография” ).

Пример 4. В алфавите племени МУМУ всего 4 буквы (А, У, М, К), один знак препинания (точка) и для разделения слов используется пробел. Подсчитали, что в популярном романе “Мумука” содержится всего 10 000 знаков, из них: букв А - 4000, букв У - 1000, букв М - 2000, букв К - 1500, точек - 500, пробелов - 1000. Какой объем информации содержит книга?

Решение. Поскольку объем книги достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тексте каждого из символов алфавита характерна для любого текста на языке МУМУ. Подсчитаем частоту встречаемости каждого символа во всем тексте книги (т.е. вероятность) и информационные веса символов

Общий объем информации в книге вычислим как сумму произведений информационного веса каждого символа на число повторений этого символа в книге:

Размер файла какая буква. Единицы измерения объема информации

Информационный объем текста и единицы измерения информации

Единицы измерения количества информации:

Информационный объем текста

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Таблица байтов:

Продолжение следует…

Тема: «Измерение информации»

Формулы

Задачи

Приближение равной вероятности символов в тексте

Приближение разной вероятности встречаемости символов в тексте