Количество информации
Передача информации
Вообще говоря, очень трудно дать определение термину «информация». Один из возможных подходов — формализовать не само понятие информации, а понятие передачи информации.
Передачей информации мы назовём пару конечных вложенных множеств \(A\subset B\). Это можно интерпретировать так:
- Вася знает, что мир вокруг него находится в одном из состояний, принадлежащих множеству \(B\), но не знает, в каком конкретно
- Петя что-то Васе сообщает
- теперь Вася знает, что некоторые из рассматриваемых им до этого возможных состояний мира не совместимы с собщением Пети; остаётся некоторое подмножество \(A\) допустимых теперь Васей состояний мира
Обратим внимание, что ситуация \(A=B\) вполне соответствует житейско-бытовой фразе «Петя не сообщил Васе никакой новой для него информации».
Измерение количества информации
Иногда хочется как-то количественно выражать информативность Петиного сообщения с точки зрения Васи.
Совсем наивный способ
Назвать количеством информации разность размеров соответствующих множеств: \(|B|-|A|\).
У такого способа есть очень серьёзный недостаток: зависимость от масштаба. А именно, рассмотрим две ситуации.
Ситуация первая
Вася знает, что на улице либо идёт дождь, либо не идёт, но не видит эту улицу, поскольку сейчас находится на видеоконференции. Его знания моделируются двухэлементным множеством.
Вася спрашивает у Пети, находящегося на улице, идёт ли там дождь. Петя отвечает, что не идёт. Множество Васи уменьшилось до размера 1. Значит, Петя сообщил Васе одну единицу информации.
Ситуация вторая
Вася знает, что на улице либо идёт дождь, либо не идёт, но не видит эту улицу, поскольку сейчас находится на видеоконференции. Также Вася знает, что его кот находится либо на кухне, либо в ванной. Его знания моделируются четырёхэлементным множеством.
Вася спрашивает у Пети, находящегося на улице, идёт ли там дождь. Петя отвечает, что не идёт. Множество Васи уменьшилось до размера 2. Значит, Петя сообщил Васе две единицы информации.
А ситуации-то совершенно одинаковы с точки зрения внешнего наблюдателя!
Обычно, пытаясь понять, сколько кто кому информации передал, мы как раз находимся в роли внешнего наблюдателя, и нам затруднительно строить полную модель множества неопределённости знаний сторон, участвующих в коммуникационном акте.
Менее наивный способ
Назвать количеством информации отношение размеров множеств \(|B|/|A|\).
Такой способ масштабоинвариантен: это хорошо.
Также этот способ позволяет вообще не строить явные модели множеств знаний. Вместо этого можно:
- рассмотреть множество всевозможных сообщений, которые Петя может сообщить Васе
- сделать гипотезу о том, что все они несут одинаковое количество информации
- вычислить количество информации одного сообщения как размер множества всевозможных сообщений
Например, если Вася спросил Петю, какого цвета у Пети автомобиль, Вася ожидает получить какой-то цвет в качестве ответа: любой ответ Пети (если, конечно, предположить, что Петя назовёт конкретный цвет) уменьшит размер множества неопределённости знаний Васи во столько раз, сколько цветов Петя может потенциально Васе сообщить.
Основной недостаток такого способа измерения информации: он мультипликативен. Если первое сообщение несёт \(x\) единиц информации, а второе — несёт \(y\) единиц информации, то оба сообщения вместе несут \(x\cdot y\) единиц информации. Большинство же способов измерения чего-либо (длины, площади, объёма, массы) аддитивны: мера целого есть сумма мер частей.
Реально используемый способ
Количеством информации называется двоичный логарифм отношения размеров множеств \(B\) и \(A\).
Логарифм:
- инъективен (по значению логарифма однозначно восстанавливается его вход)
- преобразует произведения в суммы
То есть логарифм мультипликативной меры является аддитивной мерой, что нам и хотелось.
Единицы измерения информации
При измерении информации последним из вышеописанных способов единица информации называется битом (сокращение от Binary digIT — если сообщения состоят из двоичных разрядов и несут одинаковое количество информации, то один двоичный разряд как раз несёт единицу информации).
Также используются следующие единицы:
- байт (B) — обычно 8 бит
- октет — 8 бит
- килобит (Kbit) — 1000 бит или 1024 бита
- кибибит (Kibit) — 1024 бита
- килобайт (KB) — 1000 байт или 1024 байта
- кибибайт (KiB) — 1024 байта
- и аналогичные с приставками мега-, меби-, гига-, гиби-, и так далее
Отметим, что у приставки «мега» за историю развития вычислительной техники встречались все три возможных интерпретации:
- \(1000\cdot 1000\) — наиболее распространена на данный момент
- \(1024\cdot 1024\) — тоже часто используется
- \(1024\cdot 1000\) — объём некоторых разновидностей гибких дисков (технология долговременного хранения информации, почти окончательно исчезнувшая в 2000-х годах) измерялся именно в таких мегабайтах