Информационный взрыв

Материал из wikixw
Перейти к навигации Перейти к поиску

Информационный взрыв - это быстрое увеличение объема публикуемой информации или данных и последствия такого изобилия. по мере роста объема доступных данных усложняется задача управления информацией, что может привести к информационной перегрузке . Онлайн Оксфордский словарь английского языка указывает на использование этой фразы в статье март 1964 года New Statesman. The New York Times впервые использовала эту фразу в своем редакционном содержании в статье Уолтера Салливана от 7 июня 1964 года, в которой он описал эту фразу как "много обсуждаемую". (p11.) Самое раннее использование этой фразы, по-видимому, было в рекламном приложении IBM к The New York Times, опубликованном 30 апреля 1961 года , и Фрэнком Фремонтом-Смитом, директором программы междисциплинарной конференции Американского института биологических наук, в статье апреля 1961 года в бюллетене AIBS (p18.)

Во многих секторах наблюдается такое быстрое увеличение объема доступной информации, например в здравоохранении, супермаркетах и даже правительствах, располагающих информацией о свидетельствах о рождении и регистрах иммунизации. Еще один сектор, который подвергается воздействию этого явления, - это журналистика. Такая профессия, которая в прошлом отвечала за распространение информации, сегодня может быть подавлена столь многими источниками информации.

Методы сбора знаний из избыточного объема электронной информации (например, объединение данных может помочь в интеллектуальном анализе данных ) существуют с 1970-х гг. Еще одним распространенным методом обработки такого объема информации является качественное исследование. такой подход направлен на организацию информации, синтез, категоризацию и систематизацию, с тем чтобы она была более полезной и простой в поиске.

Модели роста[править]

  • Мировой технологический потенциал хранения информации вырос с 2,6 (оптимально сжатых) эксабайт в 1986 году до 15,8 в 1993 году, свыше 54,5 в 2000 году и до 295 (оптимально сжатых) эксабайт в 2007 году. Это эквивалентно менее чем одному 730-МБ CD-ROM на человека в 1986 году (539 Мб на человека), примерно 4 CD-ROM на человека в 1993 году, 12 CD-ROM на человека в 2000 году и почти 61 CD-ROM на человека в 2007 году. Накопление воображаемых 404 миллиардов CD-ROM с 2007 года создаст стопку от Земли до Луны и четверти этого расстояния за ее пределами (с толщиной 1,2 мм на компакт-диск).
  • Мировой технологический потенциал для получения информации через односторонние широковещательные сети составлял 432 экзабайта (оптимально сжатых) информации в 1986 году, 715 (оптимально сжатых) экзабайт-в 1993 году, 1200 (оптимально сжатых) экзабайт-в 2000 году и 1900 экзабайт-в 2007 году.
  • В 1986 году в мире действительный потенциал для обмена информацией через двусторонние телекоммуникационные сети составлял 0,281 эксабайта (оптимально сжатых) информации, в 1993 году-0,471, в 2000 году-2,2 и в 2007 году-65 (оптимально сжатых) эксабайт.

Новая метрика, которая используется в попытке охарактеризовать рост объема персональной информации, представляет собой дисковое хранилище на человека (DSP), которое измеряется в мегабайтах/человек (где мегабайты составляют 10 6 байт и сокращенно МБ). Глобальный DSP (GDSP) - это общее жесткое дисковое пространство (в МБ) новых единиц, проданных за год, разделенное на мировое население в этом году. Метрика GDSP является грубой мерой того, сколько дискового хранилища может быть использовано для сбора персональных данных о населении мира. В 1983 году один миллион фиксированных дисков с предполагаемым общим объемом 90 терабайт были проданы по всему миру; 30mb диски имели самый большой сегмент рынка. в 1996 году было продано 105 миллионов накопителей на общую сумму 160 623 терабайт, причем 1 и 2 гигабайта накопителей лидировали в отрасли. к 2000 году, с приводом 20GB ведущим в отрасли, жесткие диски, проданные за год, по прогнозам, составят 2,829,288 терабайт жестких дисков, что позволит увеличить продажи жестких дисков до 34 миллиардов долларов в 1997 году.

По словам латании Суини, на сегодняшний день существует три тенденции в сборе данных:

Тип 1. Расширение числа собираемых полей, известное как тенденция “собирать больше”.

Тип 2. Замените существующий агрегированный сбор данных на индивидуальный, известный как тенденция "собирать конкретно".

Тип 3. Соберите информацию, запустив новый сбор данных для конкретного человека, известный как тенденция” соберите ее, если вы можете”.

Связанные термины[править]

Поскольку термин " информация "в электронных средствах массовой информации часто используется синонимично слову" данные", термин "информационный взрыв" тесно связан с понятием потока данных (также называемого потопом данных ). Иногда используется также термин информационный поток. Все это в основном сводится к постоянно увеличивающемуся объему электронных данных, обмениваемых в единицу времени. Осведомленность о неуправляемых объемах данных росла вместе с появлением все более мощной обработки данных с середины 1960-х годов.

Проблемы[править]

Несмотря на то, что обилие информации может быть полезным на нескольких уровнях , некоторые проблемы могут вызывать озабоченность, такие как конфиденциальность, правовые и этические принципы, фильтрация и точность данных.[13] фильтрация относится к поиску полезной информации в середине такого большого количества данных, что относится к работе ученых данных. Типичный пример необходимости фильтрации данных (интеллектуального анализа данных ) находится в здравоохранении, так как в ближайшие годы планируется иметь EHRs (электронные медицинские записи) доступных пациентов. С таким большим количеством доступной информации, врачи должны будут иметь возможность определить закономерности и выбрать важные данные для диагностики пациента. С другой стороны, по мнению некоторых экспертов, наличие такого количества общедоступных данных затрудняет предоставление данных, которые на самом деле являются анонимными. Еще один момент, который необходимо учитывать, - это юридические и этические руководящие принципы, которые касаются того, кто будет владельцем данных и как часто он/она обязан освободить это и как долго. С таким большим количеством источников данных, другой проблемой будет точность таких. Ненадежный источник может быть оспорен другими участниками путем упорядочивания нового набора данных, вызывая повторение в информации.[13] По словам Эдварда Хута, еще одной проблемой является доступность и стоимость такой информации.[14] коэффициент доступности может быть улучшен либо за счет снижения затрат, либо за счет повышения полезности информации. Сокращение расходов, по мнению автора, могло бы быть осуществлено ассоциациями, которые должны оценивать, какая информация является актуальной, и собирать ее более организованным образом.

Веб-серверы[править]

По состоянию на август 2005 года насчитывалось более 70 миллионов веб-серверов . по состоянию на сентябрь 2007 насчитывалось более 135 миллионов веб-серверов.

Блоги[править]

По данным Technorati, количество блогов удваивается примерно каждые 6 месяцев с общим количеством 35,3 миллиона блогов по состоянию на апрель 2006 . это пример ранних стадий логистического роста , где рост является примерно экспоненциальным , так как блоги являются недавним нововведением. По мере того как число блогов приближается к числу возможных производителей (людей), происходит насыщение, рост снижается, и число блогов в конечном итоге стабилизируется.

Смотрите также[править]

Пруф[править]

papers.ssrn.com/sol3/papers.cfm?abstract_id=991165