В цифровом звуке 44100 Гц (или 44.1 кГц) является наиболее распространенной частотой семплирования. Причиной популярности данной частоты является её использование в рамках стандарта Red Book (Audio CD). Первой активно использовать её начала компания Sony — в далеком 1979 году.
Из истории
Частота 44.1 кГц возникла в конце 1970-х, благодаря PCM адаптерам, которые записывали звук на видеокассеты (U-Matic), в частности Sony PCM-1600 (1979) и последующим моделям серии. Позже это стало основой для CD-DA, описанного в стандарте Red Book (1980). В дальнейшем это значение частоты также было включено в другие стандарты 90-х/2000-x годов, вроде DVD, HDMI. Данная частота обычно используется при кодировании в MP3 (и другие потребительские форматы аудио) звука, извлеченного из Audio CD.
Почему 44.1 кГц?
Частота дискретизации была выбрана в ходе дебатов между разработчиками, в особенности Sony и Philips, а также благодаря компании Sony, которая в результате активного использования этой частоты практически сделала её стандартом де-факто. Само собой, выбор имел определенное техническое обоснование.
Человеческий слух и обработка сигналов
Прежде всего, так как слышимый диапазон для человеческого уха лежит в пределе 20—20000 Гц, а по теореме Котельникова частота семплирования должна быть как минимум в два раза больше максимальной частоты, которую может потребоваться передать, частота семплирования должна быть более 40 кГц. Кроме того, сигнал перед семплированием должен пройти через НЧ фильтр (иначе возникнет алиасинг) и, в то время как идеальный НЧ фильтр абсолютно не пропускал бы частоты выше 20 кГц, но полностью бы пропускал всё что ниже 20 кГц, на практике необходима т.н. переходная полоса, в которой происходит спад АЧХ (частотные составляющие подавляются лишь частично). Чем шире эта полоса, тем проще (и экономнее) создать антиалиазинговый фильтр. Частота 44.1 кГц обеспечивает переходную полосу шириной 2.05 кГц.
Запись на видео оборудовании
В ранние годы цифровой звук записывался на пленку видеокассет, т.к. это был единственный доступный носитель с ёмкостью достаточной для более-менее продолжительной записи звука (фактически видеокассеты представляли собой транспорт; этот формат был назван «псевдо-видео»). Чтобы свести к минимуму необходимые модификации оборудования, аудио воспроизводилось на той же скорости, что и видео; также использовалась практически идентичная схемотехника. Частота 44.1 кГц была признана наибольшей доступной, при условии выполнения следующих требований:
- Совместимость как с PAL, так и с NTSC видео. Проще всего, если для каждого поля используется одинаковое количество линий. NTSC имеет частоту смены полей 60 Гц, а PAL — 50 Гц, их наименьшее общее кратное равно 300 Гц. Так как используется 3 семпла на линию, частота дискретизации должна быть кратна 900 Гц. Для NTSC частота дискретизации равна 5m × 60 × 3, где 5m — количество активных линий поля (должно быть кратно пяти). Для PAL частота дискретизации равна 6n × 50 × 3, где 6n — также количество активных линий поля (должно быть кратно шести). Частоты дискретизации, удовлетворяющие вышеописанным требованиям, лежат в пределах от 40 кГц (возможность кодировать сигналы с частотой до 20 кГц) до 46.875 кГц (не более трех семплов на линию для PAL). Таким образом, возможные значения: 40.5, 41.4, 42.3, 43.2, 44.1, 45, 45.9, и 46.8 кГц. Первые значения отбрасываются в соответствии с требованиями к переходной полосе ФНЧ фильтра, последние исключены из-за наличия определенных линий, необходимых для обратного хода луча. Наибольшей возможной частотой оказалась 44.1 кГц, которая и была выбрана.
- Кодирование аудио с использованием не более трех семплов на линию (для одного канала). Аудио семплы записывались путем помещения на линии растра. Стандарты аналогового видео воспроизводят видео с частотой полей 60 Гц (NTSC, Северная Америка – или 60/1.001 Гц ≈ 59.94 Гц для цветного NTSC) или 50 Гц (PAL, Европа), что соответствует частоте 30 и 25 кадров/с — для чересстрочного видео каждое поле представляет лишь половину строк изображения (попеременно отображаются четные и нечетные линии). Каждое поле состоит из 625 линий для PAL и 525 линий для NTSC (хотя некоторые линии используются только для синхронизации, т.е. обратного хода луча), включая в себя половину видимых линий вертикальной развертки. Цифровые аудио семплы кодируются вдоль каждой линии, что позволяет использовать уже имеющиеся схемы синхронизации. С точки зрения видео полученный сигнал выглядит как последовательность белых/черных (или скорее серых) точек вдоль каждой линии развертки. Частота следования линий равнялась 15.625 Гц для PAL (625 × 50/2), 15.750 Гц для 60 Гц (ч/б) NTSC (525 × 60/2), и 15,750/1.001 Гц (примерно 15734.26 Гц) для 59.94 Гц (цветного) NTSC. Таким образом кодирование аудио с частотой дискретизации более 40 кГц требовало использования нескольких семплов на линию, причем 3 семплов на линию было достаточно, это позволяло получить частоту 15.625 × 3 = 46.875 кГц для PAL и 15.750 × 3 = 47.250 кГц для NTSC. К тому же преследовалась цель минимизировать количество семплов в линии, чтобы каждому семплу выделялось большее пространство, и таким образом можно было получить более высокую разрядность (16 бит вместо 14 или 12, например), а также для повышения устойчивости к ошибкам. Кроме того, на практике использовался стерео сигнал, требующий 3 × 2 = 6 семплов/линию. Как уже было сказано, некоторые из линий использовались для вертикальной синхронизации: линии относящиеся к обратному ходу луча не могли быть использованы, и таким образом максимальное количество используемых линий для NTSC составило 490 на фрейм (245 линий на поле), а для PAL — около 588 линий/фрейм (294 линии на поле).
Математические свойства
То есть число 44100 является квадратом произведения четырех простых чисел.
Заключение
Фактически, выбор частоты был темой многочисленных дебатов, в ходе которых рассматривались альтернативные значения, включая 44.100/1.001 = 44.056 кГц (в соответствии с частотой полей для цветного NTSC — 60/1.001 = 59.94 Гц), предложенное Philips. В конечном счете компания Sony взяла верх — в плане выбора как частоты (44.1 кГц), так и разрядности (16, а не 14 бит на семпл).
Данная частота рассчитывается следующим образом:
NTSC:
245 × 60 × 3 = 44100
245 активных линий/поле × 60 полей/с × 3 семпла/линию = 44100 семплов/с
(490 активных линий на один фрейм из 525 линий всего)
PAL:
294 × 50 × 3 = 44100
294 активных линий/поле × 50 полей/с × 3 семпла/линию = 44100 семплов/с
(588 активных линий на один фрейм из 625 линий всего)
На практике различные устройства использовали различные стандарты — к примеру, Sony PCM-1610 использовал исключительно 525/60 ч/б видео (NTSC, US).
Информация от спонсора
PRLOG: SEO инструменты. Здесь вы найдете большой набор инструментов для поисковой оптимизации: проверка сайта, определение Яндекс тИЦ, Google PageRank (в т.ч. внутренних страниц), индексации в поисковых системах, анализ выдачи, и многое другое.
а нельзя ли еще прояснить причину присхождения 48 кгц. хотя об этом можно догадываться, но лучше коментарии специалиста, благодарю)