Часть звукового диапазона что это
Часть звукового диапазона голоса, муз. инструмента (высокий, средний и низкий)
Последняя бука буква «р»
Ответ на вопрос «Часть звукового диапазона голоса, муз. инструмента (высокий, средний и низкий) «, 7 (семь) букв:
регистр
Альтернативные вопросы в кроссвордах для слова регистр
Определение слова регистр в словарях
Примеры употребления слова регистр в литературе.
Контекст процесса включает в себя содержимое адресного пространства задачи, выделенного процессу, а также содержимое относящихся к процессу аппа147 ратных регистров и структур данных ядра.
Введение Обозначение регистров Байт режима адресации Двухбайтовые команды Трехбайтовые команды Четырехбайтовые команды Команды в алфавитном порядке Приложения 1.
Миссис Бартер выдвигала регистры органа, готовясь заиграть при появлении мужа, и ее восторженно-беспокойный взгляд был устремлен на дверь ризницы.
Фагот звучит в необычайно высоком регистре, можно подумать, что Быстров страдает, говоря о страданиях, а сам всего лишь инструмент, на котором ветер революции играет свою мелодию.
Высокое быстродействие машины обеспечивается рациональным построением арифметического устройства, совмещением работы отдельных устройств машины, согласованием времени работы памяти и арифметического устройства за счет разделения оперативной памяти на ряд блоков и применением самоорганизующей сверхбыстродействующей буферной памяти на быстрых регистрах.
Источник: библиотека Максима Мошкова
Слышимый частотный диапазон звука и терминология условного деления
Часто у людей (даже тех кто хорошо разбирается в вопросе) возникает путаница и затруднения в чётком понимании того, как именно слышимый человеком частотный диапазон звука делится на общие категории (низкие, средние, высокие) и на более узкие подкатегории (верхние басы, нижнаяя середина и т.п.). В тоже самое время эта информация крайне важна не только для экспериментов c автозвуком, но и полезна для общего развития. Знания обязательно пригодятся во время настройки аудиосистемы любой сложности и, главное, поможет правильно оценить сильные или слабые стороны той или иной акустической системы или же нюансы помещения прослушивания музыки (в нашем случае актуальнее салон автомобиля), ведь оно оказывает непосредственное влияние на конечное звучание. Если есть хорошее и чёткое понимание преобладания тех или иных частот в звуковом спектре на слух, то элементарно и быстро можно оценить звучание той или иной музыкальной композиции, при этом отчётливо услышать влияние акустики помещения на окрашивании звука, вклад самой акустической системы в звук и более тонко разобрать все нюансы, к чему и стремится идеология «хай-фай» звучания.
Разделение слышимого диапазона на основные три группы
Терминология разделения слышимого спектра частот пришла к нам частично из музыкального, частично из научного миров и в общем виде она знакома практически каждому. Самое простое и понятное деление, которое может испытать частотный диапазон звука в общем виде выглядит следующим образом:
В любом случае, роль абсолютно всех частот слышимого человеческим ухом диапазона внушительна и проблемы в тракте на любой частоте скорее всего будут хорошо заметны, особенно натренированному слуховому аппарату. Целью воспроизведения высокоточного звучания «хай-фай» класса (или выше) ставится достоверное и максимально ровное звучание всех частот друг с другом так, как оно происходило на момент записи фонограммы в студии. Наличие сильных провалов или же пиков в АЧХ акустической системы свидетельствует о том, что в силу своих конструктивных особенностей она не способна воспроизвести музыку так, как изначально задумывалось автором или звукорежиссёром на момент записи.
Слушая музыку, человек слышит совокупность звучания инструментов и голоса, каждый из которых звучит в каком-то своём отрезке частотного диапазона. У некоторых инструментов может быть весьма узкий (ограниченный) диапазон частот, у других же он наоборот может простираться буквально от нижней до верхней слышимой границы. Необходимо учитывать, что несмотря на одинаковую интенсивность звуков на разных частотах диапазонах, человеческое ухо воспринимает эти частоты с разной громкостью, что опять-таки обусловлено механизмом биологического устройства слухового аппарата. Природа этого явления так же объясняется во многом биологической необходимостью адаптации преимущественно к среднечастотному звуковому диапазону. Так на практике, звук, имеющий частоту 800 Гц при интенсивности в 50 дБ, будет восприниматься субъективно на слух как более громкий по сравнению со звуком той же силы, но с частотой 500 Гц.
Более того, у разных звуковых частот, наводняющих слышимый частотный диапазон звука, будет различная пороговая болевая чувствительность! Болевой порог эталонно считается на средней частоте 1000 Гц при чувствительности примерно 120 Дб (может слегка варьироваться в зависимости от индивидуальных особенностей человека). Как и в случае с неравномерным восприятием интенсивности на разных частотах при нормальных уровнях громкости, примерно такая же зависимость наблюдается и в отношении болевого порога: быстрее всего он наступает на средних частотах, а вот по краям слышимого диапазона порог становится выше. Для сравнения, болевой порог на средней частоте 2000 Гц составляет 112 Дб, тогда как болевой порог на низкой частоте 30 Гц будет уже 135 Дб. Болевой порог на низких частотах всегда выше, чем на средних и высоких.
Аналогичная неравномерность наблюдается и в отношении порога слышимости — это нижний порог, после которого звуки становятся слышимыми человеческим ухом. Условно порогом слышимости считается значение 0 Дб, но справедливо оно опять-таки для эталонной частоты 1000 Гц. Если же для сравнения взять низкочастотный звук частотй 30 Гц, то он станет слышимым только при интенсивности излучения волны в 53 Дб.
Перечисленные особенности человеческого слухового восприятия конечно же оказывают непосредственное влияние тогда, когда ставится вопрос прослушивания музыки и достижения определённого психологического эффекта восприятия. Мы помним из теории строения слухового аппарата, что звуки интенсивностью выше 90 Дб вредны для здоровья и способны привести к деградации и значительному ухудшению слуха. Но при этом слишком тихий звук низкой интенсивности будет страдать от сильной частотной неравномерности из-за биологических особенностей слухового восприятия, которое по природе нелинейно. Таким образом, музыкальный тракт громкостью 40-50 Дб будет восприниматься как обеднённый, с явно выраженным недостатком (можно сказать провалом) низких и высоких частот. Названная проблема хорошо и давно известна, для борьбы с ней даже придумана небезызвестная функция под названием тонокомпенсация, которая путём эквализации выравнивает уровни низких и высоких частот близко к уровню середины, тем самым устраняя нежелательный провал без необходимости поднимать уровень громкости, делая слышимый частотный диапазон звука субъктивно равномерным по степени распределения звуковой энергии.
С учётом интересных и уникальных особенностей человеческого слуха полезно отметить, что с повышением громкости звука кривая нелинейности частот выравнивается, и примерно на отметке 80-85 дБ (и выше) звуковые частоты станут субъективно равнозначными по интенсивности (с отклонением 3-5 Дб). Хотя выравнивание происходит не до конца и на графике всё ещё будет видна пусть и сглаженная, но кривая линия, которая будет сохранять тенденцию в сторону преобладания интенсивности средних частот по сравнению к остальным. В аудиосистемах подобная неравномерность может решаться либо при помощи эквалайзера, либо же с помощью раздельных регулировок громкости в системах с раздельным поканальным усилением.
Разделение слышимого диапазона на более мелкие подгруппы
Помимо общепринятого и хорошо известного деления на три общие группы, иногда возникает необходимость более детально и развёрнуто рассмотреть ту или иную узкую часть, тем самым разделить частотный диапазон звука на ещё более мелкие «фрагменты». Благодаря этому появилось более детальное разделение, пользуясь которым можно элементарно быстро и достаточно точно обозначить предполагаемый отрезок звукового диапазона. Рассмотрим это разделение:
При построении аудиосистемы диапазон нижней середины и выше (до верхней) обычно отдаётся среднечастотным динамикам (СЧ), которые без сомнения должны располагаться во фронтальной части перед слушателем и строить сцену. Для этих динамиков не так важен размер, он может быть 6.5″ и ниже, как важна детализация и способность раскрыть нюансы звучания, что достигается конструктивными особенностями самого динамика (диффузором, подвесом и прочими характеристиками). Так же, для всего среднечастотного диапазона жизненно важна правильная локализация и буквально малейший наклон или доворот динамика может оказывать ощутимое влияние на звучание с точки зрения правильного реалистичного воссоздания образов инструментов и вокала в пространстве, хотя зависеть это во многом будет от конструктивных особенностей самого диффузора динамика.
В любой нормальной аудиосистеме роль высоких частот принимает на себя отдельный динамик под названием твитер (высокочастотный). Обычно небольшой по размеру, он нетребователен к подводимой мощности (в разумных пределах) по аналогии с серединой и в особенности НЧ секции, однако так же предельно важен для того, чтобы звук играл правильно, реалистично и как минимум красиво. Твитер охватывает весь слышимый высокочастотный диапазон от 2000-2400 Гц до 20000 Гц. В случае с высокочастотными динамиками, почти по аналогии с СЧ секцией, очень важно правильное физическое расположение и направленность, поскольку твитеры максимально задействованы не только в формировании звуковой сцены, но так же и в процессе её тонкой настройки.
При помощи твитеров можно во многом управлять сценой, приближать/отдалять исполнителей, менять форму и подачу инструментов, играться с окраской звучания и его яркостью. Как и в случае регулировки СЧ динамиков, на правильное звучание твитеров влияет практически всё, причём зачастую очень и очень чувствительно: поворот и наклон динамика, его расположение по вертикали и горизонтали, удалённость от близлежайших поверхностей и т.д. Однако, успех правильной настройки и привередливость ВЧ секции зависит от конструкции динамика и его диаграмы направленности.
Идея, преследуемая реализацией такого изощрённого динамика, весьма интересна и любопытна, она пришла из мира «hi-fi» и «hi-end», где считается, что в музыкальном тракте нельзя игнорировать никаие частоты и, даже если мы их напрямую не слышим, они всё-равно изначально присутствуют во время живого исполнения той или иной композиции, а значит косвенно могут оказывать какое-то влияние. Ситуация с супертвитером осложняется только тем, что не всякая аппаратура (источники звука/проигрыватели, усилители и т.п.) способны выводить сигнал в полном диапазоне, без обрезки частот сверху. Тоже самое справедливо и в отношении самой записи, которая зачастую делается с обрезкой частотного диапазона и потерей качества.
Примерно таким описанным выше образом выглядит разделение слышимого частотного диапазона на условные отрезки в реальности, с помощью деления легче понимать проблемы в звуковом тракте с целью их устранения или для выравнивания звучания. Несмотря на то, что каждый человек представляет себе какой-то исключительно свой и понятный только ему эталонный образ звука в соответствии только лишь со своими вкусовыми предпочтениями, характер изначального звучания стремится к равновесию, а точнее к усреднению всех звучащих частот. Поэтому правильный студийный звук всегда уравновешенный и спокойный, весь спектр звуковых частот в нём стремится к ровной линии на графике АЧХ (амплитудно-частотной характеристики). То же направление пытается реализовать бескомпромиссный «hi-fi» и «hi-end»: получить максимально ровное и сбалансированное звучание, без пиков и провалов на всём участке слышимого диапазона. Такой звук по характеру может показаться обычному неискушённому слушателю скучным и невыразительным, лишённым яркости и не представляющим интереса, однако именно он и является истинно правильным на самом деле, стремящийся к равновесию по аналогии с тем, как проявляют себя законы самой вселенной, в которой мы живём.
Так или иначе, желание воссоздать какой-то определённый характер звучания в рамках своей аудиосистемы лежит целиком и полностью на пристрастиях самого слушателя. Кому-то нравится звук с преобладающими мощными низами, другие любят повышенную яркость «задранных» верхов, третьи могут часами наслаждаться резковатым подчёркнутым в середине вокалом… Вариантов восприятия может быть огромное множество, а информация о частотном делении диапазона на условные отрезки как раз поможет любому желающему создать звук своей мечты, только теперь уже с более полным пониманием нюансов и тонкостей тех законов, которым подчиняется звук как физическое явление.
Понимание процесса насыщения теми или иными частотами звукового диапазона (наполнение его энергией на каждом из участков) на практике не только облегчит настройку любой аудиосистемы и сделает возможным построение сцены в принципе, но так же и даст бесценный опыт по оценке конкретного характера звучания. С опытом человек сможет моментально на слух определять недостатки звука, притом весьма точно описать проблемы в определённом участке диапазона и предположить возможное решение для улучшения звуковой картины. Корректировка звучания может проводится различными методами, где в качестве «рычагов» можно использовать эквалайзер, например, или же «играться» расположением и направлением динамиков — тем самым меняя характер ранних отражений волны, устраняя стоячие волны и т.п. Это уже будет «совсем другая история» и тема для отдельных статей.
Частотный диапазон человеческого голоса в музыкальной терминологии
Отдельно и обособленно в музыке отводится роль человеческому голосу в качестве вокальной партии, ведь природа этого явления воистину удивительна. Человеческий голос столь многогранен а диапазон его (в сравнении с музыкальными инструментами) наиболее широкий, за исключением некоторых инструментов, например фортепьяно. Более того, в разных возрастах человек может издавать различные по высоте звуки, в детском возрасте до ультразвуковых высот, во взрослом возрасте мужской голос вполне способен опускаться крайне низко. Тут, как и ранее, крайне важны индивидуальные особенности голосовых связок человека, т.к. встречаются люди, способные поражать своим голосом в диапазоне 5 октав!
Текущая музыкальная классификация делит голоса по возрасту и полу:
Детские
Мужские
Женские
Теория звука. Что нужно знать о звуке, чтобы с ним работать. Опыт Яндекс.Музыки
Звук, как и цвет, люди воспринимают по-разному. Например, то, что кажется слишком громким или некачественным одним, может быть нормальным для других.
Для работы над Яндекс.Музыкой нам всегда важно помнить о разных тонкостях, которые таит в себе звук. Что такое громкость, как она меняется и от чего зависит? Как работают звуковые фильтры? Какие бывают шумы? Как меняется звук? Как люди его воспринимают.
Мы довольно много узнали обо всём этом, работая над нашим проектом, и сегодня я попробую описать на пальцах некоторые основные понятия, которые требуется знать, если вы имеете дело с цифровой обработкой звука. В этой статье нет серьёзной математики вроде быстрых преобразований Фурье и прочего — эти формулы несложно найти в сети. Я опишу суть и смысл вещей, с которыми придётся столкнуться.
Поводом для этого поста можете считать то, что мы добавили в приложения Яндекс.Музыки возможность слушать треки в высоком качестве (320kbps). А можете не считать. Итак.
Оцифровка, или Туда и обратно
Прежде всего разберёмся с тем, что такое цифровой сигнал, как он получается из аналогового и откуда собственно берётся аналоговый сигнал. Последний максимально просто можно определить как колебания напряжения, возникающие из-за колебаний мембраны в микрофоне.
Рис. 1. Осциллограмма звука
Это осциллограмма звука — так выглядит аудио сигнал. Думаю, каждый хоть раз в жизни видел подобные картинки. Для того чтобы понять, как устроен процесс преобразования аналогового сигнала в цифровой, нужно нарисовать осциллограмму звука на миллиметровой бумаге. Для каждой вертикальной линии найдем точку пересечения с осциллограммой и ближайшее целое значение по вертикальной шкале — набор таких значений и будет простейшей записью цифрового сигнала.
Рис. 2. Интерактивный пример сложения волн и оцифровки сигнала.
Источник: www.desmos.com/calculator/aojmanpjrl
Воспользуемся этим интерактивным примером, чтобы разобраться в том, как накладываются друг на друга волны разной частоты и как происходит оцифровка. В левом меню можно включать/выключать отображение графиков, настраивать параметры входных данных и параметры дискретизации, а можно просто двигать контрольные точки.
На аппаратном уровне это, разумеется, выглядит значительно сложнее, и в зависимости от аппаратуры сигнал может кодироваться совершенно разными способами. Самым распространённым из них является импульсно-кодовая модуляция, при которой записывается не конкретное значение уровня сигнала в каждый момент времени, а разница между текущим и предыдущим значением. Это позволяет снизить количество бит на каждый отсчёт примерно на 25%. Этот способ кодирования применяется в наиболее распространённых аудио-форматах (WAV, MP3, WMA, OGG, FLAC, APE), которые используют контейнер PCM WAV.
В реальности для создания стерео-эффекта при записи аудио чаще всего записывается не один, а сразу несколько каналов. В зависимости от используемого формата хранения они могут храниться независимо. Также уровни сигнала могут записываться как разница между уровнем основного канала и уровнем текущего.
Обратное преобразование из цифрового сигнала в аналоговый производится с помощью цифро-аналоговых преобразователей, которые могут иметь различное устройство и принципы работы. Я опущу описание этих принципов в данной статье.
Дискретизация
Как известно, цифровой сигнал — это набор значений уровня сигнала, записанный через заданные промежутки времени. Процесс преобразования непрерывного аналогового сигнала в цифровой сигнал называется дискретизацией (по времени и по уровню). Есть две основные характеристики цифрового сигнала — частота дискретизации и глубина дискретизации по уровню.
Рис. 3. Дискретизация сигнала.
Источник: https://en.wikipedia.org/wiki/Sampling_(signal_processing)
Частота дискретизации указывает на то, с какими интервалами по времени идут данные об уровне сигнала. Существует теорема Котельникова (в западной литературе её упоминают как теорему Найквиста — Шеннона, хотя встречается и название Котельникова — Шеннона), которая утверждает: для возможности точного восстановления аналогового сигнала из дискретного требуется, чтобы частота дискретизации была минимум в два раза выше, чем максимальная частота в аналоговом сигнале. Если брать примерный диапазон воспринимаемых человеком частот звука 20 Гц — 20 кГц, то оптимальная частота дискретизации (частота Найквиста) должна быть в районе 40 кГц. У стандартных аудио-CD она составляет 44.1 кГц
Рис. 4. Квантование сигнала.
Источник: https://ru.wikipedia.org/wiki/Квантование_(обработка сигналов)
Глубина дискретизации по уровню описывает разрядность числа, которым описывается уровень сигнала. Эта характеристика накладывает ограничение на точность записи уровня сигнала и на его минимальное значение. Стоит специально отметить, что данная характеристика не имеет отношения к громкости — она отражает точность записи сигнала. Стандартная глубина дискретизации на audio-CD — 16 бит. При этом, если не использовать специальную студийную аппаратуру, разницу в звучании большинство перестаёт замечать уже в районе 10-12 бит. Однако большая глубина дискретизации позволяет избежать появления шумов при дальнейшей обработке звука.
В цифровом звуке можно выделить три основных источника шумов.
Джиттер
Это случайные отклонения сигнала, как правило, возникающие из-за нестабильности частоты задающего генератора или различной скорости распространения разных частотных составляющих одного сигнала. Данная проблема возникает на стадии оцифровки. Если описывать «на пальцах» «на миллиметровке», это происходит из-за немного разного расстояния между вертикальными линиями.
Шум дробления
Он напрямую связан с глубиной дискретизации. Так как при оцифровке сигнала его реальные значения округляются с определённой точностью, возникают слабые шумы, связанные с её потерей. Эти шумы могут появляться не только на стадии оцифровки, но и в процессе цифровой обработки (например, если сначала уровень сигнала сильно понижается, а затем — снова повышается).
Алиасинг
При оцифровке возможна ситуация, при которой в цифровом сигнале могут появиться частотные составляющие, которых не было в оригинальном сигнале. Данная ошибка получила название Aliasing. Этот эффект напрямую связан с частотой дискретизации, а точнее — с частотой Найквиста. Проще всего понять, как это происходит, рассмотрев вот эту картинку:
Рис. 5. Алиас. Источник: ru.wikipedia.org/wiki/Алиасинг
Зелёным показана частотная составляющая, частота которой выше частоты Найквиста. При оцифровке такой частотной составляющей не удаётся записать достаточно данных для её корректного описания. В результате при воспроизведении получается совершенно другой сигнал — жёлтая кривая.
Уровень сигнала
Поначалу бывает тяжело разобраться с тем, как соотносятся децибелы и реальный уровень сигнала. На самом деле всё просто. Каждые
6 dB (точнее 20 log(2)
N.B. Стоит упомянуть, что логарифм в данном случае берётся десятичный, в то время как большинство библиотек под функцией с названием log подразумевает натуральный логарифм.
96.33 dB, для 24 бит
144.49 dB. Это означает, что самый большой перепад уровня, который можно описать с 24-битной глубиной дискретизации (144.49 dB), на 48.16 dB больше, чем самый большой перепад уровня с 16-битной глубиной (96.33 dB). Плюс к тому — шум дробления при 24 битах на 48 dB тише.
Восприятие
Когда мы говорим о восприятии звука человеком, следует сначала разобраться, каким образом люди воспринимают звук. Очевидно, что мы слышим с помощью ушей. Звуковые волны взаимодействуют с барабанной перепонкой, смещая её. Вибрации передаются во внутреннее ухо, где их улавливают рецепторы. То, насколько смещается барабанная перепонка, зависит от такой характеристики, как звуковое давление. При этом воспринимаемая громкость зависит от звукового давления не напрямую, а логарифмически. Поэтому при изменении громкости принято использовать относительную шкалу SPL (уровень звукового давления), значения которой указываются всё в тех же децибелах. Стоит также заметить, что воспринимаемая громкость звука зависит не только от уровня звукового давления, но ещё и от частоты звука:
Рис. 6. Зависимость воспринимаемой громкости от частоты и амплитуды звука.
Источник: ru.wikipedia.org/wiki/Громкость_звука
Громкость
Простейшим примером обработки звука является изменение его громкости. При этом происходит просто умножение уровня сигнала на некоторое фиксированное значение. Однако даже в таком простом деле, как регулировка громкости, есть один подводный камень. Как я уже отметил ранее, воспринимаемая громкость зависит от логарифма звукового давления, а это значит, что использование линейной шкалы громкости оказывается не очень эффективным. При линейной шкале громкости возникает сразу две проблемы — для ощутимого изменения громкости, когда ползунок находится выше середины шкалы приходится достаточно далеко его сдвигать, при этом ближе к самому низу шкалы сдвиг меньше, чем на толщину волоса, может изменить громкость в два раза (думаю, с этим каждый сталкивался). Для решения данной проблемы используется логарифмическая шкала громкости. При этом на всей её длине передвижение ползунка на фиксированное расстояние меняет громкость в одинаковое количество раз. В профессиональной записывающей и обрабатывающей аппаратуре, как правило, используется именно логарифмическая шкала громкости.
Математика
Тут я, пожалуй, немного вернусь к математике, потому что реализация логарифмической шкалы оказывается не такой простой и очевидной вещью для многих, а найти в интернете данную формулу не так просто, как хотелось бы. Заодно покажу, как просто переводить значения громкости в dBFS и обратно. Для дальнейших объяснений это будет полезным.
Цифровая обработка
Из того, что сигнал имеет верхнее ограничение уровня, следует, что нельзя безопасно увеличивать громкость выше единицы. При этом пики, которые окажутся выше границы, будут «срезаны» и произойдёт потеря данных.
Рис. 7. Клиппинг.
Источник: https://en.wikipedia.org/wiki/Clipping_(audio)
На практике всё это означает, что стандартные для Audio-CD параметры дискретизации (16 бит, 44,1 кГц) не позволяют производить качественную обработку звука, потому что имеют очень малую избыточность. Для этих целей лучше использовать более избыточные форматы. Однако стоит учитывать, что общий размер файла пропорционален параметрам дискретизации, поэтому выдача таких файлов для он-лайн воспроизведения — не лучшая идея.
Измерение громкости
Для того чтобы сравнивать громкость двух разных сигналов, её для начала нужно как-то измерить. Существует по меньшей мере три метрики для измерения громкости сигналов — максимальное пиковое значение, усреднённое значение уровня сигнала и метрика ReplayGain.
Максимальное пиковое значение достаточно слабая метрика для оценки громкости. Она никак не учитывает общий уровень громкости — например, если записать грозу, то большую часть времени на записи будет тихо шелестеть дождь и лишь пару раз прогремит гром. Максимальное пиковое значение уровня сигнала у такой записи будет довольно высоким, но большая часть записи будет иметь весьма низкий уровень сигнала. Однако эта метрика всё равно является полезной — она позволяет вычислить максимальное усиление, которое можно применить к записи, при котором не будет потерь данных из-за «обрезания» пиков.
Усреднённое значение уровня сигнала — более полезная метрика и легко вычислимая, но всё же имеет существенные недостатки, связанные с тем, как мы воспринимаем звук. Визг циркулярной пилы и рокот водопада, записанные с одинаковым средним уровнем сигнала, будут восприниматься совершенно по-разному.
ReplayGain наиболее точно передает воспринимаемый уровень громкости записи и учитывает физиологические и психические особенности восприятия звука. Для промышленного выпуска записей многие звукозаписывающие студии используют именно её, также она поддерживается большинством популярных медиа-плееров. (Русская статья на WIKI содержит много неточностей и фактически не корректно описывает саму суть технологии)
Нормализация громкости
Иногда нормализацию громкости производят в рамках одной записи — при этом различные части записи усиливают на разные величины, чтобы их воспринимаемая громкость была одинаковой. Такой подход очень часто применяется в компьютерных видео-плеерах — звуковая дорожка многих фильмов может содержать участки с очень сильно отличающейся громкостью. В такой ситуации возникают проблемы при просмотре фильмов без наушников в позднее время — при громкости, на которой нормально слышен шёпот главных героев, выстрелы способны перебудить соседей. А на громкости, при которой выстрелы не бьют по ушам, шёпот становится вообще неразличим. При внутри-трековой нормализации громкости плеер автоматически увеличивает громкость на тихих участках и понижает на громких. Однако этот подход создаёт ощутимые артефакты воспроизведения при резких переходах между тихим и громким звуком, а также порой завышает громкость некоторых звуков, которые по задумке должны быть фоновыми и еле различимыми.
Также внутреннюю нормализацию порой производят, чтобы повысить общую громкость треков. Это называется нормализацией с компрессией. При этом подходе среднее значение уровня сигнала максимизируется за счёт усиления всего сигнала на заданную величину. Те участки, которые должны были быть подвергнуты «обрезанию», из-за превышения максимального уровня усиливаются на меньшую величину, позволяя избежать этого. Этот способ увеличения громкости значительно снижает качество звучания трека, но, тем не менее, многие звукозаписывающие студии не брезгуют его применять.
Фильтрация
Я не стану описывать совсем все аудио-фильтры, ограничусь только стандартными, которые присутствуют в Web Audio API. Самым простым и распространённым из них является биквадратный фильтр (BiquadFilterNode) — это активный фильтр второго порядка с бесконечной импульсной характеристикой, который может воспроизводить достаточно большое количество эффектов. Принцип работы этого фильтра основан на использовании двух буферов, каждый с двумя отсчётами. Один буфер содержит два последних отсчёта во входном сигнале, другой — два последних отсчёта в выходном сигнале. Результирующее значение получается с помощью суммирования пяти значений: текущего отсчёта и отсчётов из обоих буферов перемноженных на заранее вычисленные коэффициенты. Коэффициенты данного фильтра задаются не напрямую, а вычисляются из параметров частоты, добротности (Q) и усиления.
Lowpass
Рис. 8. Фильтр lowpass.
Пропускает только частоты ниже заданной частоты. Фильтр задаётся частотой и добротностью.
Highpass
Рис. 9. Фильтр highpass.
Действует аналогично lowpass, за исключением того, что он пропускает частоты выше заданной, а не ниже.
Bandpass
Рис. 10. Фильтр bandpass.
Этот фильтр более избирателен — он пропускает только определённую полосу частот.
Notch
Рис. 11. Фильтр notch.
Является противоположностью bandpass — пропускает все частоты вне заданной полосы. Стоит, однако, отметить разность в графиках затухания воздействия и в фазовых характеристиках данных фильтров.
Lowshelf
Рис. 12. Фильтр lowshelf.
Является более «умной» версией highpass — усиливает или ослабляет частоты ниже заданной, частоты выше пропускает без изменений. Фильтр задаётся частотой и усилением.
Highshelf
Рис. 13. Фильтр highshelf.
Более умная версия lowpass — усиливает или ослабляет частоты выше заданной, частоты ниже пропускает без изменений.
Peaking
Рис. 14. Фильтр peaking.
Это уже более «умная» версия notch — он усиливает или ослабляет частоты в заданном диапазоне и пропускает остальные частоты без изменений. Фильтр задаётся частотой, усилением и добротностью.
Фильтр allpass
Рис. 15. Фильтр allpass.
Allpass отличается ото всех остальных — он не меняет амплитудные характеристики сигнала, вместо чего делает фазовый сдвиг заданных частот. Фильтр задаётся частотой и добротностью.
Фильтр WaveShaperNode
Вейвшейпер (en) применяется для формирования сложных эффектов звуковых искажений, в частности с помощью него можно реализовать эффекты «дисторшна», «овердрайва» и «фузза». Данный фильтр применяет к входному сигналу специальную формирующую функцию. Принципы построения подобных функций довольно сложные и тянут на отдельную статью, поэтому я опущу их описание.
Фильтр ConvolverNode
Фильтр, производящий линейную свёртку входного сигнала с аудио-буфером, задающим некую импульсную характеристику. Импульсная характеристика — это ответ некой системы на единичный импульс. Простым языком это можно назвать «фотографией» звука. Если реальная фотография содержит информацию о световых волнах, о том, насколько они отражаются, поглощаются и взаимодействуют, то импульсная характеристика содержит аналогичную информацию о звуковых волнах. Свёртка аудио-потока с подобной «фотографией» как бы накладывает эффекты окружения, в котором была сняла импульсная характеристика на входной сигнал.
Для работы данного фильтра требуется разложение сигнала на частотные составляющие. Это разложение производится с помощью быстрого преобразования Фурье (к сожалению, в русскоязычной Википедии совершенно несодержательная статья, написанная, судя по всему, для людей, которые и так знают, что такое БПФ и сами могут написать такую же несодержательную статью). Как я уже говорил во вступлении, не стану приводить в данной статье математику БПФ, однако не упомянуть краеугольный алгоритм для цифровой обработки сигналов было бы неправильно.
Данный фильтр реализует эффект реверберации. Существует множество библиотек готовых аудио-буферов для данного фильтра, которые реализуют различные эффекты (1, 2), подобные библиотеки хорошо находятся по запросу [impulse response mp3].
Материалы
Большое спасибо моим коллегам, которые помогали собирать материалы для этой статьи и давали полезные советы.
Отдельное спасибо Тарасу Audiophile Ковриженко за описание алгоритмов нормализации и максимизации громкости и Сергею forgotten Константинову за большое количество пояснений и советов по данной статье.
UPD. Поправил раздел про фильтрацию и добавил ссылки по разным типам фильтров. Спасибо Денису deniskreshikhin Крешихину и Никите merlin-vrn Киприянову за то, что обратили внимание.