Poradnik: Ucho kontra pomiar, czyli o głośności i głośnym graniu

Poradnik: Ucho kontra pomiar, czyli o głośności i głośnym graniu

19 marca 2024, 12:00
autor: Piotr Sadłoń

[img:1:R]Słuch ludzki to bardzo skomplikowany i bardzo czuły analizator audio, bez którego nie tylko praca osób „parających” się dźwiękiem byłaby niemożliwa, ale i codzienne życie mocno utrudnione. Pomimo tego współczesny „dźwiękowiec” – szczególnie taki, który zajmuje się akustyką pomieszczeń czy produkcją, projektowaniem lub choćby „tylko” strojeniem systemów nagłośnieniowych – praktycznie nie jest w stanie efektywnie pracować bez wspomagania się urządzeniami lub programami pomiarowymi. Choć zarówno słuch ludzki, jak i programy (takie jak SMAART, SatLive, SysTune czy REW) mają za zadanie zanalizować dźwięk i „zaprezentować” użytkownikowi wyniki tej analizy, sposób w jaki przetwarzają i analizują sygnały audio jest odmienny – pomijając fakt, że słuch działa na zasadzie obróbki „elektro-chemicznej”, a programy obliczeń matematycznych.

W tym, a może i nawet kilku kolejnych artykułach, postaramy się przyjrzeć bliżej jednemu (słuchowi) i drugim (programom), a także powiedzieć co nieco o tym, jak wykorzystać inne – niż tylko te najczęściej używane (magnituda i faza) – funkcje softów do tego, aby analizę komputerową bardziej „zbliżyć” do tego, jak dźwięk „postrzega” nasz słuch. Z góry ostrzegam – łatwo nie będzie, ale ci, którzy chcą bardziej zagłębić się w temat działania podstawowych narzędzi pracy akustyków, inżynierów i realizatorów dźwięku powinni znaleźć tu parę ciekawych kwestii, o których może jeszcze nawet nie słyszeli.

A więc do dzieła – zaczniemy od tego, w co nie musimy inwestować ani grosza, bo mamy to od urodzenia (prawie wszyscy).

 

[img:10]

 

Słuch

Nie będę tu zagłębiał się w szczegóły dotyczące samej budowy ludzkiego ucha oraz teorii słyszenia, czyli jak to się dzieje, że dźwięki z otoczenia docierają do naszego mózgu – bo to on tak naprawdę odpowiada za proces naszego słyszenia; ucho to tylko przetwornik. O tym wszystkim informacje znajdziecie w każdym podręczniku do biologii czy innych książkach oraz na milionach stron w Internecie. Skoncentrujemy się raczej na samym procesie analizy dźwięków przez człowieka i jaki to ma wpływ na to, jak naprawdę słyszymy – i czy to co słyszymy jest naprawdę tym, co dociera do naszych uszu.

 

Głośność

Głośność, choć w duże mierze zależna, nie jest tym samym co poziom ciśnienia akustycznego czy poziom dźwięku. Natężenie dźwięku (czy bardziej mierzalne ciśnienie akustyczne) jest zjawiskiem obiektywnym – możemy je zmierzyć i pomiar taki da wynik powtarzalny w każdych warunkach i dla każdego poprawnie działającego miernika. Głośność to wrażenie subiektywne, właściwe danemu osobnikowi. Poza tym, że zależy oczywiście od natężenia dźwięku, na jego wartość ma wpływ również częstotliwość danego dźwięku, ale również długość trwania i inne (mniej istotne) aspekty. O tym, że im natężenie dźwięku większe tym większa jest głośność, nikogo specjalnie chyba przekonywać nie trzeba. Ale dwa dźwięki mające te same natężenia dźwięku, ale różne częstotliwości, mogą mieć zupełnie różną głośność.

Ok, może na początek usystematyzujmy pojęcia – przed chwilą używałem raz pojęcia „natężenie dźwięku”, a raz „ciśnienie akustyczne” (a do tego jeszcze za chwile pojawi się „poziom ciśnienia akustycznego”). Hm, jakby chcieć to szczegółowo wyjaśnić, to trzeba by poświęcić na to osobny artykuł. Krótko więc – źródło dźwięku emituję falę dźwiękową, która niesie ze sobą energię. Ilość energii, jaką wysyła źródło dźwięku w jednostce czasu nazywa się mocą akustyczną. Fala dźwiękowa, wypromieniowana przez źródło o określonej mocy akustycznej, rozchodząc się napotyka swojego „odbiorcę”, np. mikrofon, człowieka, ścianę. Moc akustyczna przypadająca na powierzchnię prostopadłą do kierunku rozchodzenia się fali dźwiękowej (naszego „odbiorcy”) nazywa się natężeniem dźwięku. Natężenie dźwięku zaś zależy proporcjonalnie od kwadratu ciśnienia akustycznego (w dużym skrócie). Nie ma miernika, który bezpośrednio mierzyłby natężenie dźwięku, nie mamy zaś problemów z pomiarami ciśnienia, dlatego też w praktyce mierzymy właśnie ciśnienie akustyczne, a – jeśli będziemy mieć taką potrzebę – to po odpowiednim wyskalowaniu z niego możemy odczytywać natężenie dźwięku. W praktyce najczęściej posługujemy się poziomem ciśnienia dźwięku wyrażanym w dB (w stosunku do wartości progowej ciśnienia, które powoduje powstawanie w uchu wrażenia słyszenia dźwięku). Reasumując można w zasadzie stosować zamiennie natężenie dźwięku i ciśnienie dźwięku, bo jedno zależy od drugiego, ale i tak na co dzień posługiwać się będziemy poziomem ciśnienia dźwięku, albo inaczej poziomem ciśnienia akustycznego.

Wartość poziomu ciśnienia dźwięku dla tonu 1.000 Hz odpowiada poziomowi głośności wyrażanej w jednostkach zwanych fonami. I tak, dla przykładu, ton o częstotliwości 1.000 Hz i poziomie dźwięku 30 dB ma poziom głośności równy 30 fonom. Ale aby uzyskać taką samą wartość poziomu głośności dla tonu 20 Hz, musimy osiągnąć poziom natężenia dźwięku dla tego tonu wyższy o 58 dB!

Widać to wyraźnie, gdy spojrzymy na wykres prezentujące tzw. krzywe jednakowej głośności, które po raz pierwszy zmierzyli i zaprezentowali Fletcher i Muson. Po nich te badania powtórzyli Churcher i King oraz Robinson i Dadson – otrzymane przez nich krzywe nieco różniły się od krzywych Fletchera i Musona, ale to właśnie pomiary Robinsona i Dadsona i uzyskane z nich krzywe zostały przyjęte przez ISO, czyli International Standarization Organization. Poniżej, dla porównania, obie rodziny krzywych – po lewej Fletchera-Musona, po prawej Robinsona-Dadsona.

 

[img:2]

[img:3]

 

Należy jeszcze dodać, że powyższe krzywe dotyczą dźwięków prostych, czyli tonów i nie przekładają się 1:1 na dźwięki złożone, jak np. muzyka.

Jak widać krzywe mają tendencję do wypłaszczania się wraz ze wzrostem poziomu ciśnienia akustycznego, co oznacza, że słuch ludzki jest bardziej „wyrównany” w zakresie wyższych poziomów. O ile dla krzywej o wartości 30 fonów różnica między 1 kHz a 20 Hz wynosi prawie 60 dB, o tyle dla krzywej 90 fonów różnica ta jest prawie o połowę mniejsza, czyli 32 dB. Niezależne zaś od tego, czy SPL (poziom ciśnienia dźwięku, z angielskiego „sound pressure level”) jest wysoki czy niski, słuch ludzki jest najbardziej wyczulony na dźwięki w okolicy 3,5-4 kHz, albo inaczej mówiąc dla pasma 2-5 kHz. Im jednak SPL wyższy, tym czułość słuchu w tym paśmie większa. To z kolei oznacza, że próg bólu (czyli taki poziom ciśnienia dźwięku, dla którego słuchanie nawet ulubionej muzyki przestaje być miłe, a staje się torturą) dla częstotliwości w owym paśmie zaczyna się już przy znacznie niższych poziomach (105-110 dB), niż dla częstotliwości średnich (120-130 dB).

I tu już można wysnuć pierwsze praktyczne wnioski i wskazówki dla realizatorów live, szczególnie tych którzy lubią „przyłożyć”, tzn. grają koncerty ze średnim poziomem ciśnienia dźwięku grubo powyżej 100 dB.

 

[img:4]

 

Jeśli już ktoś zdecyduje się grać tak głośno, warto zastanowić się nad taką korekcją systemu, która nie tylko zapewni odpowiedni odstęp od sprzężenia, ale też ulży co nieco uszom zgromadzonej przed sceną publiczności, pozwalając im przetrwać całe wydarzenie bez konieczności zatykania uszu, czy doznania zbytniego uszczerbku słuchu. Albo przynajmniej starać się, żeby w zakresie 2-5 kHz nie podbijać zbytnio korekcji poszczególnych źródeł dźwięku. Szczególnie wokalu, dla którego pasmo wpływające na zrozumiałość mowy/wokalu mieści się właśnie w zakresie 2-4 kHz, stąd często realizatorzy, przy gęstym miksie i głośnym graniu, ratują się przed zbytnim „schowaniem” się wokalu w miksie podbijając nieco pasmo prezencji.

Skoro już wywołaliśmy wilka z lasu, to jeszcze w temacie (zbyt)głośnego grania parę zdań.

Granie koncertów na systemie „załadowanym pod sufit”, czyli na granicy (albo co gorsza poza nią) przesteru lub zadziałania limiterów w dwojaki sposób wpływa na postrzeganie głośności czy dynamiki. Pierwszy, „techniczny”, wiąże się ze tzw. współczynnikiem szczytu (po angielsku – crest factor, w skrócie CF) i jego przenoszeniem przez system, drugi „biologiczny”, związany jest z właściwościami naszego słuchu.

Crest factor to – dla tych, którzy może jeszcze nie zetknęli się z tym parametrem – różnica między poziomem szczytowym sygnału, a jego poziomem RMS, wyrażana w decybelach (możemy też wyrażać w liczbach niemianowanych, jeśli CF określimy jako stosunek wartości szczytowej do RMS). Najmniejszym CF wynoszącym 3 dB może „poszczycić się” sygnał sinusoidalny (pomijając w zasadzie rzadko spotykany w analogowym audio sygnał prostokątny).

 

[img:5]

 

Niezbyt mocno skompresowany sygnał muzyczny ma CF około 12 dB, podobnie jak szum różowy.

 

[img:6]

 

System nagłośnieniowy musi więc posiadać odpowiedni „zapas”, aby przenieść wszystkie sygnały w całości bez zniekształceń, również takie o dużym poziomie szczytowym, a małym RMS – taki zapas nazywamy „headroomem”.

Co się dzieje, jeśli nasz system nie ma odpowiedniego headroomu, tzn. gdy dochodzimy do poziomu, w którym sygnał zaczyna „klipować” (przesterowywać się) lub zaczyna uaktywniać się limiter szczytowy (jeśli takowy jest). W zasadzie w jednym i drugim przypadku mamy sytuację, w której różnica między poziomem szczytowym a RMS zmniejsza się – przester po prostu „obcina” szczyty sygnału, a limiter nie przenosi sygnału powyżej ustalonej wartości (różnica jest zaś taka, że limiter nie powoduje powstawania zniekształceń, czyli nie dodaje do sygnału tak wielu harmonicznych jak przester).

 

[img:7]

[img:8]

 

Skoro więc nie jesteśmy w stanie przenieść całego sygnału, zmniejsza się jego crest factor, a to może mieć duży wpływ np. na zrozumiałość mowy, na wyrazistość czy szczegółowość miksu.

To jeden aspekt – ten mniej groźny, bardziej wpływający na jakość dźwięku niż na bezpieczeństwo samych słuchaczy. Inna kwestia to reakcja naszego słuchu na duży poziom ciśnienia akustycznego do niego docierający. Nasz słuch jest tak skonstruowany, żeby bronił się (do pewnego momentu) przed uszkodzeniem. Gdy SPL zbliża się do niebezpiecznego dla naszego ucha poziomu, mięśnie słuchowe napinają się. Powoduje to mocniejsze naprężenie błony bębenkowej, aby zabezpieczyć ją przed nadmiernymi wychyleniami i wynikającymi z tego uszkodzeniami. Jednak takie jej naprężenie powoduje też zmniejszenie czułości słuchu, w rezultacie czego ODCZUWALNIE głośność zmniejsza się do momentu, w którym poziom ciśnienia dźwięków docierających do nas spadnie na tyle, aby mięśnie słuchowe mogły „poluzować” błonę bębenkową i wróciła pełna dynamika naszego słuchu. Jeśli tak się nie stanie i SPL będzie wciąż wysoki nasz słuch pozostanie „ściśnięty”, przez co zmniejszy się „postrzegany” przez nas crest factor, nawet jeśli system nagłośnieniowy jest w stanie przenieść pełny sygnał, ze wszystkimi jego szczytami. Efekt będzie więc taki sam, jak w przypadku zmniejszenia CF przez system pracujący z aktywnymi limiterami lub w przesterze. Przy czym nasz „system obronny” przed nadmiernym SPL-em przypomina bardziej kompresor z długim czasem reakcji niż limiter szczytowy – głośne a krótkie impulsy (transjenty) są przenoszone bez przeszkód, a dopiero dłuższa ekspozycja na dźwięki o wysokim SPLu powoduje napięcie mięśni słuchowych.

Powinien brać to pod uwagę każdy odpowiedzialny realizator – można bowiem łatwo uszkodzić słuch nie tylko sobie (pół biedy, skoro ktoś tak „lubi”), ale również setkom zgromadzonych przed sceną widzów. Dlaczego? Jeśli nasz miks jest głośny, ale dynamiczny – tzn. są momenty mocniejsze, ale i cichsze, miks nie jest skompresowany jak współczesne nagrania techno, słuch ma czas na to, aby po głośniejszych momentach (gdy błona bębenkowa jest napięta), „zrelaksować” się, wracając do pełnej dynamiki pracy. W przypadku, gdy ucho jest atakowane wysokim poziomem SPL przez długi czas, nasz słuch pracuje z „zapiętym na stałe kompresorem”, powodując mniejszą wrażliwość na transjenty, czyli efekt zmniejszenia współczynnika szczytu odtwarzanego materiału muzycznego. W efekcie tego nasze odczuwanie dynamiki spada, w związku z czym realizator będzie próbował wycisnąć więcej z systemu, aby tą dynamikę „poczuć”. W ten sposób może przekroczyć próg zadziałania limiterów i spłaszczyć dynamikę (zmniejszyć crest factor) już „na wejściu”, czyli jeszcze przed dotarciem dźwięku do ucha, co tylko pogorszy odczucie dynamiki sygnału przez nasze już „upośledzone” dynamicznie ucho. To tylko nakręca „spiralę śmierci”, bowiem brak możliwości poluzowania napięcia błony bębenkowej może ostatecznie doprowadzić do uszkodzenia słuchu!

Co ciekawe w takich sytuacjach mniej wydajne systemu mogą być bardziej niebezpieczne, niż te dysponujące duża mocą i sporym headroomem. Tzw. „nap…cze” będą żyłować taki system do granic możliwości, wciąż będąc niezadowolonym z uzyskanej – w ich mniemaniu – zbyt małej głośności, pracując przy ciągle aktywnych limiterach szczytowych i napiętej błonie bębenkowej. Mocniejsze systemy są w stanie przenosić transjenty nawet przy głośnym graniu, czyli przenosić sygnał z jego pełnym CF, przez co szanse na „nasycenie” słuchu są mniejsze. Z drugiej strony spotkanie „nienasyconego” realizatora (są niestety w naszej branży tacy, którzy potrafią „zamknąć” prawie każdy system) z bardzo wydajnym systemem może być najgorszym z możliwych przypadków.

To tylko jeden aspekt tzw. grania „bez umiaru”. Gdyby jeszcze chcieć poruszyć temat kompresji mocy wielu systemów przy dużych poziomach czy wzrost zniekształceń naszego słuchu spowodowany jego pracą w zakresie narastającej nieliniowości – przy poziomach ciśnienia zbliżającego się do granicy bólu – to ten artykuł miałby jeszcze dwa razy większą objętość. A przecież nie to jest naszym głównym tematem, wracamy więc do rozważań o właściwościach naszego słuchu i postrzeganiu głośności.

Oprócz poziomu ciśnienia akustycznego i częstotliwości dźwięku na postrzeganie jego głośności ma też wpływ czas trwania – chodzi tu raczej o impulsy dźwiękowe, a nie same dźwięki, których długość mierzymy bardziej w sekundach niż milisekundach. Jednak zarówno mowa, jak i muzyka, składają się nie tylko z tych „długich” dźwięków, ale również transjentów, czyli krótkotrwałych impulsów dźwiękowych lub szumowych.

Ton o częstotliwości 1 kHz i czasie trwania 1 s jest przez słuch człowieka odbierany jako krótkotrwały dźwięk, podczas gdy ten sam ton, ale trwający tylko kilka milisekund odbierany jest przez nas nie jako dźwięk, ale jako „klik”, którego wysokości przy bardzo krótkim czasie trwania trudno zidentyfikować. Ale to nie wszystko, krótki „klik” o takim samym poziomie ciśnienia akustycznego, jak dźwięk o dłuższym czasie trwania, jest przez nas odczuwalny jako cichszy. Przykładowo 3-milisekundowy impuls musi mieć SPL o 15 dB większy, aby być słyszalny z taką samą głośnością jak impuls 0,5-sekundowy (500 ms).

Spójrzmy na poniższy wykres.

 

[img:9]

 

Jak widać zakres czasu trwania poniżej 100-200 ms jest tu najbardziej istotny – dźwięki trwające krócej niż 100 ms muszą mieć wyższy poziom SPL, aby być postrzegane jako jednakowo głośne niż trwające dłużej niż 200 ms. Można wysnuć z tego wniosek, że stała czasowa ludzkiego ucha (słuchu) wynosi ok. 100 ms. Oznacza to, że nasz słuch niejako „porcjuje” dźwięki do analizy na „paczki” o określonym czasie trwania i całą taką „paczkę” poddaje analizie. Eksperymentalnie stwierdzono, że jeśli do naszych uszu dotrą dwa sygnały w odstępie mniejszym niż 35 ms (np. dźwięk bezpośredni i odbity od ściany), postrzegane są one przez nas jako jeden dźwięk, a dźwięk opóźniony powoduje zwiększenie wrażenia jego głośności (w stosunku do głośności dźwięku „pierwszego”) i może też dodatkowo zmienić jego tembr/barwę. Co również ważne, nawet jeśli te dwa dźwięki docierają do nas z różnych kierunków (jak wspomniany przykład dźwięku bezpośredniego i odbicia od ściany/podłogi) nasze ucho lokalizuje kierunek skąd docierają oba dźwięki z tego kierunku, z którego dotarł pierwszy dźwięk (bezpośredni). Badania pokazują też, że ten czas nie jest arbitralny dla wszystkich, ale jest cechą osobnicza – niektórzy są w stanie zidentyfikować dwa dźwięki o różnicy odległości nawet nieco mniejszej niż owe 35 ms, ale dla wielu ten czas wynosi 50-60 ms, a są tacy którzy nawet dźwięki o 100-milisekundowym odstępie identyfikują jako jeden (wiele też zależy od rodzaju i natury tych dźwięków – to jednak kolejny temat, którego z braku miejsce nie będziemy tu drążyć).

Co jednak praktycznego wynika z tego faktu, że krótkie impulsy muszą być głośniejsze, niż te trwające kilkadziesiąt ms i dłużej? Ot, choćby kwestia mowy i jej zrozumiałości. Nasza mowa składa się z samogłosek i spółgłosek. Samogłoski są dźwięczne i „dłuższe”, spółgłoski to krótkie, dźwięczne lub bezdźwięczne „impulsy”. Ale to właśnie spółgłoski mają duży wpływ na zrozumiałość mowy. Przykładowo wyrazy: buk, but, buc, Bug, ból, bór czy bób różnią się tylko jedną, ostatnią literą, która decyduje o tym, jakie znaczenie ma dane słowo. Wymówienie tej litery (spółgłoski) trwa średnio od 5 do 15 ms, a więc w zakresie, w którym jej długość wpływa znacząco na głośność. Oczywiście jako realizatorzy dźwięku czy inżynierowie systemu nie mamy wpływu na to jak ktoś mówi – głośno i wyraźnie czy mamroce coś pod nosem, do tego jeszcze sepleniąc. Znając jednak tę zależność – postrzeganej głośności od czasu trwania – i mając do czynienia z obiektem czy wydarzeniem, gdzie zrozumiałość mowy gra istotną rolę, musimy zapewnić optymalne warunki odsłuchowe (czy to jako akustyk projektując/adaptując dane pomieszczenie, czy jako realizator/inżynier dźwięku projektując czy obsługując system nagłośnienia). Duża pogłosowość czy wysoki poziomu tła może mieć bowiem istotny wpływ na to, czy „transmitowany” sygnał mowy będzie wyraźnie i poprawie odebrany przez słuchaczy/uczestników wydarzenia.

OK, pozostał nam jeszcze jeden aspekt dotyczący głośności i naszego jej postrzegania, a także temat dotyczący postrzegania wysokości dźwięku. To jednak poruszymy w następnej części, aby poznawszy wreszcie nasz aparat słuchowy i jego „zasadę działania” przejść do tego, jak te kwestie wyglądają w przypadku programów do analizy/pomiarów dźwięku.

 

 

Pozostałe poradniki
SEKRETY WRONY: czy można nagrać płytę w domu? Nagranie dobrej jakości materiału w domu wymaga odpowiedniego przygotowania i inwestycji w sprzęt, ale jest całkowicie możliwe. Kluczem jest cierpliwość, praktyka i ciągła nauka. Wielu artystów zaczynało w ten sposób.
Problemy polskich kapel, co może, a czego nie realizator Kolejny odcinek z serii Sekrety Studia. Tym razem spotykamy się z Maciejem Mularczykiem, realizatorem dźwięku z wieloletnim doświadczeniem w studiu LODOWA w Łodzi. Miejsce to jest szczególne na mapie Polski, gdyż jest zarówno komfortową...
Zbuduj sobie modulara - Behringer Ci pomoże! Syntezatory modularne pojawiły się na szerszą skalę w latach 60. i 70. ubiegłego wieku. Można je zobaczyć na zdjęciach takich tuzów ówczesnej muzyki elektronicznej, jak Tangerine Dream, Kitaro, Klaus Schulze, Jean Michelle Jarre i wielu,...
Sekrety doskonałych nagrań w domowym studiu Dzisiejszy gospodarz domowego studia nagrań - Jarek Toifl - opowiada, jak osiąga profesjonalne nagrania w swoim studiu. Zobacz fascynującą rozmowę Rafała Kossakowskiego (Kosa Buena Studio) z Jarkiem, poznaj używany przez niego sprzęt do...
Realizator dźwięku filmowego: Michał Kosterkiewicz (TOYA STUDIOS Zawód realizatora dźwięku niejedno ma imię. Zobacz spotkanie z Michałem Kosterkiewiczem - realizatorem dźwięku filmowego z TOYA STUDIOS, którego pytamy m.in. o specyfikę pracy, sprzęt do wykonania miksu do ATMOS itp.
PORADNIK: Mikrofon i preamp - Trudne partnerstwo W tym poradniku poruszamy kwestie związane z doborem odpowiedniego preampu (przedwzmacniacza) do mikrofonu. Dowiedz się jak ustawić preamp, na co zwracać uwagę przy wyborze sprzętu do Twojego studia. Porady eksperta