Hvad der gør MP3-komprimering effektiv som en metode til komprimering af lyd er dens afvigelse fra PCM-modellen. Som vi har set er målet i et PCM-system digitalt at gengive bølgeformen for et indgående signal så præcist, som det er praktisk muligt. Dog kan der argumenteres for, at den implicitte antagelse af PCM - nemlig at gengivelse af lyd kræver reproduktion af waveforms - er forenklet, og indebærer en misforståelse af den måde, menneskets opfattelse rent faktisk virker.
Kendsgerningen er, at vores ører og vores hjerner er ufuldkomne og forudindtagede måleinstrumenter, som fortolker eksterne fænomener i henhold til deres egne fordomme. Man har for eksempel fundet ud af, at en fordobling af amplituden for en lydbølge ikke nødvendigvis svarer til en fordobling i den tilsyneladende styrke af lyden. En række faktorer (såsom hvor ofte indholdet af lyden, og tilstedeværelsen af baggrundsstøj) vil påvirke, hvordan den eksterne stimulus bliver fortolket af de menneskelige sanser. Vores opfattelse vil derfor heller ikke ligefrem spejle begivenheder i den ydre verden, men snarere afspejle og fremhæve visse egenskaber ved disse begivenheder.
Vi kan derfor beslutte, da vores mål er at gengive en lyd til gavn for en menneskelig lytteren, at det er ganske unødvendigt nøjagtigt at genskabe hver karakteristisk lyd bølgeform. I stedet kan vi koncentrere os om at afgøre, hvilke egenskaber ved bølgeformen, der vil være vigtigst for lytteren, og prioritere registrering af disse egenskaber. Dette er teorien bag perceptuel kodning. For at sige det mere enkelt, kunne vi sige, at mens PCM forsøger at indfange en bølgeform "som den er", så forsøger MP3 at indfange den, "som den lyder".
Psykoakustisk model
For at dette skal være muligt, er det nødvendigt at bestemme et sæt af regler for, hvad der ER eller IKKE ER meningsfuldt for en menneskelig lytter. Dette sæt af regler kaldes undertiden en "psykoakustisk model". For at forstå, hvordan den psykoakustiske model virker, er vi nødt til at overveje to vigtige begreber i digital lyd og perceptuel kodning: redundans og irrelevans.
Begge ord beskriver begrundelsen for, at en vis mængde af audio data anses for at være unødvendigt og tilstrækkeligt uvæsentligt til, at det kan blive kasseret eller ignoreret uden en uacceptabel forringelse af lydkvaliteten.
Redundans
Vi har allerede set et eksempel på redundans i vores tidligere diskussion af repræsentationen af PCM bølgeformer. CD-kvalitets PCM lyd skiller sig af med frekvenser højere end 22,05 kHz - samplingfrekvensen for 44,1 kHz blev valgt, fordi frekvenser omkring 22,05 kHz blev anset for at være uden for rækkevidde af den menneskelige hørelse, og derfor overflødige. Hvis vi skulle beslutte (som nogle entusiaster har), at frekvenser over 22,05 kHz rent faktisk indeholder vigtige oplysninger om farve og tone af lyd og musik, kan vi vælge at bruge en øget samplingsfrekvens, og dermed fange nogle af de frekvenser, et CD-kvalitets system ville have behandlet som overflødig. Selv hvis vi skulle gøre det, ville vi ikke have afskaffet redundans helt: Vi ville bare have flyttet målstolperne (eller mere præcist, "Nyquist Grænsen") således, at redundans forekom ved højere frekvenser end før.
Irrelevans
Irrelevans er et mere radikalt koncept. Teorien bag psykoakustiske kodning hævder, at på grund af de særlige forhold ved menneskets opfattelse, vil visse egenskaber ved en given bølgeform være meningsløse at lagre for en menneskelig lytter - og dermed ikke blive opfattet overhovedet. Men på grund af dens insisteren på at fange hele bølgeform, vil et PCM-system ender med optagelse og lagring af en stor mængde af irrelevante oplysninger på trods af, at disse egenskaber ved lyden ikke kan opfanges af det menneskelige øre ved afspilning. En perceptuel kodning søger derfor kun at gemme data, som kan opfanges af det menneskelige øre. Dermed er det muligt at opnå drastisk reducerede filstørrelser, ved blot at kassere disse irrelevante data fanget i en PCM optagelse.
Maskering
Den psykoakustiske model afhænger af en bestemt ejendommelighed ved menneskets opfattelse af lyd: en effekt kendt som maskering. Maskering kan beskrives som en tendens i lytteren til at prioritere bestemte lyde frem for andre, alt efter den sammenhæng, hvori de opstår. Maskering opstår, fordi den menneskelige hørelse tilpasser sig til det aktuelle niveau af lyd og støj i et givet miljø. For eksempel kan et pludseligt håndklap i et roligt rum virke forbløffende højt. Men hvis det samme klap straks blev efterfulgt af et skud, ville det være meget mindre larmende. Tilsvarende ved optagelse af et rockband i et lydstudie kan lyden af en elektrisk guitar synes at dominere mixet indtil det øjeblik, hvor trommeslageren rammer et bestemt bækken - på hvilket tidspunkt guitaren kan synes at være kort overdøvet. Disse er eksempler på hhv. "tids-domæne" og "frekvens-domæne" maskering. Når to lyde optræder samtidig eller næsten samtidig, kan den ene være delvist maskeret af den anden, afhængig af faktorer såsom deres relative volumen og frekvens indhold.
Maskering er dét, der gør det muligt for perceptuel kodning at slippe af med at fjerne en stor del af de data, som konventionel bølgeformskodning ville lagre. Dette indebærer ikke kassering af alle de data, der beskriver maskerede elementer i en lydoptagelse: at gøre dette ville nok lyde bizart og ubehageligt. I stedet virker perceptuel kodning ved at tildele færre bits af data til de maskerede elementer i en optagelse, end til de "relevante" elementer. Dette har den virkning at det indfører en vis forvrængning, men da denne skævhed er (forhåbentligt) begrænset til de maskerede elementer, vil det (forhåbentligt) være umærkelig ved afspilning. Brugen af færre bits til at repræsentere de maskerede elementer i en optagelse betyder, at færre bits overordnet set er påkrævet. Dette er metoden, hvorpå det lykkes for MP3-komprimering at reducere lyd-filer til omkring en tiendedel af deres oprindelige størrelse, med ringe eller ingen mærkbar forringelse af lydkvaliteten.