22050 Гц - значит на каждую секунду приходится 22050 семплов(точек)
2 минуты это 120 секунд.
5,1мб поделим на 120 секунд = 44100 байт в секунду.
То есть каждый семпл занимает 2 байта.
Если это запись стерео - то 1 байт на канал (разрядность 8 бит), если моно то 2 байта - разрядность 16 бит