можно порпробовать предварительно сохранить аудио-дорогу в WAV-stereo, а при сборке окончательного варианта, указать внешний wav-источник для кодирования в AAC
или вообще, закодировать звук отдельно и потом просто собрать контейнер
или вообще, закодировать звук отдельно и потом просто собрать контейнер