Przede wszystkim poprawnie przygotuj sobie próbki np przy pomocy programu SoX.
Jeśli uda ci się odgrywać próbki z prędkością 44100Hz to będziesz miał do dyspozycji szeroka gamę filtrów kształtujących błąd kwantyzacji (noiseshaping).
http://sox.sourceforge.net/SoX/NoiseShaping
np:
@rem lipshitz, f-weighted, modified-e-weighted, improved-e-weighted, gesemann, shibata, low-shibata, high-shibata
@set noiseshape=improved-e-weighted
@sox --multi-threaded --buffer 131072 -S -V -D %1 -b 8 %1.wav rate -v -s -L 44100 gain -n -.633260 dither -f %noiseshape% -p 8 stats -b 8
@sox --multi-threaded --buffer 131072 -S -V -D %1 -b 8 %1_mono.wav remix - rate -v -s -L 44100 gain -n -.633260 dither -f %noiseshape% -p 8 stats -b 8
@pause
Jeśli mógłbyś jeszcze bardziej przyspieszyć odgrywanie to przez trochę większe skomplikowanie skryptu dla SoX (lub użycie innego programu do re-kwantyzacji np Noise autorstwa Sebastian Gesemann) udałoby ci się osiągnąć jakość DSD na 8 bitach bez większych problemów.
Za świetnym dokumentem "Stanley P. Lipshitz and John Vanderkooy - Why 1-Bit Sigma-Delta Conversion is Unsuitable for High-Quality Applications"
"Finally, consider 8-bit, four-times-oversampled PCM with
noise shaping. This is also a data rate one-half that of DSD and
double that of CD, with a sampling rate of 4 × 44,100 =
176,400 Hz. It can achieve a noise floor 120 dB below full
scale up to 20 kHz, using 96 dB of noise shaping, and a total
noise power of –19 dBFS. Its frequency response would be
flat to 80 kHz. This example is perhaps the most instructive of
the lot. For a data rate one-half that of DSD, it achieves a
comparable signal bandwidth, with a similar noise power
density up to 20 kHz, but much lower power above this
frequency, and 28 dB lower total noise power. It is fully
TPDF-dithered, and so is completely artefact free. At one-half
the data rate it outperforms DSD on every count! DSD is a
profligate wastrel of capacity."
Oczywiscie możesz użyć tez niższej prędkości próbkowania niż 44100 - po prostu trochę będziesz musiał pokombinować no i jakość nie będzie optymalna (mniej miejsca na poprawny noiseshaping).