diff --git a/modelscope/msdatasets/dataset_cls/dataset.py b/modelscope/msdatasets/dataset_cls/dataset.py
index 49313e90..57ee8150 100644
--- a/modelscope/msdatasets/dataset_cls/dataset.py
+++ b/modelscope/msdatasets/dataset_cls/dataset.py
@@ -4,7 +4,6 @@ import copy
 import os
 
 import datasets
-import torchaudio
 from datasets import IterableDataset
 from PIL import Image
 
@@ -94,6 +93,7 @@ class NativeIterableDataset(IterableDataset):
                         if k.endswith('Image:FILE'):
                             ret[k + ':Object'] = Image.open(fp=ex_cache_path)
                         if k.endswith('Audio:FILE'):
+                            import torchaudio
                             waveform_and_rate = torchaudio.load(ex_cache_path)
                             ret[k + ':Object'] = waveform_and_rate
                 entity = ret