mirror of
https://github.com/modelscope/modelscope.git
synced 2025-12-25 20:49:37 +01:00
1. 优化本地数据集加载链路 2. local与remote解耦,无网络环境下也可以使用SDK 3. 升级hf datasets及其相关依赖到最新版(2.7.0+) 4. 解决元数据感知不到数据文件变更的问题 5. 系统分层设计 6. 本地缓存管理问题 7. 优化error log输出信息 8. 支持streaming load * a. 支持数据文件为zip格式的streaming * b. 支持Image/Text/Audio/Biodata等格式数据集的iter * c. 兼容训练数据在meta中的历史数据集的streaming load * d. 支持数据文件为文件夹格式的streaming load 9. finetune任务串接进一步规范 * a. 避免出现to_hf_dataset这种使用,将常用的tf相关的func封装起来 * b. 去掉了跟hf混用的一些逻辑,统一包装到MsDataset里面 10. 超大数据集场景优化 * a. list oss objects: 直接拉取meta中的csv mapping,不需要做 list_oss_objects的api调用(前述提交已实现) * b. 优化sts过期加载问题(前述提交已实现) 11. 支持dataset_name格式为:namespace/dataset_name的输入方式 参考Aone链接: https://aone.alibaba-inc.com/v2/project/1162242/task/46262894 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/11264406
21 lines
234 B
Plaintext
21 lines
234 B
Plaintext
addict
|
|
attrs
|
|
datasets>=2.7.0
|
|
easydict
|
|
einops
|
|
filelock>=3.3.0
|
|
gast>=0.2.2
|
|
jsonplus
|
|
numpy
|
|
oss2
|
|
Pillow>=6.2.0
|
|
# for pyarrow 9.0.0 event_loop core dump
|
|
pyarrow>=6.0.0,!=9.0.0
|
|
pyyaml
|
|
requests
|
|
scipy
|
|
setuptools
|
|
tensorboard
|
|
tqdm>=4.64.0
|
|
yapf
|