mirror of
https://github.com/modelscope/modelscope.git
synced 2025-12-25 20:49:37 +01:00
1. 优化本地数据集加载链路 2. local与remote解耦,无网络环境下也可以使用SDK 3. 升级hf datasets及其相关依赖到最新版(2.7.0+) 4. 解决元数据感知不到数据文件变更的问题 5. 系统分层设计 6. 本地缓存管理问题 7. 优化error log输出信息 8. 支持streaming load * a. 支持数据文件为zip格式的streaming * b. 支持Image/Text/Audio/Biodata等格式数据集的iter * c. 兼容训练数据在meta中的历史数据集的streaming load * d. 支持数据文件为文件夹格式的streaming load 9. finetune任务串接进一步规范 * a. 避免出现to_hf_dataset这种使用,将常用的tf相关的func封装起来 * b. 去掉了跟hf混用的一些逻辑,统一包装到MsDataset里面 10. 超大数据集场景优化 * a. list oss objects: 直接拉取meta中的csv mapping,不需要做 list_oss_objects的api调用(前述提交已实现) * b. 优化sts过期加载问题(前述提交已实现) 11. 支持dataset_name格式为:namespace/dataset_name的输入方式 参考Aone链接: https://aone.alibaba-inc.com/v2/project/1162242/task/46262894 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/11264406