tests/msdatasets/test_ms_dataset.py

# Copyright (c) Alibaba, Inc. and its affiliates.

import unittest

from modelscope.models import Model
from modelscope.msdatasets import MsDataset
from modelscope.preprocessors import SequenceClassificationPreprocessor
from modelscope.preprocessors.base import Preprocessor
from modelscope.utils.constant import DEFAULT_DATASET_NAMESPACE, DownloadMode
from modelscope.utils.test_utils import require_tf, require_torch, test_level


class ImgPreprocessor(Preprocessor):

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.path_field = kwargs.pop('image_path', 'image_path')
        self.width = kwargs.pop('width', 'width')
        self.height = kwargs.pop('height', 'width')

    def __call__(self, data):
        import cv2
        image_path = data.get(self.path_field)
        if not image_path:
            return None
        img = cv2.imread(image_path)
        return {
            'image':
            cv2.resize(img,
                       (data.get(self.height, 128), data.get(self.width, 128)))
        }


class MsDatasetTest(unittest.TestCase):

    @unittest.skipUnless(test_level() >= 0, 'skip test in current test level')
    def test_movie_scene_seg_toydata(self):
        ms_ds_train = MsDataset.load('movie_scene_seg_toydata', split='train')
        print(ms_ds_train._hf_ds.config_kwargs)
        assert next(iter(ms_ds_train.config_kwargs['split_config'].values()))

    @unittest.skipUnless(test_level() >= 0, 'skip test in current test level')
    def test_coco(self):
        ms_ds_train = MsDataset.load(
            'pets_small',
            namespace=DEFAULT_DATASET_NAMESPACE,
            download_mode=DownloadMode.FORCE_REDOWNLOAD,
            split='train')
        print(ms_ds_train.config_kwargs)
        assert next(iter(ms_ds_train.config_kwargs['split_config'].values()))

    @unittest.skipUnless(test_level() >= 1, 'skip test in current test level')
    def test_ms_csv_basic(self):
        ms_ds_train = MsDataset.load(
            'clue', subset_name='afqmc',
            split='train').to_hf_dataset().select(range(5))
        print(next(iter(ms_ds_train)))

    @unittest.skipUnless(test_level() >= 1, 'skip test in current test level')
    def test_ds_basic(self):
        ms_ds_full = MsDataset.load(
            'xcopa', subset_name='translation-et', namespace='damotest')
        ms_ds = MsDataset.load(
            'xcopa',
            subset_name='translation-et',
            namespace='damotest',
            split='test')
        print(next(iter(ms_ds_full['test'])))
        print(next(iter(ms_ds)))

    @unittest.skipUnless(test_level() >= 1, 'skip test in current test level')
    @require_torch
    def test_to_torch_dataset_text(self):
        model_id = 'damo/nlp_structbert_sentence-similarity_chinese-tiny'
        nlp_model = Model.from_pretrained(model_id)
        preprocessor = SequenceClassificationPreprocessor(
            nlp_model.model_dir,
            first_sequence='premise',
            second_sequence=None,
            padding='max_length')
        ms_ds_train = MsDataset.load(
            'xcopa',
            subset_name='translation-et',
            namespace='damotest',
            split='test')
        pt_dataset = ms_ds_train.to_torch_dataset(preprocessors=preprocessor)
        import torch
        dataloader = torch.utils.data.DataLoader(pt_dataset, batch_size=5)
        print(next(iter(dataloader)))

    @unittest.skipUnless(test_level() >= 1, 'skip test in current test level')
    @require_tf
    def test_to_tf_dataset_text(self):
        import tensorflow as tf
        tf.compat.v1.enable_eager_execution()
        model_id = 'damo/nlp_structbert_sentence-similarity_chinese-tiny'
        nlp_model = Model.from_pretrained(model_id)
        preprocessor = SequenceClassificationPreprocessor(
            nlp_model.model_dir,
            first_sequence='premise',
            second_sequence=None)
        ms_ds_train = MsDataset.load(
            'xcopa',
            subset_name='translation-et',
            namespace='damotest',
            split='test')
        tf_dataset = ms_ds_train.to_tf_dataset(
            batch_size=5,
            shuffle=True,
            preprocessors=preprocessor,
            drop_remainder=True)
        print(next(iter(tf_dataset)))

    @unittest.skipUnless(test_level() >= 2, 'skip test in current test level')
    @require_torch
    def test_to_torch_dataset_img(self):
        ms_image_train = MsDataset.load(
            'fixtures_image_utils', namespace='damotest', split='test')
        pt_dataset = ms_image_train.to_torch_dataset(
            preprocessors=ImgPreprocessor(image_path='file'))
        import torch
        dataloader = torch.utils.data.DataLoader(pt_dataset, batch_size=5)
        print(next(iter(dataloader)))

    @unittest.skipUnless(test_level() >= 2, 'skip test in current test level')
    @require_tf
    def test_to_tf_dataset_img(self):
        import tensorflow as tf
        tf.compat.v1.enable_eager_execution()
        ms_image_train = MsDataset.load(
            'fixtures_image_utils', namespace='damotest', split='test')
        tf_dataset = ms_image_train.to_tf_dataset(
            batch_size=5,
            shuffle=True,
            preprocessors=ImgPreprocessor(image_path='file'),
            drop_remainder=True,
        )
        print(next(iter(tf_dataset)))


if __name__ == '__main__':
    unittest.main()
[to #44902099] add license for framework files Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/10189613 2022-09-20 17:49:31 +08:00			`# Copyright (c) Alibaba, Inc. and its affiliates.`

[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00			`import unittest`

[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`from modelscope.models import Model`
[to #42794773]rename pydataset to msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9165402 2022-06-27 11:09:38 +08:00			`from modelscope.msdatasets import MsDataset`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`from modelscope.preprocessors import SequenceClassificationPreprocessor`
			`from modelscope.preprocessors.base import Preprocessor`
[to #42322933]MsDataset 支持上传数据集压缩包和meta 1. MsDataset支持upload数据文件(压缩包) 2. MsDataset支持clone和upload meta data 3. 使用MsDataset.load()下载数据集，支持web端显示数据集下载计数 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9831232 2022-08-25 22:28:10 +08:00			`from modelscope.utils.constant import DEFAULT_DATASET_NAMESPACE, DownloadMode`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`from modelscope.utils.test_utils import require_tf, require_torch, test_level`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00

[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`class ImgPreprocessor(Preprocessor):`

			`def __init__(self, args, *kwargs):`
			`super().__init__(args, *kwargs)`
			`self.path_field = kwargs.pop('image_path', 'image_path')`
			`self.width = kwargs.pop('width', 'width')`
			`self.height = kwargs.pop('height', 'width')`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`def __call__(self, data):`
			`import cv2`
			`image_path = data.get(self.path_field)`
			`if not image_path:`
			`return None`
			`img = cv2.imread(image_path)`
			`return {`
			`'image':`
			`cv2.resize(img,`
			`(data.get(self.height, 128), data.get(self.width, 128)))`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00			`}`


[to #42794773]rename pydataset to msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9165402 2022-06-27 11:09:38 +08:00			`class MsDatasetTest(unittest.TestCase):`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00
[to #42322933] movie scene segmentation模型接入 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9872869 2022-08-31 20:54:20 +08:00			`@unittest.skipUnless(test_level() >= 0, 'skip test in current test level')`
			`def test_movie_scene_seg_toydata(self):`
			`ms_ds_train = MsDataset.load('movie_scene_seg_toydata', split='train')`
			`print(ms_ds_train._hf_ds.config_kwargs)`
			`assert next(iter(ms_ds_train.config_kwargs['split_config'].values()))`

[to #43875101] msdataset add coco dataset unify taskdataset and ms dataset fix hf datasets 2022-08-17 22:51:22 +08:00			`@unittest.skipUnless(test_level() >= 0, 'skip test in current test level')`
			`def test_coco(self):`
			`ms_ds_train = MsDataset.load(`
			`'pets_small',`
[to #42322933]MsDataset 支持上传数据集压缩包和meta 1. MsDataset支持upload数据文件(压缩包) 2. MsDataset支持clone和upload meta data 3. 使用MsDataset.load()下载数据集，支持web端显示数据集下载计数 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9831232 2022-08-25 22:28:10 +08:00			`namespace=DEFAULT_DATASET_NAMESPACE,`
[to #42322933]支持从dataset json文件中获取参数 * dataset json file add args 2022-08-30 15:15:15 +08:00			`download_mode=DownloadMode.FORCE_REDOWNLOAD,`
			`split='train')`
[to #42322933]:fix msdataset * 修复了zip文件不同打包模式下返回路径错误问题。 * 修复了替换了数据集文件重新下载时校验失败问题。 * 修复dataset oss文件在 REUSE 模式下重复下载的问题。 * 修复了csv数据集的meta json文件中某个split的meta和file字段都为''时加载所有split失败的问题。 * 修复了不同版本datasets路径不一致的问题。 2022-08-26 22:41:13 +08:00			`print(ms_ds_train.config_kwargs)`
			`assert next(iter(ms_ds_train.config_kwargs['split_config'].values()))`
[to #43875101] msdataset add coco dataset unify taskdataset and ms dataset fix hf datasets 2022-08-17 22:51:22 +08:00
[to #43660556] msdataset数据集加载 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9552632 * load csv dataset from modelscoop 2022-07-29 12:22:48 +08:00			`@unittest.skipUnless(test_level() >= 1, 'skip test in current test level')`
			`def test_ms_csv_basic(self):`
			`ms_ds_train = MsDataset.load(`
[to #42322933] Fix bug in UT daily 1. Fix bugs in daily test 2. Fix a bug that the updating of lr is before the first time of updating of optimizer TODO this will still cause warnings when GA is above 1 3. Remove the judgement of mode in text-classification's preprocessor to fit the base trainer(Bug) Update some regression bins to fit the preprocessor 4. Update the regression tool to let outer code modify atol and rtol 5. Add the default metric for text-classification task 6. Remove the useless ckpt conversion method in bert to avoid the requirement of tf when loading modeling_bert Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/10430764 2022-10-20 15:29:34 +08:00			`'clue', subset_name='afqmc',`
			`split='train').to_hf_dataset().select(range(5))`
[to #43660556] msdataset数据集加载 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9552632 * load csv dataset from modelscoop 2022-07-29 12:22:48 +08:00			`print(next(iter(ms_ds_train)))`

[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`@unittest.skipUnless(test_level() >= 1, 'skip test in current test level')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`def test_ds_basic(self):`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`ms_ds_full = MsDataset.load(`
			`'xcopa', subset_name='translation-et', namespace='damotest')`
			`ms_ds = MsDataset.load(`
			`'xcopa',`
			`subset_name='translation-et',`
			`namespace='damotest',`
			`split='test')`
			`print(next(iter(ms_ds_full['test'])))`
			`print(next(iter(ms_ds)))`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`@unittest.skipUnless(test_level() >= 1, 'skip test in current test level')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`@require_torch`
			`def test_to_torch_dataset_text(self):`
[to #42322933]Fix bug in daily UT Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/10491891 2022-10-22 23:25:18 +08:00			`model_id = 'damo/nlp_structbert_sentence-similarity_chinese-tiny'`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`nlp_model = Model.from_pretrained(model_id)`
			`preprocessor = SequenceClassificationPreprocessor(`
			`nlp_model.model_dir,`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`first_sequence='premise',`
[to #42322933]bert with sequence classification / token classification/ fill mask refactor 1.新增支持原始bert模型（非easynlp的 backbone prefix版本） 2.支持bert的在sequence classification/fill mask /token classification上的backbone head形式 3.统一了sequence classification几个任务的pipeline到一个类 4.fill mask 支持backbone head形式 5.token classification的几个子任务（ner，word seg， part of speech）的preprocessor 统一到了一起TokenClassificationPreprocessor 6. sequence classification的几个子任务（single classification， pair classification）的preprocessor 统一到了一起SequenceClassificationPreprocessor 7. 改动register中 cls的group_key 赋值位置，之前的group_key在多个decorators的情况下，会被覆盖，obj_cls的group_key信息不正确 8. 基于backbone head形式将原本group_key和 module同名的情况尝试做调整，如下在modelscope/pipelines/nlp/sequence_classification_pipeline.py 中原本 @PIPELINES.register_module( Tasks.sentiment_classification, module_name=Pipelines.sentiment_classification) 改成 @PIPELINES.register_module( Tasks.text_classification, module_name=Pipelines.sentiment_classification) 相应的configuration.json也有改动，这样的改动更符合任务和pipline（子任务）的关系。 8. 其他相应改动为支持上述功能 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/10041463 2022-09-27 23:08:33 +08:00			`second_sequence=None,`
			`padding='max_length')`
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`ms_ds_train = MsDataset.load(`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`'xcopa',`
			`subset_name='translation-et',`
			`namespace='damotest',`
			`split='test')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`pt_dataset = ms_ds_train.to_torch_dataset(preprocessors=preprocessor)`
			`import torch`
			`dataloader = torch.utils.data.DataLoader(pt_dataset, batch_size=5)`
			`print(next(iter(dataloader)))`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`@unittest.skipUnless(test_level() >= 1, 'skip test in current test level')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`@require_tf`
			`def test_to_tf_dataset_text(self):`
			`import tensorflow as tf`
			`tf.compat.v1.enable_eager_execution()`
[to #42322933]Fix bug in daily UT Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/10491891 2022-10-22 23:25:18 +08:00			`model_id = 'damo/nlp_structbert_sentence-similarity_chinese-tiny'`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`nlp_model = Model.from_pretrained(model_id)`
			`preprocessor = SequenceClassificationPreprocessor(`
			`nlp_model.model_dir,`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`first_sequence='premise',`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`second_sequence=None)`
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`ms_ds_train = MsDataset.load(`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`'xcopa',`
			`subset_name='translation-et',`
			`namespace='damotest',`
			`split='test')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`tf_dataset = ms_ds_train.to_tf_dataset(`
			`batch_size=5,`
			`shuffle=True,`
			`preprocessors=preprocessor,`
			`drop_remainder=True)`
			`print(next(iter(tf_dataset)))`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00
[to #42322933] test level check Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9143809 2022-06-23 16:55:48 +08:00			`@unittest.skipUnless(test_level() >= 2, 'skip test in current test level')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`@require_torch`
			`def test_to_torch_dataset_img(self):`
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`ms_image_train = MsDataset.load(`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`'fixtures_image_utils', namespace='damotest', split='test')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`pt_dataset = ms_image_train.to_torch_dataset(`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`preprocessors=ImgPreprocessor(image_path='file'))`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`import torch`
			`dataloader = torch.utils.data.DataLoader(pt_dataset, batch_size=5)`
			`print(next(iter(dataloader)))`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00
[to #42322933] test level check Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9143809 2022-06-23 16:55:48 +08:00			`@unittest.skipUnless(test_level() >= 2, 'skip test in current test level')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`@require_tf`
			`def test_to_tf_dataset_img(self):`
			`import tensorflow as tf`
			`tf.compat.v1.enable_eager_execution()`
[to #42791465, #42779255, #42777959, #42757844, #42756050, #42746916, #42743595, #42791863] fix: fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9174075 * fix msdataset 2022-06-28 20:40:57 +08:00			`ms_image_train = MsDataset.load(`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`'fixtures_image_utils', namespace='damotest', split='test')`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`tf_dataset = ms_image_train.to_tf_dataset(`
			`batch_size=5,`
			`shuffle=True,`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`preprocessors=ImgPreprocessor(image_path='file'),`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`drop_remainder=True,`
[to #43299989] Fix msdataset * fix msdataset Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9436292 * fix msdataset 2022-07-20 16:38:15 +08:00			`)`
[to #42670107]pydataset fetch data from datahub * pydataset fetch data from datahub Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/9060856 2022-06-21 11:10:28 +08:00			`print(next(iter(tf_dataset)))`
[to #42339763] merge pydataset into maas-lib * merge pydataset to the repo Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/8955999 2022-06-08 18:29:39 +08:00

			`if __name__ == '__main__':`
			`unittest.main()`