Upgrade datasets (#1393)

* upgrade datasets to 3.6.0 * fix mcp lint
2025-12-16 16:27:45 +01:00 · 2025-07-04 10:59:07 +08:00
parent 88406c17ad
commit f4217e6183
6 changed files with 117 additions and 117 deletions
--- a/modelscope/hub/api.py
+++ b/modelscope/hub/api.py
@@ -2,13 +2,13 @@
 # yapf: disable
 import datetime
 import fnmatch
 import functools
 import io
 import os
 import pickle
 import platform
 import re
 import fnmatch
 import shutil
 import tempfile
 import uuid
@@ -86,6 +86,7 @@ from modelscope.utils.thread_utils import thread_executor
 logger = get_logger()
 class HubApi:
    """Model hub api interface.
    """
@@ -313,7 +314,6 @@ class HubApi:
        else:
            raise_for_http_status(r)
    def get_endpoint_for_read(self,
                              repo_id: str,
                              *,
@@ -846,7 +846,7 @@ class HubApi:
                        model_id: str,
                        revision: Optional[str] = DEFAULT_MODEL_REVISION,
                        root: Optional[str] = None,
-                        recursive: Optional[str] = False,
+                        recursive: Optional[bool] = False,
                        use_cookies: Union[bool, CookieJar] = False,
                        headers: Optional[dict] = {},
                        endpoint: Optional[str] = None) -> List[dict]:
@@ -856,7 +856,7 @@ class HubApi:
            model_id (str): The model id
            revision (Optional[str], optional): The branch or tag name.
            root (Optional[str], optional): The root path. Defaults to None.
-            recursive (Optional[str], optional): Is recursive list files. Defaults to False.
+            recursive (Optional[bool], optional): Is recursive list files. Defaults to False.
            use_cookies (Union[bool, CookieJar], optional): If is cookieJar, we will use this cookie, if True,
                        will load cookie from local. Defaults to False.
            headers: request headers
@@ -2144,12 +2144,22 @@ class HubApi:
        # List all files in the repo
        if repo_type == REPO_TYPE_MODEL:
-            files = self.get_model_files(repo_id, revision=revision or DEFAULT_MODEL_REVISION, recursive=True, endpoint=endpoint)
+            files = self.get_model_files(
                repo_id,
                revision=revision or DEFAULT_MODEL_REVISION,
                recursive=True,
                endpoint=endpoint
            )
            file_list = [f['Path'] for f in files]
        else:
            namespace, dataset_name = repo_id.split('/')
            dataset_hub_id, _ = self.get_dataset_id_and_type(dataset_name, namespace, endpoint=endpoint)
-            dataset_info = self.get_dataset_infos(dataset_hub_id, revision or DEFAULT_DATASET_REVISION, recursive='True', endpoint=endpoint)
+            dataset_info = self.get_dataset_infos(
                dataset_hub_id,
                revision or DEFAULT_DATASET_REVISION,
                recursive='True',
                endpoint=endpoint
            )
            files = dataset_info.get('Data', {}).get('Files', [])
            file_list = [f['Path'] for f in files]
@@ -2166,16 +2176,16 @@ class HubApi:
            try:
                if repo_type == REPO_TYPE_MODEL:
                    owner, repo_name = repo_id.split('/')
-                    url = f"{endpoint}/api/v1/models/{owner}/{repo_name}/file"
+                    url = f'{endpoint}/api/v1/models/{owner}/{repo_name}/file'
                    params = {
-                        "Revision": revision or DEFAULT_MODEL_REVISION,
+                        'Revision': revision or DEFAULT_MODEL_REVISION,
-                        "FilePath": path
+                        'FilePath': path
                    }
                else:
                    owner, dataset_name = repo_id.split('/')
-                    url = f"{endpoint}/api/v1/datasets/{owner}/{dataset_name}/repo"
+                    url = f'{endpoint}/api/v1/datasets/{owner}/{dataset_name}/repo'
                    params = {
-                        "FilePath": path
+                        'FilePath': path
                    }
                r = self.session.delete(url, params=params, cookies=cookies, headers=headers)
                raise_for_http_status(r)
@@ -2193,7 +2203,6 @@ class HubApi:
        }
 class ModelScopeConfig:
    path_credential = expanduser(DEFAULT_CREDENTIALS_PATH)
    COOKIES_FILE_NAME = 'cookies'
--- a/modelscope/hub/mcp/api.py
+++ b/modelscope/hub/mcp/api.py
@@ -1,13 +1,15 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
 from typing import Optional
 import requests
 from typing import Any, Dict, Optional
 from modelscope.hub.errors import raise_for_http_status
-from .types import McpFilter, validate_mcp_filter, validate_filter_params
+from modelscope.utils.logger import get_logger
 logger = get_logger()
 # MCP API path suffix
-MCP_API_PATH = "/openapi/v1"
+MCP_API_PATH = '/openapi/v1'
 class McpApi:
@@ -27,15 +29,13 @@ class McpApi:
        self.builder_headers = base_api.builder_headers
        self.headers = base_api.headers
-    def get_mcp_servers(
+    def get_mcp_servers(self,
        self,
                        token: str,
                        filter: dict = None,
                        page_number: int = 1,
                        page_size: int = 20,
-        search: str = "",
+                        search: str = '',
-        endpoint: Optional[str] = None
+                        endpoint: Optional[str] = None) -> dict:
    ) -> dict:
        """
        Get MCP server list
@@ -59,15 +59,15 @@ class McpApi:
        """
        if not endpoint:
            endpoint = self.endpoint
-        url = f"{endpoint}/mcp/servers"
+        url = f'{endpoint}/mcp/servers'
        headers = self.builder_headers(self.headers)
-        headers["Authorization"] = f"Bearer {token}"
+        headers['Authorization'] = f'Bearer {token}'
        body = {
-            "filter": filter or {},
+            'filter': filter or {},
-            "page_number": page_number,
+            'page_number': page_number,
-            "page_size": page_size,
+            'page_size': page_size,
-            "search": search
+            'search': search
        }
        r = self.session.put(url, headers=headers, json=body)
@@ -76,27 +76,26 @@ class McpApi:
        try:
            resp = r.json()
        except requests.exceptions.JSONDecodeError:
-            print("JSON parsing failed")
+            logger.error(
-            print("Response content:", r.text)
+                f'Failed to parse JSON response from MCP server list API: {r.text}'
            )
            raise
-        data = resp.get("data", {})
+        data = resp.get('data', {})
-        mcp_server_list = data.get("mcp_server_list", [])
+        mcp_server_list = data.get('mcp_server_list', [])
-        server_brief_list = [
+        server_brief_list = [{
-            {"name": item.get("name", ""), "description": item.get("description", "")}
+            'name': item.get('name', ''),
-            for item in mcp_server_list
+            'description': item.get('description', '')
-        ]
+        } for item in mcp_server_list]
        return {
-            "mcp_server_list": mcp_server_list,
+            'mcp_server_list': mcp_server_list,
-            "total_count": data.get("total_count", 0),
+            'total_count': data.get('total_count', 0),
-            "server_brief_list": server_brief_list
+            'server_brief_list': server_brief_list
        }
-    def get_mcp_server_operational(
+    def get_mcp_server_operational(self,
        self,
                                   token: str,
-        endpoint: Optional[str] = None
+                                   endpoint: Optional[str] = None) -> dict:
    ) -> dict:
        """
        Get user-hosted MCP server list
@@ -112,40 +111,38 @@ class McpApi:
        """
        if not endpoint:
            endpoint = self.endpoint
-        url = f"{endpoint}/mcp/servers/operational"
+        url = f'{endpoint}/mcp/servers/operational'
        headers = self.builder_headers(self.headers)
-        headers["Authorization"] = f"Bearer {token}"
+        headers['Authorization'] = f'Bearer {token}'
        r = self.session.get(url, headers=headers)
        raise_for_http_status(r)
        print(r.status_code)
        try:
            resp = r.json()
        except requests.exceptions.JSONDecodeError:
-            print("JSON parsing failed")
+            logger.error(
-            print("Response content:", r.text)
+                f'Failed to parse JSON response from MCP server operational API: {r.text}'
            )
            raise
-        data = resp.get("data", {})
+        data = resp.get('data', {})
-        mcp_server_list = data.get("mcp_server_list", [])
+        mcp_server_list = data.get('mcp_server_list', [])
-        server_brief_list = [
+        server_brief_list = [{
-            {"name": item.get("name", ""), "description": item.get("description", "")}
+            'name': item.get('name', ''),
-            for item in mcp_server_list
+            'description': item.get('description', '')
-        ]
+        } for item in mcp_server_list]
        return {
-            "mcp_server_list": mcp_server_list,
+            'mcp_server_list': mcp_server_list,
-            "total_count": data.get("total_count", 0),
+            'total_count': data.get('total_count', 0),
-            "server_brief_list": server_brief_list
+            'server_brief_list': server_brief_list
        }
-    def get_mcp_server_special(
+    def get_mcp_server_special(self,
        self,
                               server_id: str,
                               token: str,
                               get_operational_url: bool = False,
-        endpoint: Optional[str] = None
+                               endpoint: Optional[str] = None) -> dict:
    ) -> dict:
        """
        Get specific MCP server details
@@ -160,10 +157,12 @@ class McpApi:
        """
        if not endpoint:
            endpoint = self.endpoint
-        url = f"{endpoint}/mcp/servers/{server_id}"
+        url = f'{endpoint}/mcp/servers/{server_id}'
        headers = self.builder_headers(self.headers)
-        headers["Authorization"] = f"Bearer {token}"
+        headers['Authorization'] = f'Bearer {token}'
-        params = {"get_operational_url": str(get_operational_url).lower()} if get_operational_url else {}
+        params = {
            'get_operational_url': str(get_operational_url).lower()
        } if get_operational_url else {}
        r = self.session.get(url, headers=headers, params=params)
        raise_for_http_status(r)
@@ -171,7 +170,8 @@ class McpApi:
        try:
            resp = r.json()
        except requests.exceptions.JSONDecodeError:
-            print("JSON parsing failed")
+            logger.error(
-            print("Response content:", r.text)
+                f'Failed to parse JSON response from MCP server special API: {r.text}'
            )
            raise
-        return resp.get("data", {}) 
+        return resp.get('data', {})
--- a/modelscope/msdatasets/utils/hf_datasets_util.py
+++ b/modelscope/msdatasets/utils/hf_datasets_util.py
@@ -3,6 +3,7 @@
 # Copyright 2020 The HuggingFace Datasets Authors and the TensorFlow Datasets Authors.
 import importlib
 import contextlib
 import inspect
 import os
 import warnings
 from functools import partial
@@ -17,9 +18,9 @@ from datasets import (BuilderConfig, Dataset, DatasetBuilder, DatasetDict,
                      IterableDataset, IterableDatasetDict, Split,
                      VerificationMode, Version, config, data_files)
 from datasets.data_files import (
-    FILES_TO_IGNORE, DataFilesDict, DataFilesList, EmptyDatasetError,
+    FILES_TO_IGNORE, DataFilesDict, EmptyDatasetError,
    _get_data_files_patterns, _is_inside_unrequested_special_dir,
-    _is_unrequested_hidden_file_or_is_inside_unrequested_hidden_dir, get_metadata_patterns, sanitize_patterns)
+    _is_unrequested_hidden_file_or_is_inside_unrequested_hidden_dir, sanitize_patterns)
 from datasets.download.streaming_download_manager import (
    _prepare_path_and_storage_options, xbasename, xjoin)
 from datasets.exceptions import DataFilesNotFoundError, DatasetNotFoundError
@@ -37,7 +38,6 @@ from datasets.load import (
    init_dynamic_modules)
 from datasets.naming import camelcase_to_snakecase
 from datasets.packaged_modules import (_EXTENSION_TO_MODULE,
                                       _MODULE_SUPPORTS_METADATA,
                                       _MODULE_TO_EXTENSIONS,
                                       _PACKAGED_DATASETS_MODULES)
 from datasets.utils import file_utils
@@ -625,38 +625,29 @@ def get_module_without_script(self) -> DatasetModule:
        path=self.name,
        download_config=self.download_config,
    )
-    data_files = data_files.filter_extensions(
+
-        _MODULE_TO_EXTENSIONS[module_name])
+    if hasattr(data_files, 'filter'):
-    # Collect metadata files if the module supports them
+        data_files = data_files.filter(extensions=_MODULE_TO_EXTENSIONS[module_name])
-    supports_metadata = module_name in _MODULE_SUPPORTS_METADATA
+    else:
-    if self.data_files is None and supports_metadata:
+        data_files = data_files.filter_extensions(_MODULE_TO_EXTENSIONS[module_name])
        try:
            metadata_patterns = get_metadata_patterns(
                base_path, download_config=self.download_config)
        except FileNotFoundError:
            metadata_patterns = None
        if metadata_patterns is not None:
            metadata_data_files_list = DataFilesList.from_patterns(
                metadata_patterns,
                download_config=self.download_config,
                base_path=base_path)
            if metadata_data_files_list:
                data_files = DataFilesDict({
                    split: data_files_list + metadata_data_files_list
                    for split, data_files_list in data_files.items()
                })
    module_path, _ = _PACKAGED_DATASETS_MODULES[module_name]
    if metadata_configs:
-        builder_configs, default_config_name = create_builder_configs_from_metadata_configs(
+
-            module_path,
+        supports_metadata = module_name in {'imagefolder', 'audiofolder'}
-            metadata_configs,
+        create_builder_signature = inspect.signature(create_builder_configs_from_metadata_configs)
-            base_path=base_path,
+        in_args = {
-            supports_metadata=supports_metadata,
+            'module_path': module_path,
-            default_builder_kwargs=default_builder_kwargs,
+            'metadata_configs': metadata_configs,
-            download_config=self.download_config,
+            'base_path': base_path,
-        )
+            'default_builder_kwargs': default_builder_kwargs,
            'download_config': self.download_config,
        }
        if 'supports_metadata' in create_builder_signature.parameters:
            in_args['supports_metadata'] = supports_metadata
        builder_configs, default_config_name = create_builder_configs_from_metadata_configs(**in_args)
    else:
        builder_configs: List[BuilderConfig] = [
            import_main_class(module_path).BUILDER_CONFIG_CLASS(
--- a/requirements/datasets.txt
+++ b/requirements/datasets.txt
@@ -1,6 +1,6 @@
 addict
 attrs
-datasets>=3.0.0,<=3.2.0
+datasets>=3.0.0,<=3.6.0
 einops
 oss2
 Pillow
--- a/requirements/framework.txt
+++ b/requirements/framework.txt
@@ -1,6 +1,6 @@
 addict
 attrs
-datasets>=3.0.0,<=3.2.0
+datasets>=3.0.0,<=3.6.0
 einops
 Pillow
 python-dateutil>=2.1