如何正确批量下载 ArcGIS 页面中动态生成的 .zip 文件链接

发布时间 - 2026-02-02 00:00:00    点击率:

本文详解为何直接用 beautifulsoup 解析 arcgis 页面无法获取 `.zip` 下载链接,并提供基于其官方 rest api 的可靠替代方案,含完整可运行代码与关键注意事项。

ArcGIS Online 页面(如 arcgis.com/home/item.html)通常不直接在 HTML 源码中硬编码下载链接,而是通过 JavaScript 动态加载数据(例如从 FeatureServer 查询结果中提取 ContoursURL 字段)。因此,你原始代码中使用 BeautifulSoup 解析静态 HTML 并查找 标签的方式必然失败——页面源码里根本不存在这些 .zip 链接,导致 soup.find_all("a", href=True) 返回空列表,控制台自然打印空白。

正确的做法是绕过前端渲染,直连 ArcGIS 的后端 REST API,按逻辑链路分步获取真实资源 URL:

  1. 解析页面 ID:从目标 URL 提取 id 参数(如 a5248eb6412648ec8cbd46838adb86e9);
  2. 查询组织信息:调用 /sharing/rest/content/items/{id} 获取 orgId;
  3. 构造 FeatureServer 查询地址:结合 orgId 和已知服务路径(需根据实际页面结构推断或检查浏览器开发者工具 Network 面板);
  4. 发起查询请求:传入标准参数(如 where=1=1, outFields=*),返回 JSON 格式特征数据;
  5. 提取 ZIP 链接字段:遍历 data["features"],读取每个要素的 attributes["ContoursURL"](字段名依实际 API 响应而定)。

以下是整合优化后的完整可执行脚本(含错误处理与下载功能):

import os
import re
import requests
from urllib.parse import urlparse

def get_id(url):
    """从 ArcGIS URL 中安全提

取 item ID""" match = re.search(r"id=([a-f0-9]+)", url) if not match: raise ValueError("Invalid ArcGIS URL: missing 'id' parameter") return match.group(1) def download_zip_files(zip_urls, download_dir="downloads"): """批量下载 ZIP 文件到指定目录""" os.makedirs(download_dir, exist_ok=True) for i, url in enumerate(zip_urls, 1): try: # 生成安全文件名(避免非法字符) parsed = urlparse(url) filename = os.path.basename(parsed.path) or f"file_{i}.zip" filepath = os.path.join(download_dir, filename) print(f"[{i}/{len(zip_urls)}] Downloading: {filename}") with requests.get(url, stream=True) as r: r.raise_for_status() with open(filepath, "wb") as f: for chunk in r.iter_content(chunk_size=8192): f.write(chunk) print(f"✓ Saved to: {filepath}") except Exception as e: print(f"✗ Failed to download {url}: {e}") # === 主流程 === base_url = "https://www.arcgis.com/home/item.html?id=a5248eb6412648ec8cbd46838adb86e9#data" id_ = get_id(base_url) # Step 1: 获取 orgId api_url = f"https://www.arcgis.com/sharing/rest/content/items/{id_}?f=json" response = requests.get(api_url) response.raise_for_status() data = response.json() org_id = data.get("orgId") if not org_id: raise RuntimeError("Failed to retrieve 'orgId' from ArcGIS item metadata") # Step 2: 构造 FeatureServer 查询 URL(此处为示例路径,实际需根据页面 Network 面板确认) feature_service_url = f"https://services1.arcgis.com/{org_id}/arcgis/rest/services/Statewide_Contours/FeatureServer/0/query" # Step 3: 发起查询(注意:参数需匹配服务实际支持的字段) params = { "f": "json", "where": "1=1", "returnGeometry": "false", "outFields": "*", "resultOffset": "0", "resultRecordCount": "1000", # 避免单次请求过大,可分页处理 "cacheHint": "true" } response = requests.get(feature_service_url, params=params) response.raise_for_status() data = response.json() if "features" not in data: raise RuntimeError(f"No features found in API response. Response: {data}") # Step 4: 提取所有 ZIP 链接(字段名需根据实际响应调整) zip_urls = [] for feature in data["features"]: attrs = feature.get("attributes", {}) url = attrs.get("ContoursURL") # ⚠️ 关键:此字段名必须与 API 实际返回一致! if url and url.lower().endswith(".zip"): zip_urls.append(url) print(f"\n✅ Found {len(zip_urls)} .zip URLs:") for i, url in enumerate(zip_urls[:5], 1): # 仅显示前5条预览 print(f" {i}. {url}") if len(zip_urls) > 5: print(f" ... and {len(zip_urls)-5} more") # Step 5: 执行下载(取消注释下一行启用下载) # download_zip_files(zip_urls, download_dir="ks_contours_zips")

关键注意事项:

  • ? 字段名验证:"ContoursURL" 是本例中的字段名,必须通过浏览器开发者工具 → Network → 查看实际 API 响应 JSON 结构确认,不同数据集字段名可能为 "DownloadURL"、"FileLink" 等;
  • ? 服务路径推断:FeatureServer/0/query 路径需根据页面实际加载的服务确定(常见于 Network 标签中以 query? 结尾的请求);
  • ⚙️ 分页处理:若数据量大(>1000 条),需循环请求 resultOffset + resultRecordCount 实现分页;
  • ?️ 权限与限流:部分 ArcGIS 服务需 token 认证或存在请求频率限制,生产环境建议添加重试机制与延时;
  • ? 路径安全:Windows 路径中避免空格(如原代码 "C: My Drive" 应改为 "C:/MyDrive" 或使用原始字符串 r"C:\MyDrive")。

通过 API 直连方式,你将获得稳定、可预测且可扩展的批量下载能力——这正是现代 Web 数据采集的正确范式。


# javascript  # java  # html  # js  # 前端  # json  # windows  # 编码  # 浏览器  # app  # 工具  # 后端  # ai  # beautifulsoup  # Token  # 字符串  # 循环  # href  # arcgis  # 字段名  # 分页  # 下载链接  # 加载  # 遍历  # 不存在  # 你将  # 过大  # 能为  # 量大 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: javascript和jQuery中的AJAX技术详解【包含AJAX各种跨域技术】  Laravel怎么创建控制器Controller_Laravel路由绑定与控制器逻辑编写【指南】  大连 网站制作,大连天途有线官网?  Laravel如何处理表单验证?(Requests代码示例)  如何在阿里云高效完成企业建站全流程?  如何为不同团队 ID 动态生成多个独立按钮  网站制作壁纸教程视频,电脑壁纸网站?  深圳网站制作培训,深圳哪些招聘网站比较好?  Laravel如何使用Guzzle调用外部接口_Laravel发起HTTP请求与JSON数据解析【详解】  大学网站设计制作软件有哪些,如何将网站制作成自己app?  Win11怎么查看显卡温度 Win11任务管理器查看GPU温度【技巧】  如何在IIS中配置站点IP、端口及主机头?  个人网站制作流程图片大全,个人网站如何注销?  网站制作公司哪里好做,成都网站制作公司哪家做得比较好,更正规?  Laravel如何实现多表关联模型定义_Laravel多对多关系及中间表数据存取【方法】  千库网官网入口推荐 千库网设计创意平台入口  如何在 Go 中优雅地映射具有动态字段的 JSON 对象到结构体  悟空浏览器如何设置小说背景色_悟空浏览器背景色设置【方法】  Laravel定时任务怎么设置_Laravel Crontab调度器配置  如何在云服务器上快速搭建个人网站?  教学论文网站制作软件有哪些,写论文用什么软件 ?  Laravel如何升级到最新的版本_Laravel版本升级流程与兼容性处理  如何获取上海专业网站定制建站电话?  魔毅自助建站系统:模板定制与SEO优化一键生成指南  公司门户网站制作流程,华为官网怎么做?  如何在服务器上三步完成建站并提升流量?  Mybatis 中的insertOrUpdate操作  Laravel中的Facade(门面)到底是什么原理  软银砸40亿美元收购DigitalBridge 强化AI资料中心布局  Laravel如何发送系统通知?(Notification渠道示例)  活动邀请函制作网站有哪些,活动邀请函文案?  JS中对数组元素进行增删改移的方法总结  三星、SK海力士获美批准:可向中国出口芯片制造设备  关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)  开心动漫网站制作软件下载,十分开心动画为何停播?  如何在 Pandas 中基于一列条件计算另一列的分组均值  专业企业网站设计制作公司,如何理解商贸企业的统一配送和分销网络建设?  Windows10如何删除恢复分区_Win10 Diskpart命令强制删除分区  Microsoft Edge如何解决网页加载问题 Edge浏览器加载问题修复  零基础网站服务器架设实战:轻量应用与域名解析配置指南  音响网站制作视频教程,隆霸音响官方网站?  北京企业网站设计制作公司,北京铁路集团官方网站?  Laravel怎么实现模型属性的自动加密  Laravel事件监听器怎么写_Laravel Event和Listener使用教程  东莞专业网站制作公司有哪些,东莞招聘网站哪个好?  Win11搜索栏无法输入_解决Win11开始菜单搜索没反应问题【技巧】  Laravel如何实现本地化和多语言支持?(i18n教程)  如何在自有机房高效搭建专业网站?  Laravel如何生成PDF或Excel文件_Laravel文档导出工具与使用教程  Linux后台任务运行方法_nohup与&使用技巧【技巧】