备案 控制台
开发者社区 云存储 文章 正文

【2019 云栖大会】对象存储海量数据管理和应用最佳实践

本文涉及的产品
对象存储 OSS,20GB 3个月
推荐场景:
基于PAI-EAS挂载OSS部署AIGC服务 ossutil工具管理OSS
日志服务 SLS,月写入数据量 50GB 1个月
文件存储 NAS,50GB 3个月
简介: 2019 云栖大会"下一代云存储技术与最佳实践专场",分享“对象存储海量数据管理和应用最佳实践” 议题,重点介绍对象存储 OSS 的架构原理、数据管理、最佳实践。

导语

今年参加了 2019 云栖大会 下一代云存储技术与最佳实践专场,分享了 “对象存储海量数据管理和应用最佳实践” 议题,重点介绍对象存储 OSS 的架构原理、数据管理、最佳实践,现整理相关内容和大家探讨。

一、企业数据存储的挑战和需求

数据是企业的生命线,企业的数据存储也普遍面临着 3 个挑战:

  • 数据快速增长。根据 IDC 统计全球数据量在 2020 年将高达 40,000EB , 人均 5TB。
  • 数据不丢不错。Gartner 报告经历灾难系统停运的公司有 40% 立即倒闭,剩下的 33% 两年内破产。
  • 法规遵从。根据行业合规要求,需要长期保留的数据越来越多、越来越严格,如金融双录需保存 6 个月、证券投资警示材料与录像需保存 20 年、会计档案需保存 10~30 年,且不可修改。

通过大量的企业交流,从中总结了 5 个关键需求,如下图所示:

关键需求.png

  • 可靠性,指在硬盘、服务器、网络等故障情况下,以及火灾、地震、洪水等灾害时,可以有效防止数据丢失,OSS 通过跨机机柜、机房、区域的数据冗余,实现了 12 个 9 的高可靠性
  • 可用性,指在服务器故障时、光线挖断时,可自动切换实现业务连续性,OSS 通过容错设计,实现了 99.995% 的可用性
  • 安全合规,指数据访问的认证、授权、加密、以及行业法规遵从,OSS 支持多项合规认证,比如 KMS 加密、WORM 认证等。
  • 自动扩容,能够自适应业务数据快速增长,避免出现存储空间被打爆,OSS 通过业界领先的资源供应链管理、软件分布式弹性设计,实现 百 EB 级空间、百万亿级对象规模 能力。
  • 自动生命管理,支持冷热数据的管理,优化 TCO,OSS 提供标准、低频、归档存储,并自动化迁移,优化存储使用成本。

二、对象存储技术介绍

2.1 OSS 技术演进

OSS 实现上述业界领先的核心竞争力,并不是一蹴而就,而是通过长期技术积累实现,如下是技术演进图:

演进.png

OSS 随着飞天操作系统发展而演进,它立项于 2008 年,和盘古一起起航;开发完成后,先在阿里巴巴集团内打磨,2011 年正式在阿里云商业化发布。此后,每年都在不断发布新功能、在更多可用区开服、满足客户关键应用需求。
今年是 OSS 的大年,内核演进到第二代(OSS 2.0)

  • 硬件上,引入了 貔貅 3 存储新机型,从介质、服务器、网络等层面采用了业界领先的技术,提供了极具竞争力的性价比。
  • 软件上,切换了 盘古 2.0 引擎,提供更强大的分布式扩展能力。

同时,今年发布了 9 大新特性,以满足企业客户的需求。

2.1.1 OSS 同城区域冗余存储新特性

首先,介绍最重要的 同城区域冗余存储 特性,如下图所示:

同城多区域.png

为了提高可靠性和可用性,它实现了跨 Location 的纠删码技术,在任意一个 Location 故障后,数据依然能够访问和存储。通过对海量的开发运维数据分析,得到最优的 Location 间距离、带宽设计,防止 Location 发生故障、灾难,避免出现数据丢失或者业务中断。最终,实现了 12 个 9 的高可靠性,99.995% 的高可用性,并且在 标准、低频存储类型 都可以使用。

2.1.2 其他新功能

同时,2019 年至今发布了如下新功能:

  • ZIP 包解压。实现上传 ZIP 包自动解压功能,它 同函数计算结合,提供图形化界面,简单易用。
  • 智能数据处理。包含 文档预览(支持近 50 种格式文档格式)、人脸识别 AI 处理、标签识别 AI 处理功能。
  • 多版本。提供数据按版本保存功能,可以保护数据避免数据被误删,并且通过读写版本分离提高一致性。
  • 标签。提供 存储空间标签、 对象标签 功能,并且结合生命周期、安全策略一起使用。
  • 授权管理。图形化 Bucket Policy 管理,可授权其他用户访问 OSS,并配置基于 访问 IP 的访问管理。
  • 安全提升。提供了 客户端加密、日志透明化、 KMS 加密支持 BYOK 增强能力。
  • 单链接限速。实现了单链接流控,限制该链接的上传、下载、拷贝,可配置范围 100KB/s~100MB/s
  • 传输加速。利用 OSS 底层的全球网络,实现就近传输,最高可加速 4 倍,采用 CNAME 自定义加速区域。

2.2 OSS 架构原理

OSS 能够在巨大的数据体量下更新内核、并发布大量新特性,无疑就是飞行中更换飞机引擎,这需要优秀的架构来支撑,如下是 OSS 的架构原理图:

架构.png

数据平面的核心:包含 盘古分布式存储 底座,有巢分布式KV 构建的对象存储元数据,对象存储 后端服务;在此之上,就可以通过 HTTP 服务端网络负载均衡 提供服务。

运维管控面的核心:主要是 赤骥 DEVOPS 平台,它提供了CI/CD、灰度发布/升级、下限维修、监控、日志、运营大屏等丰富的功能。

该架构实现了 3 个亮点:

  • Global的分布式能力。提供了分布式数据复制功能,实现智能元数据负载均衡,零错误扩容、升级、迁移,以及全球的跨区域复制能力。
  • 强一致性模型。对齐 PAXOS 复制协议实现强一致的分布式元数据处理,数据修改立即可见、无中间态临时数据,和最终一致性系统相比仍能保证性能领先。
  • 智能开发运维平台。实现多维度的数据可视化,全面的监控报警,智能日志分析,全面的白屏运维。

通过 十多年来稳定的架构设计,保证了系统的快速演进,结合智能开发运维平台提高效率,实现人效是传统开发、运维方式的 3~5 倍。

2.3 OSS 智能数据处理框架

通过稳定的架构和功能开发,OSS 存储了海量的数据,基于数据做智能分析、挖掘数据价值,将是存储未来技术的重要趋势。为此,OSS 通过智能数据分析处理框架,有效卸载算法实现高效数据处理,如下图所示:

分析处理框架.png

核心思想是构建计算框架,并将它和存储关联。为此,在对象存储最近的位置,部署计算引擎,实现就近访问(无需传输数据出 OSS 存储系统,极大的降低网络带宽开销)。然后,在对象存储的数据路径上和计算框架打通,实现关联。为了支持种类丰富的数据分析处理,设计了智能的调度框架,其特点是:

  • 底层支持 CPU、GPU、FPGA 芯片,匹配算法适配需求。
  • 抽象机器为物理机、虚拟机、容器,从而为软件屏蔽硬件差异。
  • 支持 Linux、Windows 运行环境,并能自动部署各类卸载的算子。
  • 通过集群调度系统提供离线请求、实时请求的灵活调度,满足业务对调度对需求。

通过该框架,只需要认证卸载的算子,就可以快速部署起来,并基于框架的集群化调度能力快速服务化,并提供类似阿里云服务的 SLA 能力。它的亮点是:降低带宽开销(近数据处理)、Serverless 体验 (降低运维难度) 、简单易用(基于 URL 使用方式),目前提供如下 4 类算法卸载:

  • 图片处理。通过使用 FPGA 加速,和自主搭建 CPU 方式相比,单机的吞吐率可提升 6 倍,时延下降 80%-90%,整体带宽优化可以达到 5 倍。
  • 视频处理。通过此方法,无需搭建多媒体流服务,就可以让视频处理卸载到对象存储,并切还能支持音频流,在时延要求不高时还可做直播。
  • SQL 卸载。和外部大数据平台实现 SQL 方式(OSS 未卸载)相比,时延减少到原来 1/12,带宽最多减少 99%
  • 文档预览。目前支持近 50 种文档格式的预览,由于和 OSS 天然结合,从而也完全复用了 OSS 的 SLA 能力(大于 99.9%),并享受 OSS 的安全设计。

三、对象存储最佳实践

通过技术架构原理介绍, 基本掌握了 OSS 相关功能,本节重点讲解 OSS 的数据管理和最佳实践。

3.1 海量数据管理

3.1.1 迁移数据管理

希望上云使用好对象存储 OSS,先从迁移数据的管理开始;目前,OSS 迁移数据包括 2 大类方法:

  • 闪电立方服务,包含如下子类:

    • 在线迁移服务,将第三方数据轻松迁移至阿里云对象存储 OSS,也可以在对象存储 OSS 之间进行灵活的数据迁移。
    • 离线迁移(闪电立方设备),它是一种 PB 级别端到端的离线数据迁移服务,能够使用安全设备将大量数据传入阿里云。2018 年迁移 115 网盘时,因为数据量有百 PB 量级、而且要求迁移时间短,所以选择离线迁移的闪电立方设备形式。
  • 工具, 包括 ossimport、 ossutil、 hdfs2oss4emr、 OSS 镜像回源,它们都可以简单便捷的迁移数据。

在迁移数据时,要综合考虑 容量、带宽 选择迁移方法,数据迁移后要对比数据的一致性、保证数据全部被迁移成功,同时要结合应用的 易用性 集成上述方法的 API 或者工具。

3.1.2 数据空间管理

海量的数据需要做好组织,在数据空间管理上,建议先从如下 3 方面考虑:

  • 命名空间。要合理控制桶的数目,在使用静态网站托管功能时推荐 CNAME 绑定域名,对象名尽量散列、避免热点。
  • 目录模拟。对象存储不是文件系统,而是采用前缀模拟目录;OSSFS 封装的 POSIX 文件系统插件,受限于服务器操作系统 Linux 的 FUSE 架构,场景有限,不能提供高性能、丰富的文件系统功能;如果有大量重命名目录操作,对象存储是不合适的,建议在上层封装元数据实现。
  • 对象管理。如果桶的对象太多、超过十亿,尽量少执行 List 操作;而是采用对象清单来获取对象列表,便于应用的查询;同时,也可以利用对象清单实现对象的一致性检查。

3.1.2 数据空间管理

海量的数据高效组织并存储后,要在运行上保证业务连续性,建议从如下 4 个方向考虑:

  • 提高可靠性。开启同城区域容灾,提高单区域故障后的容错能力;使用跨区域复制,容忍区域级故障;打开多版本,降低误删除数据影响。
  • 提高可用性。应用在多区域创建桶、同时并行访问使用,跟踪各区域时延、成功率,根据应用时延、成功率要求控制切换,在遇到请求错误时进行幂等回退处理。
  • 流量控制。国内单用户、单区域缺省流量配额为 10Gbps,如需要更高带宽请工单提升;在请求返回流控错误码时,根据带宽能力合理设置幂等回退;同时,支持单链接限速,帮助应用合理控制客户端流量。
  • 安全管理。使用 RAM 控制授权用户访问、并设置访问策略,控制访问的 IP 来源,使用数据加密和日志审计。

3.2 应用最佳实践

基于OSS的架构、特性、数据管理建议,介绍 3 个近期最具代表意义的应用最佳实践:

方案.png

3.2.1 基因测序解决方案

该方案的客户有两个主要测序中心,采用专线连接到阿里云就近区域。本地 IDC 具备一定计算和存储能力,用于处理部分业务,将处理数据归档到云上,同时利用云上的 K8S、批量计算、ECS 等做弹性大规模计算扩展。
它解决了 客户 3 个痛点:专线网络和 OSS 通信、直传数据,K8S & 批量计算 和 OSS 对接、直接计算,基于 OSS 的生命周期管理自动归档数据、降低成本。

3.2.2 人工智能自动驾驶训练应用解决方案

在该方案中,云端资源实时响应业务需求,支撑了业务快速迭代。快速使用阿里云提供的新技术、新产品,享受技术红利。CPFS 和 OSS 结合专为训练优化性能和成本,提升训练速度,释放GPU的算力,使得整个 AI 计算平台效率更高。
该方案 体现了3个优势:弹性资源供给,大带宽的吞吐能力,整体优化的 TCO。

3.2.3 视频监控应用解决方案

此方案实现了视频监控统一存储,通过部署网关、监控接入平台、混合云存储阵列,成功对接五家不同类型的摄像头设备,无缝完成摄像头对接迁移,实现云上、云下的统一平台。该平台可弹性承载 10000+ 设备接入,后续接入更多摄像头时,可弹性扩展计算资源,而不影响原有业务。同时,本地混合云存储使用云缓存技术,仅保存近期几天的数据,而将海量的近百天视频文件全量备份至云端,完全满足行业法规要求,而且还可以利用 OSS 的智能数据处理功能进行视频内容的分析。
该方案 满足了客户 3 个典型需求:视频监控统一存储,数据高可靠、持久保存支撑行业法规,弹性资源按需供给、满足业务增长需求。

当然,OSS还有更多应用解决方案的最佳实践,详细信息请参考 相关连接。

总结

构建业界领先的高可靠、高可用、易管理、安全合规的非结构化数据存储平台目标,是阿里云对象存储 OSS 不断超越自我的驱动力,未来 OSS 将持续演进发展,满足企业数据存储要求。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
罗庆超
目录
相关文章
真的很搞笑
|
2月前
|
监控 Serverless 测试技术
Serverless 应用引擎常见问题之生成的图片的oss地址配成自定义的域名如何解决
Serverless 应用引擎(Serverless Application Engine, SAE)是一种完全托管的应用平台,它允许开发者无需管理服务器即可构建和部署应用。以下是Serverless 应用引擎使用过程中的一些常见问题及其答案的汇总:
真的很搞笑
49 0
ftw2fzqaoykua
|
10月前
|
存储 弹性计算 安全
对象存储OSS快速上手——ossutil工具管理OSS
本实验是对象存储OSS进阶实验。通过本实验,用户可学会如何使用ossutil工具在Linux环境下用命令管理oss,完成文件上传下载等操作。
ftw2fzqaoykua
1798 0
三分钟热度的鱼
|
18天前
|
运维 Serverless 应用服务中间件
Serverless 应用引擎产品使用合集之关于OSS映射目录的大小限制,如何可以跳过
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
三分钟热度的鱼
156 3
Serverless 应用引擎产品使用合集之关于OSS映射目录的大小限制,如何可以跳过
宇宙超级无敌霸王龙
|
20天前
|
监控 Serverless 持续交付
阿里云云效产品使用问题之如何让流水线支持构建 flutter web 应用到 OSS
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
宇宙超级无敌霸王龙
48 4
1872970479780925
|
20天前
|
存储 安全 前端开发
APP管理后台OSS技术改造
旨在记录之前使用的上传文件是放在服务器的现在改成了oss更加高效管理
1872970479780925
31 2
扬流
|
2月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
扬流
56526 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
嘟嘟嘟嘟嘟嘟
|
1月前
|
运维 Java Serverless
Serverless 应用引擎产品使用合集之是否提供工具来给OSS配置HTTPS证书
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
嘟嘟嘟嘟嘟嘟
51 3
嘟嘟嘟嘟嘟嘟
|
1月前
|
存储 运维 Serverless
Serverless 应用引擎产品使用合集之如何访问相同地域的OSS
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
嘟嘟嘟嘟嘟嘟
44 1
真的很搞笑
|
2月前
|
运维 Java Serverless
Serverless 应用引擎产品使用之数据文件(例如sdxl)超过了OSS(对象存储服务)的单个上传大小限制(5GB)如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
真的很搞笑
61 1
以山向海
|
2月前
|
存储 编解码 监控
使用oss服务管理对象
使用oss服务管理对象
以山向海
33 1

云存储

热门文章

最新文章

  • 1
    5分钟搭建网站实时分析:Grafana+日志服务实战
  • 2
    如何打造千万级Feed流系统
  • 3
    OSS PostObject错误及排查
  • 4
    高并发IM系统架构优化实践
  • 5
    阿里技术女神的成长之路(有生活素颜照哦)
  • 6
    日志客户端(Logstash,Fluentd, Logtail)横评
  • 7
    日志服务数据加工:控制台操作
  • 8
    OSS跨域资源共享(CORS)错误及排除
  • 9
    开放分布式追踪(OpenTracing)入门与 Jaeger 实现
  • 10
    现代IM系统中消息推送和存储架构的实现
  • 1
    分享:根据批量的图片文件名,如何在电脑里一次性查找多张图片,复制并保存到新的文件夹
    11
  • 2
    ​邮件通知提醒邮箱警告设置教程及API代码示例
    9
  • 3
    几百T的视频、图片数据如何更有效地存储和管理?
    61
  • 4
    不用SMTP实现联系表单提交后发送邮件到指定邮箱
    11
  • 5
    ​不用SMTP实现联系表单提交后发送邮件到指定邮箱
    15
  • 6
    ​超简单实现联系表单Contact Form自动发送邮件
    15
  • 7
    ​一个PHP文件实现联系表单自动发送邮件
    15
  • 8
    共享资料下载,自动转PDF并添加隐形水印
    27
  • 9
    【工具分享】如何批量获取图片详细信息,如何把图片的属性信息包括文件路径、文件名、面积尺寸、创建日期、修改日期、水平垂直分辨率、文件大小等图片信息批量提取exel表格中
    165
  • 10
    ​邮件群发API,AOKSend关于Java示例代码
    20
  • 相关产品

  • 对象存储
    文档详情 产品详情
  • 相关课程

    更多
  • 对象存储OSS的云上可观测能力最佳实践
  • 基于FC+NAS部署SD服务,并从OSS模型库下载模型文件
  • 企业运维训练营之大数据EMR原理与实践
  • 阿里云大数据计算服务MaxCompute 使用教程
  • SaaS模式云数据仓库实战
  • 相关电子书

    更多
  • OSS运维进阶实战手册
  • 《OSS运维基础实战手册》
  • OSS运维基础实战手册
  • 相关实验场景

    更多
  • 使用OSS对象存储快速搭建个人网盘
  • 搭建基于OSS的图片分享网站
  • 如何将OSS数据导入至SLS中进行分析
  • 使用ECS和OSS搭建个人网盘
  • 使用函数计算打包下载OSS文件
  • 数据湖构建DLF快速入门
  • 下一篇
    通义千问API入门教程

    PHP网站源码大鹏标王宝安网站推广系统爱联百度关键词包年推广塘坑网站开发光明网络推广盐田网站设计永湖阿里店铺运营塘坑网站改版深圳seo惠州外贸网站制作南澳营销型网站建设沙井网站建设龙岗网站建设设计大芬百度标王坂田营销网站龙华网站优化民治百度标王沙井网站定制横岗网站设计永湖网站优化按天计费坪山百度竞价包年推广坑梓外贸网站制作福永模板制作南联如何制作网站罗湖阿里店铺运营南联关键词按天计费西乡百姓网标王横岗网站推广系统爱联网站优化软件罗湖网站改版歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化