如何布局开源技术之云数据管理

| 2019-05-17

本文将继续延续之前两篇文章(可以在文末查看链接),意在为在为开源云从业者道明开源与产业的发展方向及技术布局储备。前面两篇文章笔者从开源技术实践者的视角回顾云计算的发展演进历程,也大胆做出了未来云计算发展的预测,其中描绘了以5G加持的边缘计算将会得到快速发展的场景。
 
近期被微盟事件刷屏了,整个事件是因为数据被程序员删除,导致瘫痪。不过还好经过腾讯云众多大佬连夜抢救,最后官方宣布数据全部找回,并发布了赔付计划。
 
通过这个事情以及以前众多删库的教训,告诉我们数据的重要性以及数据备份的重要性。微盟官方发布的赔付计划中有这样一条信息比较吸引我,那就是数据安全保障计划,其中一共提到三点,首先是权限安全方面,第二多云异地备份,第三全面上云。(感兴趣的可以浏览查看:https://mp.weixin.qq.com/s/vZP5JHnjUk8GcwXahqflBw)
 
我们主要关注后面两点,多云异地备份和上云。目前大家都在谈数字化转型——似乎这又是一个不谈就会落伍的概念,数字化转型时代热词:上云、混合云、工业互联网、两化融合、边缘计算、智能制造等。数据是联通和实现这一切的基础,数据的重要性不言而喻。我在上一篇文章《云智能时代,开源软件的演进历程》中就提到过,未来需求场景将会以数据智能、技术产业场景协同为主。
 
 
今天咱们本文的重点探讨数据智能,IDC和Gartner的报告中均提到2022年,将有一半以上的企业数据在数据中心或云外创建和处理,而这些数据将在远程办公位置进行管理。这也就意味着在数字化转型过程中会遇到很多问题,比如前面说到的上云、混合云、边缘计算等场景就会涉及到数据的迁移、复制、同步等等,这时候就需要一个统一的多云数据管理平台,来统一管理本地与云端的数据,让数据流动起来,充分发挥数据的最大价值,从而完成数据的备份,融合,分析等。
 
笔者个人理解试图整理了下多云数据管理的优势及场景分享给大家,不恰当之处还请大家多多交流。
 
多云数据管理解决的问题
 
l 数据孤岛
 
l 数据融合、数据分析
 
l 数据灾备(备份、迁移、复制)
 
多云数据管理的优势
 
l 自由选择最佳云提供商
 
l 数据移动性无需担心云/存储提供商锁定
 
l 通过多个云架构分布的数据集增强数据可用性和持久性
 
l 减少成本,简化管理 
 
l 让数据流动起来,充分发挥数据的最大价值
 
多云数据管理的场景
 
l 异构存储管理
 
l 数据备份到云
 
l 长期数据归档到云
 
l 数据灾备到云
 
l 边缘计算
 
l 大数据分析
 
l AI模型训练
 
l 异地分支机构数据统一管理
 
广义和狭义多云数据管理平台
笔者经过调研认为多云数据管理平台分为广义与狭义,狭义多云数据管理平台主要包含多云对象存储管理及北向应用接口层,而广义多云数据管理平台不仅包含了狭义的多云数据管理部分,还应当包括本地异构存储管理、数据备份、迁移、运维管理(监控、安全、编排自动化等)以及北向应用接口层等。无论广义还是狭义,笔者认为存在即合理,选择哪种还要看具体场景需求,比如边缘计算仅仅狭义就好,比如数字化转型可能广义更为合适。
 
多云数据管理与云&存储的关系-相辅相成 未来趋势
随着云计算发展,越来越多的企业开始采用多云IT架构。根据RightScale “2019 State of the Cloud Report ”调查报告显示,在1000余家受访企业中有84%采用了多云战略。
 
而在多云应用中,企业又面临着云上云下数据统一管理,数据自由流动,以及跨云应用联动等问题。所以说多云数据管理为存储发展指明了方向,在多云时代,数据不仅仅是存,还要本地与云端交互,让数据流动起来,发挥最大价值。
 
举个例子来说明,比如大量数据需要上云,同时部分数据需要本地存储的场景,我们上篇文章提到过,边缘计算在进行云端传输时通过边缘节点进行一部分简单数据处理,当面对大量数据时,可以采用一定的压缩算法,提取到有用信息之后再进行传输,能够大量节省数据带宽的消耗。那这时候就需要一个本地的数据中转站来临时存放以及闲时回传到云端进行数据融合确保数据长期保存及未来分析。
 
再比如医院或者安防行业数据都有严格的保存时间限制,比如保存90天或3年以上,这时候为了节省成本同时符合行业发展趋势,完全可以把长期保存的数据放到云端进行数据的长期保存以及利用和挖掘分析。
 
看产业发展-布局未来开源技术储备
说完了产业发展以及一些概念之后,我们聊聊开源软件是如何适应产业发展的,Linux基金会顶级开源项目SODA,网上资料很少哈,其原来面目是OpenSDS但有些童鞋可能看了还是很晕,我简单快速的带你了解这个项目是干嘛的。
 
数据智能生命周期管理平台--Smart Open Data  Autonomy 
 
 
 
SODA主要解决的问题就是异构存储统一管理智能化运维,屏蔽底层存储统一接口对接北向应用;其次是数据生命周期管理,所谓数据生命周期管理是说从数据的产生到数据的跨云流动及挖掘利用等。(https://www.opensds.io/)
 
关于SODA安装部分感兴趣的可以阅读官网或者看我博客都可以。
 
(https://blog.51cto.com/devingeng/2474153)
 
对象存储网关Yig
 
Yig 是 S3 协议兼容的分布式对象存储系统。它脱胎于开源软件 Ceph ,在多年的商业化运维中, 针对运维中出现的问题和功能上的新需求,(https://github.com/journeymidnight/yig)重新实现了一遍 radosgw 用于解决以下问题:
 
Ø 单 bucket 下面文件数目的限制
 
Ø 大幅度提高小文件的存储能力
 
Ø bucket 下面文件过多时,list 操作延迟变高
 
Ø 后台 Ceph 集群在做 recovery 或者 backfill 时极大影响系统性能
 
Ø 提高大文件上传并发效率
 
Ø 同时也可以做对象存储迁移及未来增加针对seaweedfs的管理
 
 
 
至此云智能趋势与开源技术系列三篇文章到此结束,笔者从开源技术实践者的视角回顾云计算的发展演进历程,也大胆做出了未来云计算发展的预测,其中描绘了以5G加持的边缘计算将会得到快速发展的场景,也讲述了未来数据智能发展的趋势,意在为开源云从业者道明开源与产业的发展方向及技术布局储备,仅供参考,无法覆盖更多的开源话题,还请读者见谅。

编辑:航网科技 来源:腾讯云 本文版权归原作者所有 转载请注明出处

在线客服

微信扫一扫咨询客服


全国免费服务热线
0755-36300002

返回顶部