DA@IDSM 是一个高效的数据存储分析平台。截止2022年4月,平台共存储了近 32 万条云盘订阅信息以及近 16 亿条云盘负载信息。平台使用 Elasticsearch 提供基本的查询服务,并结合 Django + Nginx 实现的 API 接口来提供常用的数据分析服务。
如何使用
在连接 HUST 校园网之后,打开浏览器输入下面的 url:
1 | http://222.20.96.147:49083/api/subscription/diskinfo?cluster_id=20_1360900&buss_name=游戏&disk_type=data&all=true&limit=3 |
它将返回如下信息(敏感信息已隐藏):
1 | { |
解析:222.20.96.147 为实验室服务器网关地址, 49083 为本数据平台 API
接口的端口号。该请求返回仓库号为 20_1360900
、 磁盘类型为
data
、业务标签中含有 「游戏」字段的前三个云盘订阅信息。
它能做些什么
数据平台支持快速的时序数据处理,目前平台内已经支持对海量云盘负载数据的分析计算。
如果你需要经常写一些分析程序来处理数据,或者生成一些数据分析图像,那么这个平台将非常有用。同时,这些数据也使得多人共享更为方便。
总体结构
目前平台的总体结构如下图所示:
云盘订阅信息是非时序数据,放在 MySQL 中,云盘负载信息是时序数据,放在 ElasticSearch 中。常用的数据处理需求由 Django 实现。