🚀 项目 2:云基础服务 (1) - 架构基石与网络构建
🎯 【学习目标】
TIP
- 知识目标:深入理解阿里云三大基石服务(VPC 专有网络、ECS 云服务器、RDS 云数据库)的架构逻辑,掌握其实际应用场景。
- 素质目标:引导学生认识云基础服务对于企业信息化及国家数字经济建设的重要意义;通过资源的动态分配与释放,培养节能减排的绿色计算环保意识。
- 技能目标:掌握企业级 VPC 网络的网段规划、交换机划分及对等连接(Peering Connection)的实操配置能力。
📖 【本课时概述】
在传统的物理机房中,服务器的上架、网线的拔插、路由器的配置需要耗费极长的人工周期。而在云计算时代,这一切被“软件定义”。本课时作为《云基础服务》的第 1 部分(共 4 课时),我们将用 2 个课时深入剖析 VPC、ECS、RDS 这三大公有云“基石”的核心原理。为了让大家彻底听懂,我们将结合丰富的场景模拟和对比分析,随后用另外 2 个课时带领大家在阿里云上亲手搭建一个完全隔离的虚拟企业网络(VPC)并配置跨网络对等连接。
🖥️ 界面参考

🧠 【知识准备】(架构理论深度解析与场景剖析)
2.1 虚拟专用网络服务 (Virtual Private Cloud, VPC)
在正式配置 VPC(专有网络)之前,我们需要先弄懂三个最基础的网络概念。大家可以把搭建云网络想象成“开发商圈地盖楼房”:
🍕 通俗比喻/原理解析:IP、域名与网段
- IP地址 (IP Address) —— 互联网上的“精确门牌号”
- 长什么样:通常由四个数字组成,中间用点隔开,比如
192.168.1.55。 - 作用:就像寄快递必须有准确地址一样,任何两台计算机想要互相发送图片或文字,底层的网络只认这个纯数字的 IP 门牌号。
- 长什么样:通常由四个数字组成,中间用点隔开,比如
- 域名 (Domain Name) —— 门牌号对应的“公司招牌”
- 为什么需要:人类很难记住像
121.40.15.6这样枯燥的数字门牌号。所以发明了域名,比如www.taobao.com。 - 工作原理:当你在浏览器输入域名时,网络中有一个叫 DNS 的“超级114查号台”,会自动帮你把这个好记的英文名字翻译成机器能懂的数字 IP 门牌号。
- 为什么需要:人类很难记住像
- 网段 (Subnet/CIDR) —— 圈起一个“封闭式私有小区”
- 怎么看:稍后在阿里云创建 VPC 时,你需要填一个网段,比如
192.168.0.0/16。 - 斜杠的作用:斜杠后面的数字(如 /16 或 /24)代表这个小区的“占地面积”或“最大容纳户数”。数字越小,小区的面积越大,能容纳的计算机(IP地址)就越多。
- 与VPC的关系:我们在云上建 VPC,其实就是去阿里云这块大空地上“圈地建小区”。划定网段,就是决定你的小区要圈多大面积。在这个私有小区里,你可以自由分配内部的门牌号,外人没有允许绝对进不来,非常安全。 :::
- 怎么看:稍后在阿里云创建 VPC 时,你需要填一个网段,比如
阿里云专有网络(VPC)是逻辑隔离的云上数据中心。为了彻底理解 VPC 的内部构造,我们可以把它想象成一座戒备森严的“企业专属办公大楼”。
🍕 场景化原理解析:VPC 就像一座“企业办公大楼”
- VPC (专有网络) 基石 = 办公大楼的地皮与围墙。你在阿里云上创建 VPC,就像是圈了一块只属于你们公司的地。外人(公网)进不来,不同公司的地盘(其他 VPC)也互不相通。
- CIDR 网段 网络 = 大楼的总门牌号池。比如你申请了
192.168.0.0/16,意味着这栋楼最多可以容纳 65536 个工位(内网 IP)。 - VSwitch (交换机/子网) 划分 = 大楼里的不同楼层/部门。为了安全和管理,我们不能让所有人混在一个大厅。我们会划分出“Web前端部门楼层(挂载面向用户的服务器)”和“数据库核心部门楼层(挂载 RDS,绝对禁止外网直接访问)”。每个楼层分到一部分门牌号(如
192.168.1.0/24)。 - vRouter (虚拟路由器) 路由 = 大楼的“前台接待与导航员”。它掌握着整栋大楼的地图(路由表),负责指引同一栋楼不同楼层之间(子网互通),或者大楼与外部世界(公网/对等连接)的通信请求。
⚠️ 生产环境极易错点:CIDR 网段冲突的灾难
在企业实际业务中,绝对不要随意使用 192.168.1.0/24 这种常见的家用路由器网段! 当企业发展壮大,需要通过 VPN 或物理专线将云上 VPC 与公司本地物理机房(IDC)打通时,如果云上和云下的网段相同(比如都是 192.168.1.x),路由器就会“迷路”,导致网络瘫痪。最佳实践:架构师在建网第一天,就必须从全局视角规划互斥的网段。
2.2 弹性计算服务 (Elastic Compute Service, ECS)
ECS 是公有云最核心的 IaaS(基础设施即服务)产品,提供卓越、稳定、可弹性扩展的计算资源。它不仅仅是一台“远程虚拟机”,而是通过底层虚拟化技术与分布式存储构筑的企业级计算底座。
1. 为什么叫“弹性 (Elastic)”?
传统的物理服务器采购周期长(审批、发货、上架通常需要数周),且硬件一旦买定,配置便无法轻易更改。而 ECS 的核心设计理念就是“按需分配”,这种极度的灵活性体现在两个维度:
- 纵向弹性(Scale-up:升级配置):当你的单体应用(例如一个正在进行复杂关联查询的 MySQL 数据库)遭遇性能瓶颈,发现 CPU 跑满或内存溢出时,你不需要去机房插拔内存条。只需在控制台点击几下,实例重启后,服务器瞬间从 2核 4G 扩容至 16核 32G。这种方式适合有状态的核心节点。
- 横向弹性(Scale-out:集群扩容):面对双十一大促、选课系统开放等突增的千万级并发流量,单台机器的纵向升级是有物理极限的。此时,结合 ESS(弹性伸缩服务),系统能基于 CPU 阈值自动触发预设脚本,在 3 分钟内克隆出 50 台一模一样的 Web 服务器(如 Nginx 或 Java 应用节点)顶住流量。大促结束后,这些无状态的节点会自动销毁并停止计费,实现资源的完美闭环。
2. 实例规格族选型指南(基于底层硬件逻辑的资源分配)
面对阿里云上百种 ECS 实例规格,架构师不能盲目追求高配,而需要根据应用进程的实际资源消耗特征“看菜下饭”。云厂商通过底层 Hypervisor(如 KVM)对物理机的 CPU NUMA 架构和内存条进行不同比例的切分,形成了不同的规格族:
| 实例规格族 | 核心特点与硬件逻辑 | 典型应用场景深入解析 |
|---|---|---|
| 通用型 (g族) 均衡 | CPU 与内存比例严格设定为 1:4。提供均衡的计算与内存资源,底层网络 PPS 表现稳定。 | 适合绝大多数企业级后台管理系统、中小型关系型数据库(如日常教学用的 MySQL)、以及常规的 Web 服务后端(如 Node.js / Python 接口)。 |
| 计算型 (c族) 算力 | CPU 与内存比例设定为 1:2。这类实例通常运行在主频更高的物理 CPU 上,偏重逻辑运算与上下文切换。 | 高并发的 Web 代理层(如 Nginx、API 网关)、视频编码与转码集群、批量数据处理与后台任务调度系统。 |
| 内存型 (r族) 缓存 | CPU 与内存比例高达 1:8。牺牲了一部分 CPU 密度,换取极大的内存空间和极低的内存延迟。 | 专为基于内存运行的服务设计,如 Redis / Memcached 缓存服务器集群、Hadoop 大数据处理节点、以及需要将庞大数据集加载到内存的 Elasticsearch 搜索引擎。 |
| GPU加速型 (gn族) AI | 除了常规 CPU,直接透传 NVIDIA 高性能 GPU 显卡(如 V100、A10、T4 等),提供海量并行计算的算力。 | 深度学习模型训练与推理(AI 大模型)、复杂视频实时渲染、自动驾驶仿真测试、以及特定科学计算(如基因测序)。 |
💡 成本优化(FinOps)策略:Spot 抢占式实例的底层逻辑
抢占式实例本质上是云厂商为了提高数据中心资源闲置利用率而推出的“竞价产品”。它的价格通常只有正常包年包月服务器的 10% 到 20%。但核心风险在于:当云平台整体资源紧缺,或者有其他用户出价更高时,系统会强制回收(销毁)你的实例(通常提前 5 分钟通知)。 最佳实践:绝对不能将数据库或核心业务部署在抢占式实例上。它仅适用于无状态且允许中断重试的场景,例如夜间海量日志分析任务、CI/CD 自动化构建节点(如 Jenkins Worker)、以及配合负载均衡使用的弹性伸缩工作节点。
3. ECS 的四大核心组件深度剖析
一台完整的 ECS 实例并非物理意义上的单一实体,它是由软件定义的多个虚拟化组件通过高速网络(如 VPC)拼装而成的。理解这种“解耦”设计,是进行云原生架构设计的前提:
- 实例 (Instance) 计算算力:提供核心的计算力(vCPU 与内存)。这是 ECS 的“大脑”,它负责执行代码指令。实例本身的系统盘是挂载在外部的,这意味着即使底层物理机发生硬件故障宕机,你的数据依然安全。
- 块存储 (Block Storage) 持久化硬盘:即基于分布式存储架构的云盘。与传统的服务器本地物理硬盘彻底不同,云盘数据在底层默认被打散并跨机架保存了 3 份副本(三副本技术),提供高达 99.9999999% 的数据可靠性。同时支持无损扩容(业务不中断增加容量)和分钟级的快照备份。
- 镜像 (Image) 操作系统与环境:包含了操作系统内核(如 CentOS、Ubuntu、Windows Server)及预装软件的只读模板。架构师可以在配置好一台极其复杂的开发服务器(例如装满 Docker、JDK、Maven 的环境)后,将其打包成自定义镜像。之后便能基于此镜像在几秒钟内批量创建出环境完全一致的成百上千台 ECS。
- 安全组 (Security Group) 四层防火墙:这是极其关键的组件!它是 ECS 实例级别的虚拟防火墙,工作在 Hypervisor 层(OSI 模型第四层),而不是操作系统内部的 iptables。安全组采用“白名单”机制,默认拒绝所有外部主动发起的入方向连接。
🛡️ 安全最佳实践:安全组的“最小权限原则”
很多新手开发者发现新买的服务器部署完 Web 项目后“无法访问”,这通常是因为安全组拦截了请求。 操作规范:进入控制台,依次点击 实例详情 -> 安全组 -> 配置规则。
- 若部署对外 Web 服务(如使用 Nginx 代理前端项目),必须手动放行
80(HTTP)或443(HTTPS)端口。 - 严禁在生产环境中将
3306(MySQL)、6379(Redis)等核心数据端口对0.0.0.0/0(全网)开放。正确的做法是将访问源 IP 限制为特定应用服务器的内网 IP,或者使用堡垒机进行安全接入,否则极易遭受全网扫描与勒索病毒的加密攻击。
4. 云上存储选型 (块存储底层差异)
为 ECS 选择系统盘和数据盘时,架构师面临的是 IOPS(每秒读写次数)、吞吐量和延迟的权衡。这直接决定了磁盘 IO 密集型应用(尤其是数据库)的生死:
| 云盘类型 | 底层硬件与架构技术 | 核心性能指标 | 典型企业级应用场景 |
|---|---|---|---|
| ESSD 云盘 极速/微秒级 | 采用全 NVMe SSD 架构,并结合 100G RoCE (RDMA) 融合以太网技术,直接绕过 CPU 处理网络 I/O,极大降低延迟。 | 单盘最高可达 100万 IOPS,延迟极低。 | 承载超高并发交易的大型 OLTP 核心数据库、对 I/O 延迟极其敏感的大型实时应用。 |
| SSD 云盘 标准/毫秒级 | 基于全闪存阵列架构,提供稳定可预期的随机读写性能。 | 最高 3万 IOPS。 | 绝大多数企业的中小型关系型数据库(如中等规模的商城 MySQL)、NoSQL 数据库。 |
| 高效云盘 基础/吞吐型 | 采用固态硬盘作为缓存层,大容量机械硬盘作为持久层的混合存储架构。 | 最高 5000 IOPS,但能提供不错的顺序读写吞吐量。 | 日常低频访问的 Web 服务器系统盘、开发与测试环境、以及大型日志和文件的顺序写入场景。 |
5. 多维度的计费模式与企业财务优化
公有云改变了传统 IT 的财务模型,将固定资产支出(CAPEX)转化为了运营支出(OPEX)。ECS 提供了高度契合不同业务生命周期的付费策略:
- 包年包月 (Subscription):全款预付模式。适合 7×24 小时长期稳定运行的基础负载资源(例如企业核心官网、主数据库实例)。平台通常对购买周期越长的资源给予越大的折扣(如包 3 年可享大幅优惠)。
- 按量付费 (Pay-As-You-Go):真正的云计算计费模式,按秒计费,按小时出账。它不需要任何预付款。这种模式是应对突发峰值流量的利器。例如周末的系统压测、或者应对临时爆发的社会热点流量,架构师可以瞬间开出 100 台高配按量付费实例,处理完业务后立刻释放,总计可能只需支付几十块钱的账单。
📖 拓展知识:快照 (Snapshot) —— 运维工程师的“后悔药”
快照是某一个时间点上的一块云盘的数据状态拷贝。阿里云底层使用的是增量快照技术(Copy-on-Write),即只有第一次快照是全盘备份,后续的快照只备份发生变化的数据块,这极大节省了存储成本。 运维铁律:在进行操作系统内核重大升级、危险的业务代码批量替换、或者执行可能导致“删库跑路”的数据库清理脚本前,必须进入控制台,选择目标云盘并单击 创建快照。一旦操作失误导致系统崩溃,只需通过快照执行磁盘回滚,无论数据损坏多严重,都能在极短时间内恢复到快照创建那一秒的完美状态。
2.3 关系型数据库服务 (Relational Database Service, RDS)
RDS 是基于阿里云分布式文件系统和企业级 SSD 存储构建的托管式(PaaS 层)数据库服务。简单来说,RDS 就是阿里云帮我们安装好、配置到最佳状态、并且派机器人 24 小时盯着的云端数据库大管家。你只需要专心写代码查数据,剩下的脏活累活云平台全包了。
为了让大家全面掌握 RDS,我们将从以下 5 个核心知识模块进行深度拆解:
1. 为什么坚决不用 ECS 自建数据库?(核心痛点对比)
很多新手在做项目时,习惯买一台 ECS 云服务器后自己敲命令装 MySQL。但在企业真实生产环境中,这无异于“给自己挖坑”。请看下面这份通俗的对比清单:
| 运维维度与核心痛点 | 在 ECS 上自建 MySQL(刀耕火种) | 阿里云 RDS 托管服务(现代化武装) |
|---|---|---|
| 部署与安装 效率 | 需敲几十行 Linux 命令去下载、配置环境变量。经常遇到乱码或各种千奇百怪的报错。 | 控制台只需鼠标点击(选版本、设密码),3 分钟内系统自动拉起一个调优到极致的数据库。 |
| 高可用与容灾 救命 | 需自己搭建复杂的“主从复制”。一旦主库服务器烧了,半夜需起床手动改代码切换,期间用户无法访问。 | 天生双节点高可用(一主一备)。主库一旦宕机,几十秒内自动切换到备用库,业务代码一行不用改。 |
| 数据备份与恢复 防删库 | 需手写脚本定时导出数据。一旦硬盘写满就会备份失败;遭遇勒索病毒或硬盘物理损坏,数据彻底绝版。 | 自动备份,且支持按时间点克隆回滚。今天下午误操作“删库跑路”,一键就能恢复到删库前 5 分钟的完美状态。 |
| 性能横向扩展 抗并发 | 期末选课系统流量暴增卡死时,需手动买机器搭从库,还必须大改 Java/Node.js 业务逻辑代码。 | 一键挂载只读实例,系统提供统一的“代理地址”,代码不改即可自动分发海量查询请求。 |
2. RDS 的主流引擎家族(它都能装什么?)
RDS 并不是一个单一的数据库软件,它是一个平台。在点击 创建实例 时,架构师可以根据公司项目的技术栈,自由选择主流的数据库引擎:
- MySQL 互联网标配:全球最受欢迎的开源关系型数据库。如果你开发的是基于 Java (Spring Boot)、Python 或 Vue+Node.js 的前后端分离 Web 项目,这是绝对的首选。
- SQL Server 企业经典:微软出品。如果你们公司接手的项目是传统的银行内部系统、老牌 ERP 管理系统,或者是基于
C#/.NET语言开发的,通常会选择它。 - PostgreSQL 复杂查询:号称“世界上最先进的开源数据库”。当你的项目涉及极其复杂的空间地理数据(如打车软件的地图计算),或者需要处理庞大且严苛的学术级复杂查询时,它的性能远超 MySQL。
3. 坚不可摧的底层防御:IP 白名单机制
很多同学刚买完 RDS,在自己电脑上用 Navicat 软件怎么都连不上,即使输入了完全正确的账号和密码也一直报错。这是因为 RDS 有一道极其严格的安全门——IP 白名单。
🛡️ 核心安全规范:默认拒绝所有外网访问
刚创建的 RDS 默认的白名单是 127.0.0.1,这意味着它拒绝世界上所有的外部连接。 实操规范:你必须进入控制台,找到 数据安全性 -> 白名单与安全组,手动将你自己电脑的外网 IP(用于本地调试),或者你那台部署了 Web 项目的 ECS 云服务器的内网 IP 添加进白名单。 这种看似“麻烦”的机制,彻底杜绝了黑客在公网上使用工具批量暴力破解你数据库密码的可能。
4. 你的免费 AI 数据库专家:自动监控与诊断 (DAS)
以前,当用户的网页加载很慢时,程序员很难排查到底是网络卡,还是数据库卡。如果是数据库卡,到底是哪一条具体的 SQL 语句写得太差导致了卡顿?
- 智能监控:RDS 平台自带了数据库自治服务(DAS)。它就像一个 24 小时在线的“老中医”,不仅会实时监控 CPU 和内存的波动,还能在崩溃前自动向你的手机发送报警短信。
- 慢日志分析:当你发现系统卡顿,只需点击控制台左侧的 慢日志明细。系统会精准抓出那些执行时间超过 1 秒的“垃圾 SQL 语句”(比如缺乏索引的全表扫描语句),甚至会直接给出优化建议代码,大幅降低了新手排查 Bug 的门槛。
5. 核心架构原理:计算与存储分离
为了彻底打消大家对“云端数据会不会弄丢”的顾虑,我们需要理解 RDS 的底层架构思想。
🍕 通俗比喻:底层存储解耦
RDS 在底层架构上采用了计算与存储分离的技术。
这就像你把极其珍贵的日记本(你的核心业务数据)锁在了一个绝对安全的云端银行金库里(阿里云底层的分布式三副本存储盘)。而 RDS 的计算节点(负责执行 SQL 语句的 CPU 和内存),仅仅是你去银行查看日记时坐的那把“椅子”。
即使这把“椅子”突然断裂了(计算节点主板烧毁宕机),金库里的日记本也毫发无损。系统会在几十秒内给你换一把崭新的“椅子”,你坐下就能接着看日记,业务数据绝对不会丢失。
⚙️ 【项目实施】(网络基础环境搭建)
任务 2.1 虚拟专用网络 (VPC) 服务实战
在本实战任务中,我们将模拟企业网络架构师的角色,规划并创建两个隔离的 VPC 网络,随后通过“对等连接”打通它们的内网数据通道。
步骤一:创建第一个 VPC 与核心交换机
- 登录阿里云官网进入控制台。单击左上角菜单,在搜索结果中找到“云上网络”分类,选择 专有网络 VPC。
🖥️ 选择“专有网络 VPC”界面参考

- 在打开的页面中,单击 创建专有网络 按钮。进行如下核心参数配置:
- 地域:选择 华东 1 (杭州)。
- VPC 名称:设置为
Test_VPC_1。 - IPv4 网段:设置为
192.168.0.0/16。
🖥️ 专有网络配置界面参考

- 在同一页面下方,继续配置该 VPC 下属的交换机 (VSwitch):
- 名称:设置为
Test_Switch_1。 - 可用区:选择 杭州 可用区 G。
- IPv4 网段:设置为
192.168.1.0/24。
配置完成后,单击左下角 确定 按钮。
🖥️ 交换机配置界面参考

- 等待几秒,专有网络创建成功后即可使用。单击服务名称,可进入基本信息面板查看其资源 ID 与关联的默认路由表。
🖥️ 界面参考
🖥️ 专有网络创建成功

🖥️ 成功后,专有网络基础信息页面

步骤二:创建网络对等连接 (Peering Connection)
场景说明: 假设您的企业有一个
Test_VPC_1(承载核心 Web 业务网)和一个Test_VPC_2(承载内部数据分析网),为了安全它们默认是不通的。现在我们用“对等连接”在内网层面将它们私有化打通。
- 准备对端网络资源:参照上述操作,再创建一个名为
Test_VPC_2的专有网络(网段设为172.16.0.0/16),并为其创建一个交换机Test_Switch_2(网段设为172.16.1.0/24)。
🖥️ 专有网络配置页面

🖥️ 专有网络列表

🖥️ 交换机配置界面参考

- 在 VPC 控制台左侧导航栏,选择 VPC 对等连接,单击 创建对等连接 按钮。
🖥️ 对等连接创建页面

- 配置对等连接参数:
- 名称:设置为
PTP-1。 - 发起端 VPC 实例:选择
Test_VPC_1。 - 接收端账号与地域:选择 同账号、同地域。
- 接收端 VPC 实例:选择
Test_VPC_2。
完成后单击 确定。
🖥️ 对等连接配置

步骤三:配置路由条目 (打通底层通信链路)
虽然物理通道(对等连接)建立了,但还需要配置路由表(相当于设置路标)。
进入刚创建好的
PTP-1,单击 配置路由条目。配置去程路由(从 VPC1 走向 VPC2):
- 专有网络选
Test_VPC_1,目标网段填入对方的网段172.16.0.0/16,下一跳保持默认指向刚才创建的通道。
🖥️ 配置第一条路由条目

- 配置回程路由(从 VPC2 走向 VPC1):
- 网络通信是有去有回的。专有网络选
Test_VPC_2,目标网段填入对方网段192.168.0.0/16,下一跳保持默认。
🖥️ 配置第二条路由条目

🖥️ 路由条目列表

步骤四:申请弹性公网 IP (EIP)
在专有网络列表中选择 弹性公网 IP,单击 创建。
配置核心参数:付费模式选 按量付费,地域选 杭州,带宽峰值调整为
5 Mbps,计费方式选 按固定带宽计费,名称设为Test_EIP_1,完成购买。
🖥️ 弹性公网 IP 地址参数信息配置 界面参考

🖥️ 弹性公网 IP 地址流量配置

📌 【项目小结】
TIP
本课时作为深入公有云底座的核心模块,带领大家从更细致、更实战的角度重新认识了 VPC、ECS 和 RDS。通过“办公大楼”的比喻和多维度的场景对比表格,我们厘清了云服务器弹性扩容的精髓,以及为何企业级生产环境必须采用托管型 RDS 而非自建数据库。
在实战环节,大家打破了“点鼠标买服务器”的初级认知,上升到了“规划企业级网络拓扑”的架构师视角,为大家后续部署高并发的负载均衡集群彻底夯实了网络地基。
🌍 【拓展知识】
🛡️ 政策导向与数字经济趋势
国务院印发的《“十四五”数字经济发展规划》明确指出,“十四五”时期,我国数字经济转向深化应用、规范发展、普惠共享的新阶段。随着政务、医疗、金融、教育等行业的数字化转型不断深入,掌握云基础服务(尤其是 VPC 级别的安全网络隔离规划方案)将是未来高级网络工程师与系统架构师不可替代的核心竞争力。