数据结构初阶

原创

hide

发布于 2025-07-04 08:54:28

3980

文章被收录于专栏：技术教程技术教程

"数据结构初阶" 是学习计算机科学的核心基础，它研究的是数据在计算机中如何组织、存储和管理，以便高效地进行访问和修改。掌握数据结构是写出优秀、高效程序的关键。

下面是初阶数据结构的主要内容概览，帮你建立一个清晰的框架：

一、核心概念

数据 (Data): 程序处理的基本对象（数字、字符、字符串、图像、声音等）。
数据元素 (Data Element): 数据的基本单位（也称为元素、结点、记录、顶点等）。
数据项 (Data Item): 构成数据元素的不可分割的最小单位。
数据结构 (Data Structure): 相互之间存在一种或多种特定关系的数据元素的集合。它包含：
- 数据的逻辑结构： 数据元素之间的逻辑关系（独立于计算机）。
- 数据的存储结构 (物理结构)： 数据在计算机内存中的具体存储方式（如连续存储、链式存储）。
- 数据的运算： 施加在数据上的操作（如插入、删除、查找、排序、遍历等）。

二、为什么学习数据结构？

提高程序效率： 选择合适的数据结构能极大优化程序的运行时间和内存消耗。
解决复杂问题： 许多复杂问题（如路径规划、搜索引擎、数据库）都依赖于高效的数据结构。
理解算法基础： 算法和数据结构密不可分，算法作用于数据结构之上。
编程必备技能： 是面试和实际开发中的核心考察点。

三、常见初阶数据结构分类 (按逻辑结构)

1. 线性结构

数据元素之间存在一对一的线性关系。元素按顺序排列。

数组 (Array):
- 逻辑结构： 线性序列。
- 存储结构： 连续的内存空间。
- 特点： 通过下标 (索引) 随机访问元素，速度极快 (O(1))。插入/删除元素（尤其在中间或开头）可能需要移动大量元素，效率低 (O(n))。大小固定（静态数组）或可动态扩展（动态数组/ArrayList）。
- 典型应用： 存储成绩列表、图片像素、任何需要快速随机访问的序列。
链表 (Linked List):
- 逻辑结构： 线性序列。
- 存储结构： 非连续的内存空间。每个元素（结点）包含数据域和指向下一个元素地址的指针域。
- 特点：
  - 单链表： 每个结点指向下一个结点。
  - 双向链表： 每个结点指向前一个和后一个结点，支持双向遍历。
  - 循环链表： 尾结点指向头结点，形成环。
- 优点： 插入/删除元素（尤其已知位置时）非常高效 (O(1))，只需修改指针。大小动态增长灵活。
- 缺点： 不能随机访问，查找元素需要从头遍历 (O(n))。需要额外空间存储指针。
- 典型应用： 实现栈、队列、文件系统、浏览器历史记录（前进/后退）。
栈 (Stack):
- 逻辑结构： 操作受限的线性表。
- 特点： 后进先出 (LIFO - Last In First Out)。只允许在栈顶进行插入（压栈/入栈 push）和删除（弹栈/出栈 pop）操作。
- 核心操作： push, pop, peek/top (查看栈顶元素但不移除), isEmpty, isFull (固定大小栈)。
- 典型应用： 函数调用栈、表达式求值、括号匹配、撤销操作 (Undo)、浏览器的后退按钮。
队列 (Queue):
- 逻辑结构： 操作受限的线性表。
- 特点： 先进先出 (FIFO - First In First Out)。在队尾 (rear) 进行插入（入队 enqueue），在队头 (front) 进行删除（出队 dequeue）。
- 核心操作： enqueue, dequeue, front/peek (查看队头元素), rear (查看队尾元素), isEmpty, isFull。
- 变种：
  - 双端队列 (Deque): 两端都允许插入和删除。
  - 循环队列 (Circular Queue): 解决普通队列假溢出问题，高效利用空间。
- 典型应用： 消息队列、打印机任务队列、CPU 进程调度、广度优先搜索 (BFS)。

2. 非线性结构

数据元素之间存在一对多或多对多的关系。

树 (Tree):
- 逻辑结构： 层次化结构，具有分支关系。元素称为结点。
- 核心概念：
  - 根结点 (Root): 最顶层的结点（没有父结点）。
  - 父结点 (Parent)、子结点 (Child): 结点间的上下级关系。
  - 兄弟结点 (Sibling): 同一个父结点的子结点。
  - 叶结点 (Leaf): 没有子结点的结点。
  - 子树 (Subtree): 树中的分支结构。
  - 深度 (Depth): 从根到该结点的路径长度。
  - 高度 (Height): 从该结点到最深叶结点的路径长度（树的高度是根的高度）。
- 二叉树 (Binary Tree): 树结构的核心基础。
  - 每个结点最多有两个子结点：左子结点和右子结点。
  - 重要类型：
    - 满二叉树： 所有层都达到最大结点数。
    - 完全二叉树： 除了最后一层，其他层都满，且最后一层结点尽量靠左排列。
  - 遍历方式 (核心操作)：
    - 前序遍历 (Preorder): 根 -> 左子树 -> 右子树
    - 中序遍历 (Inorder): 左子树 -> 根 -> 右子树 (对二叉搜索树特别重要！)
    - 后序遍历 (Postorder): 左子树 -> 右子树 -> 根
    - 层序遍历 (Level Order): 按层从左到右访问结点 (通常借助队列实现)。
- 二叉搜索树 (Binary Search Tree - BST):
  - 特点： 一种特殊的二叉树。对于树中任意结点：
    - 其左子树上所有结点的值 < 该结点的值。
    - 其右子树上所有结点的值 > 该结点的值。
    - (通常定义不允许重复值，或通过计数处理重复值)
  - 核心优势： 查找、插入、删除操作的平均时间复杂度为 O(log n) (在树相对平衡时)。
  - 核心操作： search, insert, delete。
- 堆 (Heap): (通常指二叉堆)
  - 逻辑结构： 可以看作是一种特殊的完全二叉树。
  - 特点： 满足堆序性质：
    - 最大堆 (Max Heap): 父结点的值 >= 其子结点的值。根结点是最大值。
    - 最小堆 (Min Heap): 父结点的值 <= 其子结点的值。根结点是最小值。
  - 存储： 通常用数组高效存储（利用完全二叉树的性质）。
  - 核心操作： insert (上滤/上浮), deleteMax/deleteMin (下滤/下沉), buildHeap。
  - 典型应用： 优先队列、堆排序。
图 (Graph): (初阶通常只做概念性了解，深入在进阶)
- 逻辑结构： 最一般的非线性结构。由顶点 (Vertex/Node) 和连接顶点的边 (Edge) 组成。
- 核心概念：
  - 有向图 vs 无向图： 边是否有方向。
  - 带权图 vs 无权图： 边是否有权重（成本、距离等）。
  - 度 (Degree): 与一个顶点相连的边的数量（有向图分入度和出度）。
  - 路径 (Path): 顶点序列。
  - 连通性 (Connectivity): 无向图中任意两顶点间有路径则连通。
- 存储结构 (初阶了解)：
  - 邻接矩阵 (Adjacency Matrix): 二维数组，matrix[i][j] 表示顶点 i 到 j 是否有边/边的权重。
  - 邻接表 (Adjacency List): 每个顶点维护一个链表/数组，存储其所有邻接点。
- 基本操作 (初阶了解)： 添加/删除顶点/边，查找邻接点。
- 典型应用 (概念)： 社交网络（顶点是人，边是好友关系）、地图导航（顶点是路口，边是道路）、网络拓扑。

四、如何学习数据结构初阶？

理解概念： 务必先搞清楚每种数据结构的逻辑结构、特点、核心思想。不要急于写代码。
掌握操作： 熟练掌握每种数据结构支持的基本操作（插入、删除、查找、遍历等）及其时间复杂度和空间复杂度。理解为什么会有这样的复杂度。
理解实现： 学习每种数据结构常见的存储结构（如数组、链表）是如何实现其逻辑结构的。
对比分析： 学会对比不同数据结构的优缺点和适用场景。例如：
- 数组 vs 链表（随机访问 vs 动态插入删除）
- 栈 vs 队列（LIFO vs FIFO）
- 数组/链表 vs BST（无序 vs 有序，查找效率差异）
- 普通队列 vs 循环队列（空间利用率）
动手实践： 一定要写代码实现！ 从简单的数组、链表、栈、队列开始，自己实现一遍基本操作。理解指针（或引用）在链表中的作用。实现二叉树的遍历、BST的查找插入。
解决问题： 尝试用学到的数据结构去解决一些经典的小问题（如用栈判断括号匹配、用队列模拟排队、用BST实现一个简单的字典）。
可视化工具： 利用在线数据结构可视化工具（如 VisuAlgo, Data Structure Visualizations）帮助理解数据流动和操作过程。
循序渐进： 先掌握线性结构（数组、链表、栈、队列），再深入非线性结构（树、图）。树结构重点掌握二叉树及其遍历、BST、堆的概念。

重要提醒：

时间复杂度 (Time Complexity): 衡量算法执行时间随数据规模增长的变化趋势（O(1), O(log n), O(n), O(n log n), O(n²), O(2ⁿ) 等）。这是评价数据结构操作效率的核心指标。
空间复杂度 (Space Complexity): 衡量算法执行所需额外存储空间随数据规模增长的变化趋势。
抽象数据类型 (ADT): 栈和队列通常被定义为 ADT，它们描述了操作接口（push, pop, enqueue, dequeue），而具体的实现（用数组还是链表）可以不同。