林俊丞2020/11/5
学习内容:《计算机科学导论》第8、9章
第8章 抽象数据类型与子程序
8.1 抽象数据类型
抽象数据类型(Abstract Data Type,ADT):属性(数据和操作)明确地与特定实现分离的容器。
设计的目标是通过抽象减小复杂度。
为了把ADT的概念与上下文联系起来,需要看看如何观察数据。在计算领域,可以从应用层、逻辑层和实现层这三个方面观察数据。
应用(用户)层是特定问题中的数据的视图。
逻辑(抽象)层是数据值(域)和处理它们的操作的抽象视图。
实现层明确表示出了存放数据项的结构,并用程序设计语言对数据的操作进行编码。这个视图用明确的数据域和子程序表示对象的属性。这一层涉及了数据结构,即:
数据结构(data structure):一种抽象数据类型中的复合数据域的实现。
这一章的抽象数据类型是在现实世界的问题中反复出现过的,这些ADT是存储数据项的容器,每种ADT都具有特定的行为,称它们为容器。
容器(container):存放和操作其他对象的对象。
8.2 栈
栈是一种抽象复合结构,具有以下特点:
- 只能从一端访问栈中的元素。
- 处理类型为LIFO,意思是后进先出(Last In First Out):可以在第一个位置插入元素,也可以删除第一个元素。(与自助餐厅取盘子类似)另一种描述说法是删除的项总是在栈中时间最短的项目。插入操作没有任何约束。整个LIFO行为就体现在删除操作上。
- 在“自助餐厅”比喻下,我们把插入操作叫做Push(推进),删除操作叫做Pop(弹出)。
- 注意:栈没有长度属性,所以没有返回栈中项目个数的操作。我们需要的是确定栈是否为空(IsEmpty)的操作,因为当栈空的时候再弹出项目会出错。
8.3 队列
队列也是一种抽象结构,但是与栈有一些不同之处,具有以下特点:
- 队列中的项目只能从一端入,从另一端出。
- 访问行为称为FIFO,意思是先进先出(First In First Out) :插入操作在队列的尾部进行,删除操作在队列的头部进行。与超市排队类似。另一种描述说法是删除的总是在队列中时间最长的项目。与栈一样,插入操作没有任何约束,整个FIFO行为就体现在删除操作上。
- 遗憾的是,插入操作和删除操作没有标准的相关术语。
8.4 列表
列表有三个属性特征:项目是同构的、项目是线性的、列表是变长的。
线性(linear)的意思是:每个项目除了第一个都有一个独特的组成部分在它之前,除了最后一个也都有一个独特的组成部分在它之后。
列表通常提供插入一个项目的操作(Insert)、删除(Delete)项目的操作、检索一个项目是否存在(IsThere)以及报告列表中项目数量(GetLength)。此外,它们还有一些机制允许用户查看序列中的每一项(Reset,GetNext,MoreItems)。因为项目可以被删除和检索,所以列表中的项目必须能够相互比较。
注意:列表不是数组,数组是内嵌结构,列表是抽象结构。列表用于数组中,如下图所示:
链式结构(linked structure):一个将数据项和找到下一项位置的信息保存到同一容器的实现方法。
列表也可以被形象化为链式结构。链式结构以节点的概念为基础。一个节点由两部分构成:用户的数据和指向列表的下一个节点的链接或指针。列表的最后一个节点的指针变量存放的是表示列表结束的符号,通常是null,用/表示。如下图:
无序列表的顺序并不重要,项目只是随意被放入其中。有序列表中,项目之间具有语义关系。除了第一个项目之外所有项目都存在某种排序关系。除了最后一个项目所有项目都有着相同的关系。下图:
8.5 树
用于表示较为复杂的项目关系的一种分层体系结构。
在计算领域,我们通常说的是二叉树,即每个节点最多有两个子节点的树。
例:用于表示部分动物阶级关系的树:
8.5.1 二叉树
二叉树(binary tree):具有唯一起始节点(根节点)的抽象复合结构,其中每个节点可以有两个子女节点,根节点和每个节点之间都有且只有一条路径。
根(Root):树中唯一的开始节点。
叶节点(leaf node):没有子女的树节点。
如果一个节点左边的子节点存在,那么这个子节点叫做左子女(left child);同理,如果右边的子节点存在,叫做右子女(right child)。如果一个节点没有子女。则这个节点叫树叶(leaf)。
此外,根节点和每个节点之间有且只有一条路径,也就是说,除了根节点外,每个节点都只有一个父母节点。
根节点的每个子女本身又是一个小二叉树或子树的根。事实上,树中每个节点都可以被看作一个子树的根。根节点是以该节点为根的树中其它所有子代节点的先辈。(这是一个递归定义)
8.5.2 二叉检索树
树类似一个无序列表,不便检索,而二叉检索树就像已排序的列表,节点间存在语义排序。二叉检索树具有二叉树的形状属性,还具有语义属性来刻画树中节点上的值,即任何节点的值都要大于它的左子树中的所有节点的值,并且要小于它的右子树中的所有节点的值。这种性质使得在二叉检索树中检索数据变得相对容易。
1. 在二叉检索树中搜索
根据二叉检索树的定义,在其中搜索数据的方式类似于二分检索法。
当用算法检索时,如果current指向一个节点,那么info(current)指的就是这个节点中的用户数据,left(current)指向的是current的左子树的根节点,right(current)指向的是current的右子树的根节点。null是一个特殊值,说明指针指向空值。
2. 构造二叉检索树
如上图,构造算法还是比较简单的。
问题:
但是我在理解插入算法时,产生了读不懂图表的问题,该表即下图:
最后通过复习前面伪代码有关知识明白了上图是一个桌面检查的表格,而插入nell的具体算法为图8-9左上角的伪代码算法。问题解决。
3. 输出二叉检索树中的数据
这个算法还是很容易看懂的。结合过程表可以更加深入地理解这个输出过程。
8.5.3 其他操作
二叉检索树其实是和列表具有同样功能的对象,它们的区别在于操作的有效性,而行为是相同的。
提出了Remove算法的名字,介绍了length的概念。
由树的定义引出了Length操作的递归定义:
8.6 图
在树中,一个节点至多只有一个指向它的节点(父母),如果去掉这种约束,就得到了另外一种数据结构——图。
图(graph):由一组节点和一组把节点相互连接起来的边构成的数据结构。
顶点(vertex):图中的节点。
边(弧)(edge(arc)):表示图中两个节点的连接的顶点对。
图中的顶点表示对象,那么边则描述了定点之间的关系。这种图分为两种:
无向图(undirected graph):其中的边没有方向的图。
有向图(directed graph(digraph)):其中的边是从一个顶点指向另一个顶点(或同一个顶点)的图。
如果两个顶点有一条边相连,则把他们称为邻顶点,两个顶点通过一条有顺序的路径相连。
邻顶点(adjacent vertice):通过边连接起来的两个顶点。
路径(path):连接图中两个顶点的一系列顶点。
8.6.1 创建图
列表、栈、队列和树都是可容纳元素的容器。用户根据特定的问题选择最合适的容器,不被纳入检索过程的算法是没有固定语义的:栈返回的元素是在其中停留时间最少的元素。队列返回的是在其中停留时间最长的元素。队列和树返回的信息都是被请求的。然而不同的是,在图中定义的算法可以解决实际的问题。
8.6.2 图算法
首先是三个经典例题:
- 我能否搭乘喜爱的航线从城市X前往城市Y?
- 我怎样能用最少的停顿从城市X前往城市Y?
- 从城市X到城市Y最短的航程(英里数)是多少?
1. 深度优先搜索
算法如上图。通过研读课本初步理解其含义。
2. 广度优先搜索
如图。
3. 单源最短路搜索
本条没有算法图,主要思路就是检索里当前位置最近的顶点,也就是说,与此顶点相连的边权值最小的顶点。我们称这种抽象容器为优先队列,被检索的元素是在这个队列中拥有最高优先度的元素。
8.7 子程序
8.7.1 参数传递
参数列表是子程序要使用标识符或值的列表,它放置在子程序名后的括号中。由于子程序是在被调用之前定义的,所依它不知道调用单元会传递什么样的变量。为了解决这个问题,在子程序后面的括号中声明了一个变量名的列表。这些标识符称为形参。当子程序被调用时,调用单元将列出子程序名,并在其后的括号中列出一系列标识符。这些标识符叫做实参。实参表示的是调用单元中的真实变量。
参数列表(parameter list):程序中两部分之间的通信机制。
形参(parameter):列在子程序名后的括号中的标识符。
实参(argument):子程序调用中列在括号中的标识符。
可以把形参看成是子程序中使用的临时标识符。当子程序被调用时,调用单元会把真正的标识符的名字发送给子程序。子程序中的动作则是用形参定义的。当动作执行时,实参将逐个替代形参。一般是根据位置进行替代。
当子程序被调用时候,它将得到一个实参列表。实参将告诉子程序在哪里可以找到它要用的值。当子程序用到第一个形参时,子程序会通过形参在留言板上的相对位置访问实参。调用子程序时传递的实参个数必须与子程序定义中的形参个数相同。但是形参和实参是通过位置匹配的,所以名字不必一致。以这种方式传递的形参通常叫做位置形参(positional parameter)。
8.7.2 值参与引用代数
传递参数的基本方式有两种,即通过值传递和通过引用(或地址)传递。
如果一个形参是值参,调用单元将把实参的一个副本传递给子程序。如果一个形参是引用参数,调用单元将把实参的地址传递给子程序。子程序不能改变实参内容,而只能修改副本。相反,子程序可以改变调用单元传递给引用参数的任何实参,因为子程序操作的是实际变量,而不是副本。
值参(value parameter):由调用单元传入实参的副本的形参。
引用参数(reference parameter):由调用单元传入实参的地址的形参。
有的子程序是有返回值的,在这种情况下,子程序被调用的方式是用它的名字和参数的表达式;子程序也可能是没有返回值的,在这种情况下,调用程序用子程序的名字作为声明。
第9章 面向对象设计与高级程序设计语言
9.1 面向对象方法
用叫做对象的独立实体生成解决方案。对象由数据和处理数据的操作构成。面向对象设计的重点是对象以及它们在问题中的交互。一旦收集到了问题中的所有对象,它们就能构成问题的解决方案。
9.1.1 面向对象
在面向对象的思想中,数据和处理数据的算法绑在一起,因此,每个对象负责自己的处理(行为)。面向对象设计(OOD)的底层概念是类(class)和对象(object)。
对象(object):在问题背景中相关的食物或实体。
对象类(object class)或类(class):一组具有相似的属性和行为的对象的描述。
字段(field):表示类的属性。
方法(method):定义了类的一种行为的特定算法。
注:类是一种模式,说明了对象是什么以及它的行为。
9.1.2 设计方法
1. 头脑风暴
一种集体问题求解的方法,包括集体中的每个成员的自由发言。在面向问题的问题求解背景中,头脑风暴是一种集体行为,为的是生成解决某个特定的问题要用到的候选类的列表。
2. 过滤
头脑风暴下一阶段要根据暂时的列表确定问题解决方案中的核心类。一个列表中也许有的类根本不属于问题的解决方案,那么我们就需要过滤,完成过滤后就进入了下一个阶段。
3.场景
这个阶段的目标是给每个类分配责任,最终责任将被实现为子程序。
责任的类型有两种,即类自身必须知道什么(知识)和类必须能够做什么(行为)。类把它的数据(知识)封装了起来,使得一个类的对象不能直接访问另一个类中的数据。所谓封装(encapsulation),就是把数据和动作集中在一起,使数据和动作的逻辑属性与它们的实现细节分离。封装是抽象的关键。不过,每个类都有责任让其它类访问自己的数据。因此,每个类都有责任了解自身。
封装(encapsulation):把数据和动作集合在一起,使数据和动作的逻辑属性与它们的实现细节分离。
4. 责任算法
即为责任编写的算法。
5. 总结
例:自顶向下的设计方法重点在于把输入转化成输出的过程,结果将生成任务的体系结构。面向对象设计的重点是要转换的数据对象,结果生成的是对象的体系结构。
9.1.3 示例
即一个示例。
9.2 翻译过程
第六章就提到,用汇编语言编写的程序要输入汇编器,由它把汇编语言指令翻译成机器码,最终执行的是汇编器输出的机器码。
9.2.1 编译器
编译器(compiler):把用高级语言编写的程序翻译成机器码的程序。
9.2.2 解释器
解释器(interpreter):输入用高级语言编写的程序,指导计算机执行每个语句指定的动作的程序。
与汇编器和编译器只是输出机器码且机器码再单独执行不同的是,解释器在翻译过语句之后会立即执行这个语句。
翻译器和模拟器都接受用高级语言编写的程序作为输入。翻译器(汇编器或编译器)只用适合的机器语言生成等价的程序,这个程序再单独运行。而模拟器则直接执行输入的程序。
——Terry Pratt
第二代高级语言可以分为两种,一种是要编译的,一种是要解释的。由于软件解释器非常复杂,所以用要解释的语言编写的程序通常比要编译的程序的运行速度慢很多。因此,要编译的语言发展成了主流,以致产生了Java。
Java的设计中,可移植性是最重要的特征。为了达到最佳可移植性,Java被编译成一种标准机器语言——字节码(bytecode)。一种名为JVM的软件解释器接受字节码程序,然后执行它。也就是说,字节码不是某个特定硬件处理器的机器语言,任何具有JVM的机器都可以运行编译过的Java程序。
字节码(bytecode):编译Java源代码使用的标准计算机语言。
注意,标准化的高级语言实现的可移植性与把Java程序翻译成字节码然后在JVM上解释它所实现的可移植性是不同的。Java编译器输出的程序将被解释,而不是直接被执行。
9.3 程序设计语言范型
9.3.1 命令式范型
命令式范型具有顺序执行指令的特征,变量的使用代表了内存地址,而是用赋值语句则改变这些变量的值。
1. 面向过程的范型
面向过程编程是一种命令式模型,在这里语句被分组成子程序。一个程序是子程序分层次构成的,每一层执行整个问题求解的一个必要的特定任务。
2. 面向对象的范型
面向对象视角是与对象交互的一种方式。每个对象负责执行它自己的动作。
在面向过程的范型中,数据被认为是被动并且被程序所操控的;在面向对象的范型中,数据对象是活跃的。对象和操作对象的代码绑在一起,使得每个对象负责控制自己的操作。
9.3.2声明式范型
声明式范型是一个描述结果的模型,但是完成结果的过程则不被描述。在这种范型中的两种基本模型:函数式和逻辑式。
1. 函数式模型
基于函数的数学概念。基本的原理是函数的求值。
2. 逻辑编程
基于数理逻辑的原则。
解决潜在问题的算法用逻辑的规则来推演出事实和规则的答案。
9.4 高级程序设计语言的功能性
9.4.1 布尔表达式
布尔表达式(Boolean expression):一个标识符序列,标示符之间由相容的运算符分隔,求得的值是true或false。
9.4.2 数据归类
只能在变量中存储合适的类型的要求叫做强类型化。
强类型化(strong typing):每个变量都有一个类型,只有这种类型的值才能存储到该变量中。
数据类型(data type):一组值以及能够应用于这种类型的值的基本操作集合的说明。
1. 数据类型
数据类型是描述一组数值和一组可以应用在这种类型的数值上的基本操作。
大多数高级语言都有四种数据类型:整数、实数、字符和布尔型。
2. 声明
声明(declaration)是把变量、动作或语言中的其他实体与标识符关联起来的语句,使程序员可以通过名字引用这些项目。
保留字(reserved word)是一种语言中具有特殊意义的字,不能用它作为标识符。
注意C++、Java、Python和VB.NET是区分大小写的,这意味着大小写不同的同一标识符会被认为是不同的词。
9.4.3 输入/输出结构
高级语言把输入的文本数据看作一个分为多行的字符流。字符的含义由存放值的内存单元的数据类型决定输出与基础所有输入语句都由三部分构成:要存放数据的变量的声明、输入语句和要读入的变量名以及数据流自身。
在非强类型语言中,输入的格式决定了类型。 输出语句创建字符流。在强类型语言中不管输入输出语句的语法或输入输出流在哪,处理的关键在于数据类型。数据类型确定字符是如何被转换为位模式以及如何被转换为字符。
9.4.4 控制结构
控制结构(control structure):确定程序中的其他指令的执行顺序的指令。
1. 嵌套逻辑
结合书中例子理解。
2. 异步处理
异步(asynchronous):不与计算机这种的其他操作同时发生;换句话说,与程序的操作不同步。
9.5 面向对象语言的功能性
9.5.1 封装
封装(encapsulation):实施信息隐蔽的语言特性。
对象(问题求解阶段)(object(problem-solving phase)):与问题背景相关的事物或实体。
类(实现阶段)(class(implementation phase)):对象的模式。
对象类或类(问题求解阶段)(object class or class(problem-solving phase)):属性和行为相似的一组对象的说明。
对象(实现阶段)(object(implementation phase)):类的一个实例。
9.5.2 类
如果用标识符来代表一个类,那么必须在使用前显式地询问即将被创建的类。也就是需要实例化这个类,以获取符合这种模式的对象。
实例化(instantiate):创建类的对象。
9.5.3 继承
继承(inheritance):类获取其他类的属性(数据字段和方法)的机制。
9.5.4 多态
多态(polymorphism):语言在运行时确定给定调用将执行哪些可能的方法的能力。
9.6 过程设计与面向对象设计的区别
读书
总结
基本完成学习任务,本部分内容偏向纯理论学习,多读就能解决。