第一章 数据与信息
1.1 感知数据
数据的定义
- 数据是对客观事物的符号表示,如图形符号、数字、字母等。
- 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,是具有一定意义的数字、字母、符号和模拟量等的通称。
- 数据的表现形式:文字、图像、图形、音频、视频等。
数据与解释
- 单纯的数据是没有意义的,数据和关于数据的解释是密不可分的,经过解释的数据才有意义。
- 人类对数据的利用一定程度上依赖于载体,人们在利用数据的同时,自身也在产生数据。
1.2 数据、信息与知识
信息
- 定义:信息是用来消除随机不确定性的东西(香农)。信息自古就有,目前没有统一定义。
- 信息的特征:
- 载体依附性:信息不能独立存在,必须依附于一定的载体(语言、文字、图像、声音等)。同一信息可以依附于不同的载体。
- 时效性:信息反映事物特定时间内的状态,会随时间变化。
- 共享性:信息可以被多个接收者获取,不会因为被别人获取而发生损耗。
- 可加工处理性、真伪性:信息可以加工处理,也存在虚假信息。
- 价值性:包括显性价值(信息内容本身具有的价值)和隐性价值(通过收集、整理总结获得的其他价值)。
知识
- 定义:人类在社会实践中所获得的认识和经验的总和,包括对事实、信息的描述以及在教育中和实践中获得的技能。
- 特点:知识可以继承和传递。知识的获得是人利用自身已有的信息进行加工,进而将新的信息纳入自己知识结构的过程。
智慧
- 智慧是一种更高层次的综合能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。
数据、信息、知识、智慧的关系
- 数据是信息的载体,信息是数据的解释。
- 数据经过储存、分析及解释后产生的意义就是信息。
- 通过归纳、演绎、比较等手段对信息进行挖掘,将有价值的部分与已有知识体系相结合,形成知识。
1.3 数据采集与编码
数据采集方式
- 传统方式:直接观察、实验、人工方式。
- 现代方式:传感器(获取自然信源的数据)、网络爬虫(获取网络数据),以机器为主。
模拟信号与数字信号
- 模拟信号:以连续变化的物理量存在,如声音、电视图像。
- 数字信号:取值上离散、不连续的信号,在计算机中指可被存储、处理的二进制数据。
- 模拟信号与数字信号可以相互转换。
数字化过程(模数转换)
- 采样:将连续时间(空间)域上的模拟信号转换到离散时间(空间)域上的离散信号。采样频率越高,采集的样本数量越多。
- 量化:将信号的连续取值近似为有限个离散值的过程。量化位数越大,量化精度越高。
- 编码:用二进制数表示每个采样的量化值。编码是信息按照某种规则从一种形式转换为另一种形式的过程,解码是其逆过程。
进制及其转换
- 常用进制标识:二进制(B)、八进制(O)、十进制(D)、十六进制(H)。
- 二进制→十进制:按权展开相加。
- 十进制→二进制:除2取余,逆序排列。
- 二进制→十六进制:四位变一位(8421法),不足补0。
- 十六进制→二进制:一位变四位,不足补0。
- 十进制→十六进制:除16取余,逆序排列。
字符编码
- ASCII码:共128个,用1个字节的低7位编码(二进制范围00000000-01111111,十六进制00-7F)。如 'A'(65)、'a'(97)、'0'(49)。
- 汉字编码:分为外码(输入码)、交换码、机内码和字形码。在计算机内部汉字用机内码表示,通常占2个字节。
- 条形码:将宽度不等的多个黑条和白条按照一定编码规则排列,用以表达信息的图形标识符。我国普遍采用EAN13条形码(13位数字)。
- 二维码:用特定几何图形按规律在平面上分布黑白相间的图形记录数据信息,信息存储量更大。不随意扫描非官方二维码是信息社会的基本常识。
多媒体编码与容量计算
- 声音存储容量(Wave格式):
存储容量(B)= 采样频率(Hz)× 量化位数(bit)× 声道数 × 时长(s)/ 8
- 图像存储容量(BMP格式):
存储容量(B)= 水平像素 × 垂直像素 × 颜色位深度(bit)/ 8
- 视频存储容量(未压缩):
存储容量(B)= 帧图像容量(B)× 帧频(fps)× 时长(s)
- 位深度与颜色数:颜色数 = 2^位深度。例如256色图像,位深度为8位。
- 矢量图与位图:矢量图放大不失真、文件小;位图由像素组成,放大失真。
1.4 数据管理与安全
数据管理
- 定义:利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程。
- 发展阶段:人工管理、文件管理、数据库管理。
- 计算机中数据一般以文件形式存储,采用树形目录结构管理。
数据结构类型
- 结构化数据:由二维表结构进行逻辑表达的数据,严格遵循格式与长度规范(如关系型数据库)。
- 半结构化数据:具有一定结构性,但不严格遵循数据模型。
- 非结构化数据:数据结构不规则或不完整,如文本、图片、音频、视频等。
数据安全
- 威胁因素:硬盘驱动器损坏、操作失误、黑客入侵、感染病毒、自然灾害。
- 防护手段:磁盘阵列、数据备份、异地容灾。
- 提高数据本身安全的方法:数据加密(提高保密性)、数据校验(保证完整性,如MD5、CRC、SHA-1)。
1.5 数据与大数据
大数据的定义
- 大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转化为价值。
大数据的特征(4V)
- 数据体量大(Volume)。
- 速度快(Velocity):数据产生速度快,处理速度快。
- 数据类型多(Variety):有人工产生的,也有机器产生的。
- 价值密度低(Value)。
大数据思维
- 分析全体数据,而不是抽样数据。
- 不追求精确性,接受数据的混杂性。
- 注重事物的相关性,不一定强调因果关系。
大数据对社会的影响
- 让生活更加便利,让决策更加精准。
- 带来新的就业需求,也带来信息泄露、数据安全、个人隐私等社会问题。
第二章 算法与问题解决
2.1 算法的概念及描述
算法的概念
- 广义:解决问题或完成任务的一系列步骤。
- 计算机科学领域:用计算机解决问题的步骤,是为了解决问题而让计算机执行的步骤的合集。
算法的特征
- 有穷性:处理步骤有限。
- 可行性:在现实中可以实施并且在有限时间内完成。
- 确定性:每个步骤的执行描述必须明确。
- 输入:0个或多个(可从外部输入或包含在算法中)。
- 输出:1个或多个。
算法的要素
算法的描述方式
流程图常用符号
- 起止框(圆角矩形)、处理框(矩形)、判断框(菱形)、输入/输出框(平行四边形)、流程线(箭头)。
2.2 算法的控制结构
顺序结构
选择结构(分支结构)
- 根据条件判断决定执行哪个分支。包括单分支、双分支、多分支。
循环结构
- 在一定条件下重复执行某些步骤。包括当型循环(先判断后执行)和直到型循环(先执行后判断)。
2.3 用算法解决问题的过程
一般步骤
- 分析问题、设计算法、编写程序、调试运行、得到结果。
第三章 算法的程序实现
3.1 用计算机编程解决问题的一般过程
- 分析问题、设计算法、编写代码、调试运行、检查结果。
3.2 Python语言程序设计
Python基本语法
- 变量不需声明,直接赋值使用。
- 基本数据类型:整型(int)、浮点型(float)、字符串(str)、布尔型(bool)。
- 输入:input(),返回字符串。
- 输出:print()。
运算符
- 算术运算符:+、-、*、/、//(整除)、%(取余)、**(幂)。
- 关系运算符:>、<、>=、<=、==、!=。
- 逻辑运算符:and、or、not。
三种基本结构
- 顺序结构:代码依次执行。
- 选择结构:if、if-else、if-elif-else。
- 循环结构:for循环(用于遍历序列)、while循环(条件循环)。
3.3 简单算法及其程序实现
枚举算法
- 按问题本身的性质,一一列举所有可能的解,并检验每个解是否为问题的真正解。
解析算法
- 用解析的方法找出表示问题的前提条件与结果之间关系的数学表达式,并通过表达式的计算来实现问题求解。
排序算法
查找算法
第四章 数据处理与应用
4.1 常用表格数据的处理
- 表格数据的收集、整理、分析、可视化表达。
- 常用函数:求和(SUM)、平均值(AVERAGE)、最大值(MAX)、最小值(MIN)、计数(COUNT)。
4.2 大数据处理
- 处理流程:数据采集、数据清洗、数据集成、数据变换、数据分析、数据解释。
- 处理技术:分布式存储与计算(如Hadoop、Spark)、NoSQL数据库、数据可视化等。
4.3 大数据典型应用
- 电商推荐系统、精准营销、智慧城市、医疗健康、交通物流、金融风控等。
第五章 人工智能及应用
5.1 人工智能的产生与发展
- 1956年达特茅斯会议标志着人工智能的诞生。
- 发展阶段:符号主义、连接主义、行为主义;从专家系统到机器学习、深度学习。
5.2 人工智能的应用
- 自然语言处理(机器翻译、语音识别)、计算机视觉(人脸识别、图像分类)、专家系统、机器人、自动驾驶、智能推荐等。
5.3 人工智能对社会的影响
- 积极影响:提高生产效率、改善生活质量、推动科技进步。
- 挑战与问题:就业结构变化、隐私安全、伦理道德、算法偏见、责任归属等。