ByteCoding

Created2020-02-04|Computer BasicsComputer Organization

DMP系统 DMP（Data Management Platform，数据管理平台） DMP系统广泛应用在互联网的广告定向，个性化推荐 DMP系统会通过处理海量的互联网访问数据以及机器学习算法，给用户标注上各种各样的标签然后在做个性化推荐和广告投放的时候，再利用这些标签，去做实际的广告排序、推荐等工作对于外部使用DMP的系统或者用户来说，可以简单地把DMP看成一个Key-Value数据库对Key-Value系统的预期，以广告系统为案例低响应时间一般的广告系统留给整个广告投放决策的时间大概是10ms 因此对于访问DMP系统获取用户数据，预期的响应时间都在1ms以内高可用性 DMP系统常用于广告系统，如果DMP系统出问题，意味着在不可用的时间内，整个广告收入是没有的因此，对于可用性的追求是没有上限的高并发如果每天要响应100亿次广告请求，QPS大概是12K 海量数据如果有10亿个Key，每个用户有500个标签，标签有对应的分数标签和分数都用4 Bytes的整数来表示，总共大概需要4TB的数据低成本广告系统的收入通常用CPM（Cost Per Mille，千次曝光...

计算机组成 -- DMA

Created2020-02-03|Computer BasicsComputer Organization

背景无论IO速度如何提升，比起CPU，还是太慢，SSD的IOPS可以达到2W，但CPU的主频有2GHz 对于IO操作，都是由CPU发出对应的指令，然后等待IO设备完成操作后返回，CPU有大量的时间都是在等待IO设备完成操作在很多时候，CPU的等待是没有太多的实际意义的对于IO设备的大量操作，其实都只是把内存里面的数据，传输到IO设备而已，此时CPU只是在傻等当传输的数据量比较大的时候，如大文件复制，如果所有数据都要经过CPU，实在有点太浪费时间因此发明了DMA技术，即直接内存访问（Direct Memory Access），来减少CPU等待的时间协处理器本质上，DMA技术就是在主板上一块独立的芯片在进行内存和IO设备的数据传输的时候，不再通过CPU来传输数据而直接通过DMA控制器（DMA Controller，DMAC），其实是一个协处理器（Co-Processor） DMAC最有价值的地方：当要传输的数据特别大，速度特别快，或者传输的数据特别小、速度特别慢的时候用千兆网卡或者硬盘传输大量数据的时候，如果都用CPU来搬运的话，肯定忙不过来，可以选择DMAC 当数据传...

计算机组成 -- SSD

Created2020-02-02|Computer BasicsComputer Organization

对比访问类型机械硬盘（HDD）固态硬盘（SSD）随机读慢非常快随机写慢快顺序写快非常快耐用性（重复擦写）非常好差读写原理 CPU Cache用的SRAM是用一个电容来存放一个比特的数据对于SSD硬盘，由一个电容加上一个电压计组合在一起，就可以记录一个或多个比特分类 SLC：Single-Level Cell MLC：Multi-Level Cell TLC：Triple-Level Cell QLC：Quad-Level Cell QLC 想要表示15个不同的电压，充电和读取的时候，对精度的要求就会更高，这会导致充电和读取的时候更慢 QLC的SSD的读写速度要比SLC慢上好几倍 PE擦写问题控制电路常用的是SATA或者PCI Express接口，里面有一个很重要的模块：FTL（Flash-Translation Layer），即内存转换层 FTL是SSD的核心模块，SSD性能的好坏很大程度上取决于FTL的算法好不好实际的IO设备新的大容量SSD都是3D封装的，即由很多裸片（Die）叠在一起（跟HDD有点类似）...

计算机组成 -- HDD

Created2020-02-01|Computer BasicsComputer Organization

物理构造一块机械硬盘由盘面、磁头、悬臂三个部件组成盘面盘面（Disk Platter）是我们实际存储数据的盘片盘面本身通常是用铝、玻璃或者陶瓷这样的材质去做成光滑盘片，然后在盘面上有一层磁性的涂层，数据就存储在磁性的涂层上盘面中间有一个受电机控制的转轴（控制盘面去旋转），转速：RPM（Rotations Per Minute）磁头通过磁头（Drive Head），从盘面上读取数据，然后再通过电路信号传输给控制电路和接口，再到总线上通常，一个盘面上会有两个磁头，分别是盘面的正反面，盘面在正反面都有对应的磁性涂层来存储数据一块硬盘不会只有一个盘面，而且上下堆叠了很多个盘面，各个盘面之间是平行的，每个盘面的正反两面都有对应的磁头悬臂悬臂（Actutor Arm）链接在磁头上，并且在一定范围内去把磁头定位到盘面的某个特定磁道（Track）上一个盘面通常是圆形的，由很多同心圆组成，每个同心圆都是一个磁道，每个磁道都有编号随机读写一个磁道，会分成多个扇区（Sector），上下平行的盘面的相同扇区，组成一个柱面（Cylinder）数据读取的步骤把盘面旋转到某个位置，在这个位...

计算机组成 -- IO_WAIT

Created2020-01-31|Computer BasicsComputer Organization

IO性能硬盘厂商的性能报告：响应时间（Response Time）、数据传输率（Data Transfer Rate） HDD硬盘一般用的是SATA 3.0的接口；SSD硬盘通常会用两种接口，一部分用SATA 3.0接口，另一部分用PCI Express接口数据传输率 SATA 3.0接口的带宽是6Gb/s ≈ 768MB/s 日常用的HDD硬盘的数据传输率，一般在200MB/s SATA 3.0接口的SSD的数据传输率差不多是500MB/s PCI Express接口的SSD，读取时的数据传输率能到2GB/s，写入时的数据传输率也能有1.2GB/s，大致是HDD的10倍响应时间程序发起一个硬盘的读取或写入请求，直到请求返回的时间 SSD的响应时间大致在几十微秒这个级别，HDD的响应时间大致在十几毫秒这个级别，相差几十倍到几百倍 IOPS 每秒读写的次数，相对于响应时间，更关注IOPS这个性能指标在顺序读写和随机读写的情况下，硬盘的性能是完全不同的 IOPS和DTR才是IO性能的核心指标在实际的应用开发当中，对于数据...

计算机组成 -- IO设备

Created2020-01-30|Computer BasicsComputer Organization

接口 + 设备 – 适配器模式大部分的输入输出设备，都有两个组成部分，一个是接口，另一个是实际的IO设备硬件设备并不是直接接入到总线上和CPU通信的，而是通过接口，用接口连接到总线上，再通过总线和CPU通信串行接口、USB接口等都是计算机主板上内置的各个接口，实际使用的硬件设备，都需要插入到这些接口上，才能和CPU通信接口本身是一块电路板，CPU不需要和实际的硬件设备打交道，只需要和这个接口电路板打交道设备里面的三类寄存器（状态寄存器、命令寄存器、数据寄存器），都在接口电路上，而不在实际的设备上除了内置在主板上的接口外，有些接口可以集成在设备上 – IDE（Integrated Device Electronics）硬盘设备的接口电路直接在设备上，只需要通过一个线缆，把集成了接口的设备连接到主板上即可接口和设备分离：各种输入输出设备的制造商，根据接口的控制协议，来设计各种外设 Windows设备管理器 Devices：着重实际的IO设备本身 Controllers：着重输入输出设备接口里面的控制电路 Adaptors：着重接口作为一个适配器后面可以插上不同的实际设备 C...

计算机组成 -- 总线

Created2020-01-29|Computer BasicsComputer Organization

设计来源：降低复杂度计算机内部有很多不同的硬件设备，除了CPU和内存，还有大量的输入输出设备如果各个设备间的通信，都是互相之间单独进行的，如果有N个不同的设备，他们之间需要各自单独连接，那么系统复杂度为**$N^2$** 为了简化系统的复杂度，引入了总线，把**$N^2$复杂度，变成了$N$**的复杂度 CPU想要和什么设备通信，通信的指令是什么，对应的数据是什么，都发送到这个线路上设备想要向CPU发送什么消息，也发送到这条线路上这条线路好像一个高速公路，各个设备和其他设备之间，不需要单独建公路，只需要建一条小路通向这条高速公路即可总线（Bus），其实就是一组线路，CPU、内存、输入输出设备，都是通过这组线路，进行相互间通信的设计模式：事件总线在大型系统开发的过程中，经常会用到一种叫作事件总线（Event Bus）的设计模式系统中的各个组件之间需要相互通信，如果两两之间单独去定义协议，复杂度为**$N^2$** 各个模块触发对应的事件，并把事件对象发送到总线上，即每个模块都是一个发布者（Publisher）各个模块也会把自己注册到总线上，去监听总线上的事件并根据事件的对...

计算机组成 -- 内存

Created2020-01-28|Computer BasicsComputer Organization

程序装载在Linux或Windows下，程序并不能直接访问物理内存内存需要被分成固定大小的页，然后通过虚拟内存地址到物理内存地址的地址转换，才能到达实际存放数据的物理内存位置程序看到的内存地址，都是虚拟内存地址地址转换简单页表页表（Page Table，一一映射）：<**虚拟**内存的页, **物理**内存的页> 页表：把一个内存地址分成页号（Directory）和偏移量（Offset）两部分前面的高位，是内存地址的页号；后面的低位，是内存地址的偏移量页表只需要保留虚拟内存地址的页号和物理内存地址的页号之间的映射关系即可同一个页里面的内存，在物理层面是连续的对于32位的内存地址，4KB大小的页，需要保留20位的高位，12位的低位内存地址转换步骤把虚拟内存地址，切分成页号和偏移量从页表里面，查询出虚拟页号对应的物理页号直接拿到物理页号，加上前面的偏移量，得到物理内存地址空间问题 32位的内存地址空间，页表一共需要记录2^20个到物理页号的映射关系一个页号是完整的32位的4 Bytes，一个页表就需要4MB的空间（2^20 * 4 Byt...

计算机组成 -- MESI协议

Created2020-01-27|Computer BasicsComputer Organization

缓存一致性问题 iPhone降价了，要把iPhone最新的价格更新到主内存里，为了性能问题，采用写回策略先把数据写入到L2 Cache里，然后把Cache Block标记为脏的此时数据其实没有被同步到L3 Cache或主内存里 1号核心希望在这个Cache Block要被交换出去的时候，数据才写入到主内存里此时2号核心尝试从内存里读取iPhone的价格，就会读取一个错误的价格缓存一致性问题：1号核心和2号核心的缓存，此时是不一致的同步机制能够达到的目标写传播（Write Propagation）在一个CPU核心里面的Cache数据更新，必须能够传播到其他对应节点的Cache Line里事务串行化（Transaction Serialization）在一个CPU核心里面的读取和写入，在其他节点看起来，顺序是一样的事务串行化 1号核心先把iPhone的价格改成5000，差不多时间，2号核心把iPhone的价格改成6000，这两个修改会传播到3号核心和4号核心 3号核心先收到2号核心的写传播，再收到1号核心的写传播；4号核心刚好相反虽然写传播做到了，...

计算机组成 -- 高速缓存

Created2020-01-26|Computer BasicsComputer Organization

缓存行1234567$ sysctl -a | grep -E 'cacheline|cachesize'hw.cachesize: 17179869184 32768 262144 6291456 0 0 0 0 0 0hw.cachelinesize: 64 # 64 Byteshw.l1icachesize: 32768 # 32 KBhw.l1dcachesize: 32768 # 32 KBhw.l2cachesize: 262144 # 256 KBhw.l3cachesize: 6291456 # 6 MB 1234567891011121314151617181920212223242526public static void f1() { int[] arr = new int[64 * 1024 * 1024]; long start = System.currentTimeMillis(); for (int i = 0; i < arr.length; i++) { arr[i] *= 3; ...