多线程的目的

  1. 使用多线程的目的是为了_提高程序性能_
  2. 度量程序性能的核心指标:_延迟 + 吞吐量_
    • 延迟:发出请求到收到响应的时间,延迟越短,意味着程序执行得越快,性能越好
    • 吞吐量:在单位时间内能处理请求的数量,吞吐量越大,意味着程序能处理的请求越多,性能越好
    • 同等条件下,延迟越短,吞吐量越大,但两者隶属于不同的维度(一个时间维度,一个空间维度),并不能互相转换
  3. 提升程序性能:_降低延迟,提高吞吐量_

多线程的应用场景

  1. 要达到降低延迟,提高吞吐量的目的,有两个方向:一个是优化算法,一个是_将硬件的性能发挥到极致_
    • 前者属于算法范畴,后者与并发编程息息相关
  2. 并发编程领域,_提高性能本质上就是要提高硬件的利用率_,主要是提升IO利用率CPU利用率
  3. 操作系统解决硬件利用率问题的对象往往是单一的硬件设备,而并发编程要解决CPU和IO设备综合利用率的问题

综合利用率

假设程序按照CPU计算IO操作交叉执行的方式运行,而且CPU计算和IO操作的耗时是1:1

单线程

  1. 单线程时,执行CPU计算的时候,IO设备空闲,执行IO操作时,CPU空闲,所以CPU利用率和IO设备的利用率都是50%

两线程

  1. 两个线程时,当线程A执行CPU计算时,线程B执行IO操作,当线程A执行IO操作时,线程B执行CPU计算
  2. 这样CPU利用率和IO设备的利用率都达到了100%,相对于单线程吞吐量提高了1倍
  3. 逆向思维:如果CPU和IO设备的利用率都很低,可以通过增加线程提高吞吐量

多核

  1. 单核时代,多线程主要用来_平衡CPU和IO设备_
    • 如果程序只有CPU计算,那么多线程反而会让性能变差,因为增加了线程切换的成本
  2. 多核时代,纯CPU计算的程序可以利用多线程来提升性能,因为利用多核可以_降低响应时间_
    • 例如对于4核CPU,可以将一个计算任务拆分成4个独立的子任务,交由4个线程分别在4个核上执行
    • 采用单线程时CPU的利用率只有25%,而采用4线程时能将CPU的利用率提高到100%

线程数量

需要依据具体的应用场景来确定线程数量:_CPU密集型_ + IO密集型

CPU密集型

  1. 对于CPU密集型来说,多线程本质上是要_提升CPU的利用率_
  2. 为了减少线程切换的成本,理论上设置为CPU核数即可
  3. 但在工程上,一般会设置成CPU核数+1,这是为了保证CPU的利用率(在某个线程阻塞时,额外的线程能够补上)

IO密集型

单核

最佳线程数 = 1 + (IO耗时 / CPU耗时)

三线程
  1. 如果CPU计算和IO操作的耗时比是1:2
  2. 对于线程A,当CPU从线程B、C切换回来时,线程A正好执行完IO操作,这样CPU和IO设备的利用率都达到了100%

多核

最佳线程数 = CPU核数 * [1 + (IO耗时 / CPU耗时)]

关键参数

  1. 对于IO密集型的应用场景,关键参数是IO耗时/CPU耗时,但这个参数是动态变化
  2. 因此,如果要估算这个参数,需要做各个不同场景下的压测
    • 在压测的过程中,要重点关注CPU、IO设备的利用率和性能指标(延迟+吞吐量)之间的关系

参考资料

Java并发编程实战