go语言线程池机制 go语言多线程

怎么让cgo 调用可以绕过线程池

go 语言中，可以通过 cgo 来调用 C 库。但是由于 goroutine 的机制，外部的 C 函数调用可能能够很快返回，也可能执行很长时间。为了 goroutine 调度不被阻塞，就一律对每个 cgo 调用都从线程池中取一个线程来执行，完成后再返回原 goroutine。这样一来，每个 cgo 调用都带来了巨大的额外开销。所以 go 的很多库在实现时，都没有通过包装 C 库，而是选择完全用 go 来实现。这就使得 go 少了大量现有的 C 库可以利用。

我们提供的服务有：成都网站建设、网站制作、微信公众号开发、网站优化、网站认证、苏仙ssl等。为近1000家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的苏仙网站制作公司

读过 go 的代码后发现，要让 cgo 调用不通过线程池调用其实并不算很麻烦，所以就自己修改了一下 cgo 命令。如下面的代码中

package cgo//// int add(int a, int b) {// int ret = a + b;// return ret;// }//import "C"func CAdd(a, b int) int { return int(C.add(C.int(a), C.int(b)))}func AsmCAdd(a, b int) int { return int(c.add(C.int(a), C.int(b)))}

C.add 是传统的 cgo 调用方式。c.add 则是修改后

golang sync.pool对象复用并发原理缓存池

在go http每一次go serve(l)都会构建Request数据结构。在大量数据请求或高并发的场景中，频繁创建销毁对象，会导致GC压力。解决办法之一就是使用对象复用技术。在http协议层之下，使用对象复用技术创建Request数据结构。在http协议层之上，可以使用对象复用技术创建(w,*r,ctx)数据结构。这样即可以回快TCP层读包之后的解析速度，也可也加快请求处理的速度。

先上一个测试：

结论是这样的：

貌似使用池化，性能弱爆了？？？这似乎与net/http使用sync.pool池化Request来优化性能的选择相违背。这同时也说明了一个问题，好的东西，如果滥用反而造成了性能成倍的下降。在看过pool原理之后，结合实例，将给出正确的使用方法，并给出预期的效果。

sync.Pool是一个协程安全的临时对象池。数据结构如下：

local 成员的真实类型是一个 poolLocal 数组，localSize 是数组长度。这涉及到Pool实现，pool为每个P分配了一个对象，P数量设置为runtime.GOMAXPROCS(0)。在并发读写时，goroutine绑定的P有对象，先用自己的，没有去偷其它P的。go语言将数据分散在了各个真正运行的P中，降低了锁竞争，提高了并发能力。

不要习惯性地误认为New是一个关键字，这里的New是Pool的一个字段，也是一个闭包名称。其API：

如果不指定New字段，对象池为空时会返回nil，而不是一个新构建的对象。Get()到的对象是随机的。

原生sync.Pool的问题是，Pool中的对象会被GC清理掉，这使得sync.Pool只适合做简单地对象池，不适合作连接池。

pool创建时不能指定大小，没有数量限制。pool中对象会被GC清掉，只存在于两次GC之间。实现是pool的init方法注册了一个poolCleanup()函数，这个方法在GC之前执行，清空pool中的所有缓存对象。

为使多协程使用同一个POOL。最基本的想法就是每个协程，加锁去操作共享的POOL，这显然是低效的。而进一步改进，类似于ConcurrentHashMap（JDK7）的分Segment，提高其并发性可以一定程度性缓解。

注意到pool中的对象是无差异性的，加锁或者分段加锁都不是较好的做法。go的做法是为每一个绑定协程的P都分配一个子池。每个子池又分为私有池和共享列表。共享列表是分别存放在各个P之上的共享区域，而不是各个P共享的一块内存。协程拿自己P里的子池对象不需要加锁，拿共享列表中的就需要加锁了。

Get对象过程：

Put过程：

如何解决Get最坏情况遍历所有P才获取得对象呢：

方法1止前sync.pool并没有这样的设置。方法2由于goroutine被分配到哪个P由调度器调度不可控，无法确保其平衡。

由于不可控的GC导致生命周期过短，且池大小不可控，因而不适合作连接池。仅适用于增加对象重用机率，减少GC负担。2

执行结果:

单线程情况下，遍历其它无元素的P，长时间加锁性能低下。启用协程改善。

结果：

测试场景在goroutines远大于GOMAXPROCS情况下，与非池化性能差异巨大。

测试结果

可以看到同样使用*sync.pool，较大池大小的命中率较高，性能远高于空池。

结论：pool在一定的使用条件下提高并发性能，条件1是协程数远大于GOMAXPROCS，条件2是池中对象远大于GOMAXPROCS。归结成一个原因就是使对象在各个P中均匀分布。

池pool和缓存cache的区别。池的意思是，池内对象是可以互换的，不关心具体值，甚至不需要区分是新建的还是从池中拿出的。缓存指的是KV映射，缓存里的值互不相同，清除机制更为复杂。缓存清除算法如LRU、LIRS缓存算法。

池空间回收的几种方式。一些是GC前回收，一些是基于时钟或弱引用回收。最终确定在GC时回收Pool内对象，即不回避GC。用java的GC解释弱引用。GC的四种引用：强引用、弱引用、软引用、虚引用。虚引用即没有引用，弱引用GC但有空间则保留，软引用GC即清除。ThreadLocal的值为弱引用的例子。

regexp 包为了保证并发时使用同一个正则，而维护了一组状态机。

fmt包做字串拼接，从sync.pool拿[]byte对象。避免频繁构建再GC效率高很多。

golang协程调度模式解密

golang学习笔记

频繁创建线程会造成不必要的开销，所以才有了线程池。在线程池中预先保存一定数量的线程，新任务发布到任务队列，线程池中的线程不断地从任务队列中取出任务并执行，可以有效的减少创建和销毁带来的开销。

过多的线程会导致争抢cpu资源，且上下文的切换的开销变大。而工作在用户态的协程能大大减少上下文切换的开销。协程调度器把可运行的协程逐个调度到线程中执行，同时即时把阻塞的协程调度出协程，从而有效地避免了线程的频繁切换，达到了少量线程实现高并发的效果。

多个协程分享操作系统分给线程的时间片，从而达到充分利用CPU的目的，协程调度器决定了则决定了协程运行的顺序。每个线程同一时刻只能运行一个协程。

go调度模型包含三个实体：

每个处理器维护者一个协程G的队列，处理器依次将协程G调度到M中执行。

每个P会周期性地查看全局队列中是否有G待运行并将其调度到M中执行，全局队列中的G主要来自系统调用中恢复的G.

如果协程发起系统调用，则整个工作线程M被阻塞，协程队列中的其他协程都会阻塞。

一般情况下M的个数会略大于P个数，多出来的M将会在G产生系统调用时发挥作用。与线程池类似，Go也提供M池子。当协程G1发起系统掉用时，M1会释放P,由 M1-P-G1 G2 ... 转变成 M1-G1 , M2会接管P的其他协程 M2-P-G2 G3 G4... 。

冗余的M可能来源于缓存池，也可能是新建的。

当G1结束系统调用后，根据M1是否获取到P,进行不用的处理。

多个处理P维护队列可能不均衡，导致部分处理器非常繁忙，而其余相对空闲。产生原因是有些协程自身不断地派生协程。

为此Go调度器提供了工作量窃取策略，当某个处理器P没有需要调度的协程时，将从其他处理中偷取协程，每次偷取一半。

抢占式调度，是指避免某个协程长时间执行，而阻碍其他协程被调度的机制。

调度器监控每个协程执行时间，一旦执行时间过长且有其他协程等待，会把协程暂停，转而调度等待的协程，以达到类似时间片轮转的效果。比如for循环会一直占用执行权。

在IO密集型应用，GOMAXPROCS大小设置大一些，获取性能会更好。

IO密集型会经常发生系统调用，会有一个新的M启用或创建，但由于Go调度器检测M到被阻塞有一定延迟。如果P数量多，则P管理协程队列会变小。

Go语言——goroutine并发模型

参考：

Goroutine并发调度模型深度解析手撸一个协程池

Golang 的 goroutine 是如何实现的？

Golang - 调度剖析【第二部分】

OS线程初始栈为2MB。Go语言中，每个goroutine采用动态扩容方式，初始2KB，按需增长，最大1G。此外GC会收缩栈空间。

BTW，增长扩容都是有代价的，需要copy数据到新的stack，所以初始2KB可能有些性能问题。

更多关于stack的内容，可以参见大佬的文章。聊一聊goroutine stack

用户线程的调度以及生命周期管理都是用户层面，Go语言自己实现的，不借助OS系统调用，减少系统资源消耗。

Go语言采用两级线程模型，即用户线程与内核线程KSE（kernel scheduling entity）是M:N的。最终goroutine还是会交给OS线程执行，但是需要一个中介，提供上下文。这就是G-M-P模型

Go调度器有两个不同的运行队列：

go1.10\src\runtime\runtime2.go

Go调度器根据事件进行上下文切换。

调度的目的就是防止M堵塞，空闲，系统进程切换。

详见 Golang - 调度剖析【第二部分】

Linux可以通过epoll实现网络调用，统称网络轮询器N（Net Poller）。

文件IO操作

上面都是防止M堵塞，任务窃取是防止M空闲

每个M都有一个特殊的G，g0。用于执行调度，gc，栈管理等任务，所以g0的栈称为调度栈。g0的栈不会自动增长，不会被gc，来自os线程的栈。

go1.10\src\runtime\proc.go

G没办法自己运行，必须通过M运行

M通过通过调度，执行G

从M挂载P的runq中找到G，执行G

golang的线程模型——GMP模型

内核线程（Kernel-Level Thread ，KLT）

轻量级进程（Light Weight Process,LWP）：轻量级进程就是我们通常意义上所讲的线程，由于每个轻量级进程都由一个内核线程支持，因此只有先支持内核线程，才能有轻量级进程

用户线程与系统线程一一对应，用户线程执行如lo操作的系统调用时，来回切换操作开销相对比较大

多个用户线程对应一个内核线程，当内核线程对应的一个用户线程被阻塞挂起时候，其他用户线程也阻塞不能执行了。

多对多模型是可以充分利用多核CPU提升运行效能的

go线程模型包含三个概念：内核线程(M)，goroutine(G),G的上下文环境（P）；

GMP模型是goalng特有的。

P与M一般是一一对应的。P（上下文）管理着一组G（goroutine）挂载在M（内核线程）上运行，图中左边蓝色为正在执行状态的goroutine，右边为待执行状态的goroutiine队列。P的数量由环境变量GOMAXPROCS的值或程序运行runtime.GOMAXPROCS()进行设置。

当一个os线程在执行M1一个G1发生阻塞时，调度器让M1抛弃P，等待G1返回，然后另起一个M2接收P来执行剩下的goroutine队列（G2、G3...），这是golang调度器厉害的地方，可以保证有足够的线程来运行剩下所有的goroutine。

当G1结束后，M1会重新拿回P来完成，如果拿不到就丢到全局runqueue中，然后自己放到线程池或转入休眠状态。空闲的上下文P会周期性的检查全局runqueue上的goroutine，并且执行它。

另一种情况就是当有些P1太闲而其他P2很忙碌的时候，会从其他上下文P2拿一些G来执行。

详细可以翻看下方第一个参考链接，写得真好。

最后用大佬的总结来做最后的收尾————

Go语言运行时，通过核心元素G，M，P 和自己的调度器，实现了自己的并发线程模型。调度器通过对G，M，P的调度实现了两级线程模型中操作系统内核之外的调度任务。整个调度过程中会在多种时机去触发最核心的步骤 “一整轮调度”，而一整轮调度中最关键的部分在“全力查找可运行G”，它保证了M的高效运行（换句话说就是充分使用了计算机的物理资源），一整轮调度中还会涉及到M的启用停止。最后别忘了，还有一个与Go程序生命周期相同的系统监测任务来进行一些辅助性的工作。

浅析Golang的线程模型与调度器

Golang CSP并发模型

Golang线程模型

分享文章：go语言线程池机制 go语言多线程
当前URL：http://ybzwz.com/article/doopeed.html