vhost dpdk 共享内存

KVM-Qemu方案中，GPA->HVA的转换，是通过ioctl中的KVM_SET_USER_MEMORY_REGION命令来实现的，如下图：

HVA->HPA

光有了GPA->HVA，似乎还是跟Hypervisor没有太大关系，到底是怎么去访问物理内存的呢？貌似也没有看到去建立页表映射啊？
跟我走吧，带着问题出发！

之前内存管理相关文章中提到过，用户态程序中分配虚拟地址vma后，实际与物理内存的映射是在page fault时进行的。那么同样的道理，我们可以顺着这个思路去查找是否HVA->HPA的映射也是在异常处理的过程中创建的？答案是显然的。

异常处理函数arm_exit_handlers如下，具体调用选择哪个处理函数，是根据ESR_EL2, Exception Syndrome Register(EL2)中的值来确定的。

这个函数表，发现ESR_ELx_EC_DABT_LOW和ESR_ELx_EC_IABT_LOW两个异常，这不就是指令异常和数据异常吗，我们大胆的猜测，HVA->HPA映射的建立就在kvm_handle_guest_abort函数中。

虚拟机内存初始化

qemu中用AddressSpace用来表示CPU/设备看到的内存，两个全局 Address_sapce: address_space_memory、 address_space_io，地址空间之间通过链表连接起来

kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);来修改Guest的内存空间的

在kvm_init()函数中主要做如下几件事情：
1、s->fd = qemu_open("/dev/kvm", O_RDWR)，打开kvm控制的总设备文件/dev/kvm
2、s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0)，调用创建虚拟机的API，对应Linux kernel中的创建流程，请全文搜索kernel，关键词“KVM_CREATE_VM”
3、kvm_check_extension，检查各种extension，并设置对应的features
4、ret = kvm_arch_init(s)，做一些体系结构相关的初始化，如msr、identity map、mmu pages number等等
5、kvm_irqchip_create，调用kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP)在KVM中虚拟IRQ芯片，详细流程请全文搜索
6、memory_listener_register，该函数是初始化内存的主要函数，

memory_listener_register调用了两次，分别注册了 kvm_memory_listener和kvm_io_listener，即通用的内存和MMIO是分开管理的。

以通用的内存注册为例，函数首先在全局的memory_listener链表中添加了kvm_memory_listener，之后调用listener_add_address_space分别将该listener添加到address_space_memory和address_space_io中, address_space_io是虚机的io地址空间（设备的io port就分布在这个地址空间里）

然后调用listener的region_add（即kvm_region_add()），该函数最终调用了kvm_set_user_memory_region()，其中调用kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem)，该调用是最终将内存区域注册到kvm中的函数。

KVM_SET_USER_MEMORY_REGION kvm_vm_ioctl_set_memory_region

数据结构部分已经罗列了大体的关系，那么在KVM_SET_USER_MEMORY_REGION时，围绕的操作就是slots的创建、删除，更新等操作，话不多说，来图了：

kvm_handle_guest_abort

内存初始化

所以在函数起始，就对system_memory分配了内存，然后调用了memory_region_init函数对其进行初始化，其中size设置为整个地址空间：如果是64位就是2^64.接着调用了address_space_init函数对address_space_memory进行了初始化。

设备内存

MemoryRegionSection

在内存虚拟化中，一个重要的结构是 MemoryRegionSection ，这个结构通过函数 section_from_flat_range 可由 FlatRange 转换过来。

staticvoid listener_add_address_space(MemoryListener *listener, AddressSpace *as)

QEMU下的内存结构体很多了，RAMBlock，MemoryRegion，AddressSpace，MemoryRegionSection，KVMSlot和kvm_userspace_memory_region

vhost_commit

linux kernel

hw/virtio/vhost-backend.c:99:static int vhost_kernel_set_mem_table(struct vhost_dev *dev,
hw/virtio/vhost-backend.c:304: .vhost_set_mem_table = vhost_kernel_set_mem_table,

kernel code

vring

Guest、Host之间通过通过共享vring buffer的方式完成数据报文传递，相关数据结构如下，其中vring_virtqueue为Guest侧数据结构，vhost_virtqueue为Host侧数据结构；

qemu侧vring地址初始化

cpu_physical_memory_map() ->address_space_map() -> address_space_translate-> address_space_translate_internal函数完成gpa到hva的转换

Virtio-net数据结构

先了解一下普通的环形队列，它经常用于生产者/消费者的模型。比如virtio-net网卡recv流程中，网卡设备只管往ring中添加报文，而网卡驱动只需要从ring里不断的读取报文。如下图所示，通常来说我们只需要两个指针便能知道环形队列中的有效数据位置。

再来了解一下virtio网卡驱动的数据结构（virtio-net前端，在内核驱动代码中，数据结构如下图所示，注意，这是内核中的数据结构）。为了简单起见，我们不讨论它的原理，只说明用途。

VirtQueue是虚拟队列，用于描述队列的使用情况。Virtio网卡有一个读队列和一个写队列。

Vring是环形队列结构体：他用于记录缓冲区描述符、可用缓冲区描述符、已用缓冲区描述符的情况。

Vring->desc是一个结构体数组的首地址，其中每一个数组元素是一个描述缓冲区的结构体，也称为描述符数组。每个元素中都有一个next变量执行下一个元素。其实desc是一个数组方式实现的环形队列的首地址。

Vring->avail成员变量是一个用于描述 desc中可用的描述符的结构。 Vring->used是描述已经使用的描述符。（其实很多驱动中avail和used都简单的设计成两个指针，用于指向当前可用的描述符起始位置和已用的描述符起始位置。而virtio中他们被设计成了指针数组，这使得整个流程看起来很复杂。指针数组这样的实现可以避免因为其中某一个描述符的处理阻塞而导致整个生产线阻塞的情况）

从上图看出如果要获取网卡队列缓冲区的地址，我们只需要知道虚拟机内核中的Vring结构体中的desc、avail这些值即可。在Qemu中也有VRing结构体，他们与内核中的Vring对应，实际上它是从内核中获取的。

通过sourceinsight references可以知道有两个函数可以设置QEMU中vring的desc、avail、used成员变量，分别是virtio_queue_set_rings和virtio_queue_set_addr。

virtio_queue_set_rings被virtio_pci_common_write调用，而virtio_pci_common_write是virtio_pci_modern_regions_init注册的IO内存区域的回调，它会在MMIO的处理流程address_space_rw中被调用到（MMIO简单说明：在CPU看来，所有的设备和内存都一样，都是一段地址空间。X86的物理地址空间和PCI地址空间是重叠的，他们通过PCI控制器隔离开来。CPU可以通过PIO和MMIO这两种方式来访问这些设备的寄存器。PIO是用IN、OUT这样的IO指令来访问这些寄存器；而MMIO则把PCI设备的寄存器地址DMA映射到一段物理内存中，这么一来CPU访问PCI寄存器就跟访问内存一样，而不需要IN、OUT这样的指令。PIO是使用IO、OUT这样的敏感指令，所以会从guest模式退出到root模式并被KVM模拟；但是MMIO是普通的内存访问指令，普通的内存存取是不会退出到root模式的。为了捕获并模拟MMIO，KVM不会为MMIO映射的内存建立页表，这样在MMIO的时候就会出现缺页异常而退出到KVM并被模拟）。

传给virtio_queue_set_rings的desc是proxy结构中的成员变量，他们是在virtio_pci_common_write函数中的VIRTIO_PCI_COMMON_Q_DESCLO、VIRTIO_PCI_COMMON_Q_DESCHI中被赋值的，很显然他们也都是虚拟机中MMIO的时候被KVM截获到的。查看内核virtio-net驱动代码便明白了，desc是在virtio_pci_modern.c的setup_vq函数中写入的：

vp_iowrite64_twopart(virt_to_phys(info->queue), &cfg->queue_desc_lo, &cfg->queue_desc_hi);

setup_vq函数往queue_desc_lo和queue_desc_hi这两个寄存器映射的内存中写入了网卡缓冲区描述符结构体数组的地址info->queue，setup_vq函数中还用同样的方式写入了avail和used这两个寄存器（modern模式）。

简单的说就是虚拟机驱动中往virtio网卡的寄存器中写入了网卡缓冲区描述符的首地址，然后这个写入动作被KVM捕获并传给QEMU，这样QEMU就可以找到网卡缓冲区的地址（这个地址是虚拟机的物理地址，QEMU中使用它之前还需要进行转换）

guest 中设置vring的desc、avail、used成员变量，分别是 virtqueue_add_split

将vring的地址传递给dpdk

vq->avail_phys = a = virtio_queue_get_avail_addr(vdev, idx);
vq->avail = vhost_memory_map(dev, a, &l, false);

vq->used_phys = a = virtio_queue_get_used_addr(vdev, idx);
vq->used = vhost_memory_map(dev, a, &l, true);

vhost_memory_region

qemu侧 vhost_user_set_mem_table

在virtio_net结构中保存有指向当前连接对应的memory结构rte_vhost_memory

qemu侧

dpdk核心部分：

首先就是为dev分配mem空间，由此我们也可以得到该结构的布局

下面一个for循环对每个region先进行对应信息的复制，然后对该region的大小进行对其操作，接着通过mmap的方式对region关联的fd进行映射，这里便得到了region在vhost端的虚拟地址，但是region中GPA对应的虚拟地址还需要在mmap得到的虚拟地址上加上offset，该值也是作为参数传递进来的。到此，设置memory Table的工作基本完成，看下地址翻译过程呢？

相当简单把，核心思想是先使用QVA确定在哪一个region，然后取地址在region中的偏移，加上该region在vhost-user映射的实际有效地址即reg->host_user_addr字段。这部分还有一个核心思想是fd的使用，vhost_user_set_mem_table直接从MSG中获取到了fd，然后直接把FD进行mmap映射，这点一时间让我难以理解，FD不是仅仅在进程内部有效么？怎么也可以共享了？？通过向开源社区请教，感叹自己的知识面实在狭窄，这是Unix下一种通用的传递描述符的方式，怎么说呢？就是进程A的描述符可以通过特定的调用传递给进程B，进程B在自己的描述符表中分配一个位置给该描述符指针，因此实际上进程B使用的并不是A的FD，而是自己描述符表中的FD，但是两个进程的FD却指向同一个描述符表，就像是增加了一个引用而已。后面会专门对该机制进行详解，本文仅仅了解该作用即可。

vhost_memory_region用来tx的时候Convert guest physical address to host physical address

virtio_dev_tx_single_packed_zmbuf-->vhost_dequeue_single_packed-->copy_desc_to_mbuf-->gpa_to_hpa

virtio_dev_rx--> virtio_dev_rx_split --> reserve_avail_buf_split --> fill_vec_buf_split -->vhost_iova_to_vva 不要调用gpa_to_hpa

地址转换vhost_iova_to_vva

virtio_dev_rx--> virtio_dev_rx_split --> reserve_avail_buf_split --> fill_vec_buf_split -->vhost_iova_to_vva

vhost_user_set_vring_num

QEMU中需要有函数通过UNIX套接口发送内存地址信息到DPDK中。

实际上，QEMU中有一个与DPDK的消息处理函数类型的处理函数。
qemu-3.0.0/contrib/libvhost-user/libvhost-user.c

virtio告知DPDK共享内存的virtio queues内存地址

DPDK使用函数vhost_user_set_vring_addr将virtio的描述符、已用环和可用环地址转化为DPDK自身的地址空间。

总结

memory_region_get_ram_ptr

kvm_set_phys_mem

vhost_memory_region

guest notify -->VM-exit

前面已经提到前端或者后端完成某个操作需要通知另一端的时候需要某种notify机制。这个notify机制是啥呢？这里分为两个方向

前面也已经介绍，当前端想通知后端时，会调用virtqueue_kick函数，继而调用virtqueue_notify，对应virtqueue结构中的notify函数，在初始化的时候被初始化成vp_notify（virtio_pci.c中），看下该函数的实现

可以看到这里仅仅是吧vq的index编号写入到设备的IO地址空间中，实际上就是设备对应的PCI配置空间中VIRTIO_PCI_QUEUE_NOTIFY位置。这里执行IO操作会引发VM-exit，继而退出到KVM->qemu中处理。看下后端驱动的处理方式。在qemu代码中virtio-pci.c文件中有函数virtio_ioport_write专门处理前端驱动的IO写操作，看

这里首先判断队列号是否在合法范围内，然后调用virtio_queue_notify函数，而最终会调用到virtio_queue_notify_vq，该函数其实仅仅调用了VirtQueue结构中绑定的处理函数handle_output，该函数根据不同的设备有不同的实现，比如网卡有网卡的实现，而块设备有块设备的实现。以网卡为例看看创建VirtQueue的时候给绑定的是哪个函数。在virtio-net,c中的virtio_net_init，可以看到这里给接收队列绑定的是virtio_net_handle_rx，而给发送队列绑定的是virtio_net_handle_tx_bh或者virtio_net_handle_tx_timer。而对于块设备则对应的是virtio_blk_handle_output函数。

net virtqueue 的notify

网卡virtqueue

vm_setup_vq

VIRTIO设备

了解QEMU和KVM交互的知道，客户机的IO操作通过KVM处理后再交由QEMU，反馈也如此。这种纯软件的模拟IO设备，增加了IO的延迟。

而Virtio却为虚拟化的IO提供了另一种解决方案：

Virtio在虚拟机系统内核安装前端驱动，在QEMU中实现后端驱动。前后端驱动通过Virtqueue直接通信，从而绕过了KVM内核模块处理，提高了IO操作性能。

QEMU中VIRTIO实现

启动配置设备

-device virtio-scsi-pci

在虚拟机里查看scsi设备lspci

可以看到Virtio-pci设备的相关信息：IO/PORT: 0xc040 (size=64)，MemoryAddress: 0xfebf1000（size=4k）

Virtqueue

Virtio使用Virtqueue实现IO机制，每个Virtqueue就是承载大量数据的queue。vring是Virtqueue实现的具体方式；virtio_ring是virtio传出机制的实现，vring引入ving buffer作为数据的载体。

struct VirtQueue
{
    VRing vring;
    /* Next head to pop */
    uint16_t last_avail_idx;

    /* Last avail_idx read from VQ. */
    uint16_t shadow_avail_idx;

    uint16_t used_idx;

    /* Last used index value we have signalled on */
    uint16_t signalled_used;

    /* Last used index value we have signalled on */
    bool signalled_used_valid;

    /* Notification enabled? */
    bool notification;

    uint16_t queue_index;

    int inuse;

    uint16_t vector;
    void (*handle_output)(VirtIODevice *vdev, VirtQueue *vq);   // handle output
    void (*handle_aio_output)(VirtIODevice *vdev, VirtQueue *vq);
    VirtIODevice *vdev;
    EventNotifier guest_notifier;
    EventNotifier host_notifier;
    QLIST_ENTRY(VirtQueue) node;
};

vring

typedef struct VRing
{
    unsigned int num;       // 
    unsigned int num_default;
    unsigned int align;
    hwaddr desc;            // 关联描述符数组 (buffer的描述)
    hwaddr avail;           // 表示客户机可用的描述符
    hwaddr used;            // 表示宿主机已经使用的描述符
} VRing;

Vring Descriptor

typedef struct VRingDesc
{
    uint64_t addr;  // 指向guest端的物理地址, 一组buffer列表
    uint32_t len;   // buffer长度
    uint16_t flags; // 包含 3 个值，分别是 VRING_DESC_F_NEXT(1)、
                    // VRING_DESC_F_WRITE(2)、VRING_DESC_F_INDIRECT(4)；
    uint16_t next;  //指向下一个描述符的index（链表结构）
} VRingDesc;

由一组描述符构成描述符表

Available Vring

typedef struct VRingAvail
{
    uint16_t flags;
    uint16_t idx;  // 指向下一描述符表的入口
    uint16_t ring[0]; // 每一个值是一个索引，指向描述符表中的一个可用描述符
} VRingAvail;

VRingUsedElem

typedef struct VRingUsedElem
{
    uint32_t id;
    uint32_t len;
} VRingUsedElem;

VRingUsed

typedef struct VRingUsed
{
    uint16_t flags;
    uint16_t idx;
    VRingUsedElem ring[0];
} VRingUsed;

Virtqueue初始化（在Qemu端实现）

VirtQueue *virtio_add_queue(VirtIODevice *vdev, int queue_size,
                            void (*handle_output)(VirtIODevice *, VirtQueue *))
{                           //每个Device 维护一组Virtqueue
    int i;

    for (i = 0; i < VIRTIO_QUEUE_MAX; i++) {    
        if (vdev->vq[i].vring.num == 0)
            break;
    }

    if (i == VIRTIO_QUEUE_MAX || queue_size > VIRTQUEUE_MAX_SIZE) 
        abort();                        // 每个Device最多1024Virtqueue
                                        // 每个Virtqueue最多1024 vring
    vdev->vq[i].vring.num = queue_size; // 初始化vring.num
    vdev->vq[i].vring.num_default = queue_size; // 初始化vring.num_default
    vdev->vq[i].vring.align = VIRTIO_PCI_VRING_ALIGN; //初始化vring.align
    vdev->vq[i].handle_output = handle_output;  // 初始化handle_output
    vdev->vq[i].handle_aio_output = NULL;   // handle_aio_output

    return &vdev->vq[i];
}

在Guest端，virtio驱动中vm_setup_vq建立与queue对应的Virtqueue

num = readl(vm_dev->base + VIRTIO_MMIO_QUEUE_NUM_MAX);// 获取vring.num

// vring_create_virtqueue
queue = vring_alloc_queue(vdev, vring_size(num, vring_align),
                      &dma_addr, GFP_KERNEL|__GFP_ZERO);// 分配Virtqueue空间

//vring_size计算方式
static inline unsigned vring_size(unsigned int num, unsigned long align)
{
    return ((sizeof(struct vring_desc) * num + sizeof(__virtio16) * (3 + num)
         + align - 1) & ~(align - 1))
        + sizeof(__virtio16) * 3 + sizeof(struct vring_used_elem) * num;
}

从这里可以看出来vring的内存布局

接着Guest virtio驱动通知Qemu Queue的vring.num

writel(virtqueue_get_vring_size(vq), vm_dev->base + VIRTIO_MMIO_QUEUE_NUM);

unsigned int virtqueue_get_vring_size(struct virtqueue *_vq)
{
    struct vring_virtqueue *vq = to_vvq(_vq);
    return vq->vring.num;
}

Guest向虚拟设备提供buffer

在virtio驱动virtqueue_add实现

// buffer空间 DMA方式分配
dma_addr_t addr = vring_map_one_sg(vq, sg, DMA_TO_DEVICE);
// 填充desc表 flags addr len
desc[i].flags = cpu_to_virtio16(_vq->vdev, VRING_DESC_F_NEXT);
desc[i].addr = cpu_to_virtio64(_vq->vdev, addr);
desc[i].len = cpu_to_virtio32(_vq->vdev, sg->length);

//更新可用ring头
/* Put entry in available array (but don't update avail->idx until they
     * do sync). */
avail = vq->avail_idx_shadow & (vq->vring.num - 1);
vq->vring.avail->ring[avail] = cpu_to_virtio16(_vq->vdev, head);

//更新可用ring  index
vq->avail_idx_shadow++;
vq->vring.avail->idx = cpu_to_virtio16(_vq->vdev, vq->avail_idx_shadow);

//当Virtqueue添加次数达到64k时，flush vring内容到QEMU
if (unlikely(vq->num_added == (1 << 16) - 1))
    virtqueue_kick(_vq);

bool virtqueue_kick(struct virtqueue *vq)
{
    if (virtqueue_kick_prepare(vq))
        // 修改 virtqueue notify 寄存器
        return virtqueue_notify(vq);
    return true;
}

虚拟设备使用Buffer

    offset = 0;
    while (offset < size) { 
        //从desc表中寻找available ring中添加的buffers，映射内存
        elem = virtqueue_pop(vrng->vq, sizeof(VirtQueueElement));

        if (!elem) {
            break;
        }
        // 读取内容
        len = iov_from_buf(elem->in_sg, elem->in_num,
                           0, buf + offset, size - offset);
        // 更新读取光标
        offset += len;
        virtqueue_push(vrng->vq, elem, len);
        trace_virtio_rng_pushed(vrng, len);
        g_free(elem);
    }

void virtqueue_push(VirtQueue *vq, const VirtQueueElement *elem,
                    unsigned int len)
{   // 取消内存映射,跟新usedVring字段
    virtqueue_fill(vq, elem, len, 0);
    virtqueue_flush(vq, 1);
}

vhost dpdk 共享内存

struct kvm_memory_slot

GPA->HVA

HVA->HPA

虚拟机内存初始化

KVM_SET_USER_MEMORY_REGION kvm_vm_ioctl_set_memory_region

kvm_handle_guest_abort

内存初始化

设备内存

MemoryRegionSection

vhost_commit

linux kernel

kernel code

vring

qemu侧vring地址初始化

Virtio-net数据结构

将vring的地址传递给dpdk

vhost_memory_region

qemu侧 vhost_user_set_mem_table

qemu侧

dpdk核心部分 ：

vhost_memory_region用来tx的时候Convert guest physical address to host physical address

地址转换vhost_iova_to_vva

vhost_user_set_vring_num

virtio告知DPDK共享内存的virtio queues内存地址

总结

memory_region_get_ram_ptr

kvm_set_phys_mem

vhost_memory_region

guest notify -->VM-exit

net virtqueue 的notify

网卡virtqueue

vm_setup_vq

VIRTIO设备

QEMU中VIRTIO实现

启动配置设备

Virtqueue

vring

Vring Descriptor

Available Vring

VRingUsedElem

VRingUsed

Virtqueue初始化（在Qemu端实现）

Guest向虚拟设备提供buffer

虚拟设备使用Buffer

QEMU-GUEST交互

dpdk核心部分：