1、流程图:
2、通过用object layout network来预测分割掩码和每个物体的bounding box,从而计算出scene layout场景布局。mask regression network and box regression network
3、在这两个数据集上进行实验:Visual Genome and COCO-Stuff
4、evaluateour results with two user studies on Amazon MechanicalTurk
评价标准:通过两项用户研究来判断生成的图像质量,与stackgan做对比。
(1)给用户一个指定的标题,然后让他选择更对应的图片(stackgan和本网络生成的)
(2)给出两个方法生成的图片,再给出一系列coco数据集的物体,然后让用户去在图像中识别出哪个物体出现在了图像中。