1.中国团队HiDream在文生图赛道上表现出色,与OpenAI、Google等顶级模型相抗衡。
2.HiDream支持输出4K高清图像,细节丰富,质感还原准确,但文本能力和抽象提示词理解能力有待提高。
3.尽管HiDream选择开源,面临寻找可持续商业模式的挑战,但其务实策略有望在应用层面取得突破。
4.除此之外,HiDream团队计划开源另一支持交互式图像编辑的模型HiDream-E1,并发布多模态Agent产品。
以上内容由腾讯混元大模型生成,仅供参考
提示词:一张高度写实的照片,一个凌乱但有序的艺术家工作室。阳光透过一扇大窗户射入,照亮了空气中飞舞的尘埃。一张磨损的木质工作台上,放着一个未完成的粘土雕塑,旁边散落着各种雕刻工具(凿子、金属刮刀)。附近放着一个高度抛光的铬合金茶壶,扭曲地反射着周围的景象和窗外的绿树。背景的书架上摆满了颜料罐和画笔。强调不同材质的质感(粗糙粘土、光滑金属、旧木纹、玻璃光泽),光线柔和而有方向感。
提示词:一个设定在巨大空心古树内部的熙熙攘攘的市场场景。长着昆虫翅膀的奇幻小生物们在摊位上售卖发光的水果和闪光的布料。建筑风格融合了有机的树根和精致的精灵风格雕刻。采用“吉卜力工作室动画(Studio Ghibli animation)”的鲜明视觉风格进行渲染,注重鲜艳的色彩、柔和的光线和充满奇幻感的氛围。
提示词:特写动作镜头,一位厨师戴着黑色薄手套的双手,正在一个燃着熊熊火焰的炒锅中快速颠勺,抛起混合着五颜六色蔬菜的食材。微小的油滴和酱汁瞬间悬浮在空中。厨师的脸上(部分可见或完全可见)表情高度专注。需要捕捉到手和蔬菜的动态模糊效果,同时保持炒锅中的火焰和厨师表情的清晰。采用高对比度的戏剧性舞台式打光。
提示词:设计一本名为‘Cosmic Whispers’(宇宙低语)的科幻小说封面。主视觉是一个抽象的、由相互缠绕的发光能量触须构成的图案,连接着两个跨越深空星云背景的风格化剪影人形。书名 ‘Cosmic Whispers’ 使用简洁现代的无衬线字体,醒目地放在封面顶部。作者名 ‘A.I. Genesis’ 使用稍小字体放在底部。整体呈现专业、引人入胜的平面设计感。
提示词:微距特写摄影:一片奇幻生物的虹彩(iridescent)鳞片,色彩随光线角度变化。几颗完美的、微小的露珠附着在鳞片上,折射着周围的光线,显现出迷你的彩虹棱镜效果。背景是柔和失焦的深绿色叶子。要求极高的细节锐度,浅景深效果,焦点精确地落在露珠和鳞片的纹理上。
提示词:一幅以爱德华·霍普风格创作的画作,描绘了深夜时分,一个人独自坐在小餐馆柜台前的场景。画面的氛围静谧而孤独,充满内省的意味,光影对比强烈,长长的阴影投射在房间里。要着重强调城市中的孤独感。
提示词:一张高质量的产品渲染图:一个哑光黑色的无线耳机充电盒,略微打开,露出里面的白色耳机。充电盒放在一块有质感的灰色石头上。充电盒盖子内侧(如果可见)或旁边标签上印有小小的、清晰的logo文字 'Meng'. 整体光线柔和,突出产品的精致感和材质(哑光塑料、光滑石头)。
提示词:设计一个现代、简约的Logo,用于名为 'NewRank Tech' 的环保科技公司。Logo应包含一个风格化的叶子图案,并与抽象的电路/芯片图案巧妙融合。主要使用蓝紫色和橙色。
提示词:这是一张写实风格的照片,一匹马从左向右在一片广阔而平静的海面上飞奔。画面精准地捕捉了溅起的水花、水面上的反射,以及马蹄下细腻的涟漪图案。马的动作被适度夸张,而周围的环境则保持静止和宁静,以此突出马的力量感。整体构图简洁而富有电影感,采用宽广的全景视角,展现了远处的地平线。通过大气透视营造出深度感。在浩瀚的海洋面前,马的身影被放大,但依然显得渺小,进一步强化了对比效果。
提示词:一只可爱的猫睡在书架上,油画风格。
提示词:一座现代化工业工厂的低多边形风格鸟瞰图,建筑为白色或浅灰色,结构包含大型主厂房、储罐、烟囱、管道、出入口和卡车。环境清新,有绿树、马路、水渠,整体构图有条理,风格极简且色彩明亮,适合用于数字孪生可视化或工业动画展示。
高清晰度与细节:支持输出4K高清图像,分辨率高,细节丰富。 出色的质感还原: 对于不同材质的物理属性和光泽反射模拟得比较准确,能够很好地理解并执行复杂提示词汇总的元素和要求。 画面质量稳定: 生成质量稳定,出图速度快,还可以直接挂进内容生产链路(例如前文提到的ComfyUI)。 本土化优势: 在亚洲面孔的还原上可能更贴近国内审美。
缺乏特色:虽处于文生图第一梯队,但并没有在某一方面表现最为突出。 文本能力不强:无法生成中文,虽支持中文提示词,但使用英文提示词生图效果更佳。 抽象提示词理解能力有待提高:在生成某些需要创意或特定氛围的图像时,表现不如其他模型。 人物动态略显僵硬。
我们希望通过开源的方式,让别人踩在我们的肩膀上不断前进……图片模型不是我们商业化的终点,我们希望通过开源模型把社区建设得更好……现在很多大模型公司转向开源一方面是被倒逼的,另一方面他们过去忽视了开源社区的品牌价值和生态影响力。
我们不需要等到基础模型达到100分才去做应用。在现有的基础模型能力之上,如果你能找到真正解决用户痛点的场景,并在应用上做得很深,真正做到端到端的95分以上,用户就会买单。