发布日期:2024-06-25 07:23 点击次数:180
北京商报讯(记者杨月涵)5月17日开yun体育网,智源规划院举办大模子评测发布会,致密推出科学、泰斗、公说念、敞开的智源评测体系,发布并解读国表里140余个开源和买卖闭源的话语及多模态大模子全倡导才调评测后果。
据了解,本次智源评测,差异从主不雅、客不雅两个维度考研了话语模子的简便诱骗、学问哄骗、推理才调、数学才调、代码才调、任务经管、安全与价值不雅七大才调;针对多模态模子则主要评估了多模态诱骗和生成才调。
后果露出,在华文语境下,国内头部话语模子的空洞推崇已接近国际一活水平,但存在才调发展不平衡的情况。在多模态诱骗图文问答任务上,开闭源模子瓜分秋色,国产模子推崇杰出。国产多模态模子在华文语境下的文生图才调与国际一活水平差距较小。多模态模子的文生视频才调上,对比各家公布的演示视频长度和质地,Sora有瓦解上风,其他敞开评测的文生视频模子中,国产模子PixVerse推崇优异。
由于安全与价值不雅对王人是模子产业落地的时弊,但外洋模子与国内模子在该维度存在互异,因此话语模子主客不雅评测的总体排行不计入该单项分数。
话语模子主不雅评测后果露出,在华文语境下,字节迥殊豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模子更懂中国用户。在话语模子客不雅评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均参预话语模子主客不雅评测前五。
多模态诱骗模子客不雅评测后果露出,图文问答方面,阿里巴巴通义Qwen-vl-max与上海东说念主工智能现实室InternVL-Chat-V1.5先后起始于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海东说念主工智能现实室Intern-XComposer2-VL-7B紧随后来。
多模态生成模子文生图评测后果露出,OpenAI DALL-E3位列第一,智谱华章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字节迥殊doubao-Image次之。多模态生成模子文生视频评测后果露出开yun体育网,OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。