随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)在各行各业的应用日益广泛,尤其是在软件开发、数据分析、客户服务等领域。蘑菇云创客空间[445期开放夜] 就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语言模型的测评。开放夜现场测评了十几个国内外大语言模型,测评角度从逻辑、数学、翻译、伦理等方面,深入探讨和体验了这些大语言模型的实际效能。
测评的大语言模型:
1.Kimi 智能助手:由月之暗面科技有限公司开发的先进AI。
2.智谱清言:由智言科技开发的大语言模型,以深度学习和自然语言处理技术见长。
3.讯飞星火:科大讯飞推出的创新语言模型。
4.文心一言:百度的前沿语言模型,致力于理解和生成自然语言。
5.豆包:专注于提供个性化的智能对话服务。
6.通义千问:以广泛的知识库和灵活的对话能力著称。
7.海螺AI:新兴的语言模型,擅长处理复杂的语言任务。
8.腾讯混元助手:腾讯推出的多功能AI助手。
9.Sider: 是由日本公司Sider开发的大语言模型。
10.ChatGPT:由OpenAI开发,国际上广受认可的更大规模、功能更全面的语言模型。
11.Claude:Anthropic开发的先进语言模型,注重安全性和可靠性。
12.groq:以其专为AI设计的硬件加速器而闻名。
13.Gemini: OpenAI 开发的较小规模的语言模型,旨在提供更高效的计算和资源利用。
14.Mixtral:开源人工智能初创公司 Mistral AI 开发的超越GPT-3.5的AI模型
测评问题一: 鸡兔同笼的数学问题
鸡兔同笼是一个经典的数学问题,通过观察鸡兔的头和脚的数量关系,可以利用代数方程来解决问题,从而确定笼子里鸡和兔子的数量。这个问题常常展示了代数方程组的应用。
针对鸡兔同笼的问题,除了Gemini Pro没有得出正确的结果,其余的大语言模型都可以给出正确结果。
测评问题二:翻译(诗句中翻英)
诗人马致远的诗句“断肠人在天涯”,描写了“夕阳向西缓缓落下,只有孤独的旅人漂泊在遥远的地方。”诗句的翻译涉及到文化差异和诗人独特情感。Mixtral 的语言模型正确的解释了诗句本身的含义,帮助翻译者很好地理解这句诗句。 Claude的语言模型对于诗句的本身理解是不正确的。
这句诗翻译家许渊冲翻译为“Far, far from home is the heartbroken one.”由此可见,大语言模型可以帮助翻译者分析这句诗基本的意思,但是涉及文化层面的深层含义,还是做不到意译的。
开放夜也探讨了如下涉及生活、工作的一些问题,比如:
过年福字要倒着贴,那为什么不直接生产倒过来的福字呢?
收到公司的裁员通知邮件,你应该怎么回复邮件来保住工作?
一个乌龟掉进了井里,井里有30米深。乌龟白天爬3米,晚上滑下2米。问这只乌龟需要多长时间才能爬出井口?
DFRobot AIGC小组主理人夏青在开放夜的现场测评了十几个国内外大语言模型,通过多维度问题的测评,他认为:对于处理综合性问题,OpenAI的ChatGPT 4.0逻辑清楚,能提供非常有用的信息。尽管在回答一些较为复杂的问题上略显不足,但在大多数场合下,其性能仍然令人满意。然而,ChatGPT 4.0在国内的使用成本是一个不容忽视的问题,不仅涉及订阅费用,也包括使用的技术门槛。
与此同时,Gemini和Claude等海外语言模型,尽管在遵循指令方面略显不足,但已达到了实用水平。令人惊喜的是,国内的Qwen1.5 72b开源模型在中文理解和特定任务,几乎能与ChatGPT4.0匹敌此外,其他开源模型如Mixtral和新发布的LLaMA3虽在逻辑性上略逊于商业模型如ChatGPT,但总体表现已超越了ChatGPT 3.5。
综合分析来看,尽管ChatGPT 4.0仍然是目前市场上最优秀的大语言模型,但不可忽视的是,无论是国际市场还是国内市场,其他厂商的模型均显示出迅速的进步。开源模型的崛起也证明了开源社区在AI时代的巨大潜力。当前的大语言模型在处理理性问题方面表现一致,但通常无法提供情绪价值回应。例如,一些国内模型如“豆包”将展现其在情绪回应方面的潜力。这种能力的发展可能为未来陪伴型机器人的商业模型提供新的方向。
蘑菇云创客空间
蘑菇云创客空间是上海浦东的一家创客空间,是科技部授牌的首批国家级创客空间,由浦软孵化器提供场地支持、上海智位机器人提供硬件及技术支持的一家为创客服务的开放式创客空间。拥有独立的加工室、公共协作区域以及储物、耗材商店,为硬件爱好者、程序员、设计师、DIY 发烧友等各类创客,甚至包括进行创新研发的科创团队提供一个开放式的社区化会员空间。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
近期,苹果发布M4芯片,号称“比当今任何AIPC的任何神经引擎都强!”紧随其后微软携“Copilot+PCs”的概念加入AIPC激战。截至目前,包括联想、惠普、华为等多家主流PC厂商在内,已经至少推出了超50款AIPC产品。AI重塑行业的机遇,谁都不想错过。对于企业来说,能否积极拥抱AIPC十分关键
如果说2023年是大模型的资格赛,融资额度决定了能否晋级,2024年已然快进到了淘汰赛的阶段。字节跳动、阿里云、百度智能云、腾讯云等先后在5月中下旬加入“价格战”,轻量级模型直接免费,主力模型的API价格普遍下调了90%以上。曾经以“烧钱”著称的大模型,迅速进入到“白菜价”时代。当时就有人提出这样的
文/道哥当安卓机围绕AI大做文章时,果粉们都在等待苹果AI登场。这一天终于来了。6月11日凌晨1点,苹果WWDC2024(全球开发者大会)如期而至。不同于去年,此次大会苹果没有推出任何硬件产品,而是将焦点完全集中在了操作系统更新上,依次分享了VisionOS、iOS、iPadOS、macOS、wat
2024年高考今天拉开帷幕,据悉,重庆市高考新增了AI智能巡查系统。该系统能够实时分析研判考试异常行为,将问题消除在萌芽状态,保障考试公平公正。
文|智能相对论作者|叶远风产业升级如火如荼,通过数字化、智能化来激发“新动能”,已经成为普遍共识。但是,作为一个泛概念,“新动能”到底是什么,又如何具体到一些举措、动作上,才能确保落地,从而切实推动产业升级?业界需要一个关于“新动能”如何被激发的切实路线图。事实上,针对产业升级的“新动能”,最终还是
自字节跳动发布豆包大模型,互联网大厂纷纷就位,击穿“地板价”的打法从C端向B端拓展。这也成为今年“618”最亮眼的价格战。5月15日,字节跳动率先宣布豆包大模型已通过火山引擎开放给企业客户,大模型定价降至0.0008元/千Tokens;5月21日,阿里云宣布0.0005元可得1000tokens,百
2023年可以说是人工智能行业最振奋的一年,大模型的能力每隔一段时间就会上一个新台阶,汹涌澎湃的技术革命迅速影响着每一个人的生活,AGI不再是一种技术理想,而是触手可及的现实。到了2024年,人工智能的热度不减,但口口相传的“百模大战”并未上演。资本市场罕见地“降温”,不少大模型悄无声息地消失,有机
ChatGPT运行日耗70万美金!GPT-4训练成本破10亿美金大关!OpenAI2024年财务警钟敲响,破产风险浮现!国产大模型烧钱大战升级!百度、科大讯飞、阿里、腾讯等巨头已烧掉上百亿资金!大模型背后的“烧钱”豪赌,谁能笑到最后?降低成本大模型成本怎么降低?有两条比较实用的路径大模型背后的成本确
前言:这是白杨SEO公号原创第530篇。为什么写这个?一个星期多前在白杨流量汇群看到有人问,自己实战测试研究了下分享给大家,也许对大家有点用。本文大纲:1、百度智能体是什么?2、百度智能体有什么用?3、百度智能体怎么创建?4、百度智能体如何用(营销)?百度智能体是什么?百度智能体,准确的叫法应该是百