首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏对白的算法屋

    谷歌全新PaLM-2,效果并未超越GPT-4!

    刚刚在Google I/O 大会上,Google发布PaLM2及超过 25 款由 PaLM 2 提供支持的新产品和功能。这意味着 PaLM 2 将最新的高级人工智能功能直接引入我们的产品和人们——包括全球消费者、开发人员和各种规模的企业。它的能力到底怎么样?让我们详细的看一看。

    94220编辑于 2023-09-01
  • 来自专栏量子位

    20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

    无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。 成功率可达60-100%,拿下新SOTA。 在PaLM-2上成功率达到72%,步数约为15步。 但是PAIR在Llama-2和Claude上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。 结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。 研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。

    96840编辑于 2023-11-07
  • 来自专栏深度学习与python

    谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

    AudioPaLM 是基于 PaLM-2 LLM 的,在翻译基准测试上优于 OpenAI 的 Whisper。 它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。

    2K20编辑于 2023-08-10
  • 来自专栏机器之心

    DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

    研究者还使用 LongFact,对四个大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 种流行的语言模型进行了基准测试,结果发现较大的语言模型通常可以实现更好的长篇事实性。 Gemini、GPT、Claude 和 PaLM-2 系列基准测试 最后,研究者在 LongFact 上对下表 1 中四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个大语言模型进行了广泛的基准测试

    29510编辑于 2024-04-12
  • 来自专栏自然语言处理(NLP)论文速递

    Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理

    实验结果 为了验证CoT-decoding方法的有效性,本文使用GSM8K和MultiArith数据集进行数学推理任务的实验,CoT-decoding方法在PaLM-2模型系列上表现出色,与传统的贪婪解码方法相比 在PaLM-2 Large模型上,CoT-decoding相对于贪婪解码方法在GSM8K数据集上的绝对准确率提升了26.7%,如下图所示。

    1K10编辑于 2024-02-22
  • 来自专栏新智元

    华人科学团队推出「思维链集」,全面测评大模型复杂推理能力

    Google PaLM,包括PaLM、PaLM-2,以及它们的指令调整版本(FLan-PaLM和Flan-UPaLM),强基础和指令调整模型。 还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。 总之,作者相信这个项目可以作为评估和指导开源大语言模型发展的一个公益设施发挥很大作用。

    86830编辑于 2023-08-07
  • 来自专栏自然语言处理(NLP)论文速递

    DeepMind | 提出合成数据是AGI的关键,可使PaLM2 性能暴涨6%!

    论文地址:https://arxiv.org/pdf/2312.06585.pdf 在MATH高级推理和APPS编码基准测试中,使用PaLM-2模型进行测试后,发现 与模型大小的扩展相称,并显著优于仅在人类数据上进行微调的模型 对推理能力的影响 图7显示了经过 调整的模型的性能,并与基本PaLM-2模型进行了比较。 研究发现,在BBH的任何任务上,模型性能都没有明显下降。

    65810编辑于 2023-12-19
  • 来自专栏深度学习自然语言处理

    每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器

    我们还在 LongFact 上对四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个语言模型进行了基准测试,发现较大的语言模型通常能获得更好的长格式事实性。 此外,论文还对来自四个模型家族(Gemini、GPT、Claude和PaLM-2)的十三种语言模型进行了广泛基准测试,发现更大的语言模型通常在长篇幅事实性方面表现更好。 Q2: 有哪些相关研究? 广泛基准测试:对来自四个模型家族(Gemini、GPT、Claude和PaLM-2)的十三种大型语言模型进行了广泛基准测试,使用SAFE评估模型回应,并使用F1@K量化性能。 模型基准测试: 使用LongFact提示集对来自四个模型家族(Gemini、GPT、Claude和PaLM-2)的十三个不同的大型语言模型进行评估。

    56210编辑于 2024-04-11
  • 来自专栏机器之心

    告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法

    本文对多个 LLM 进行了综合评估,包括 PaLM-2 模型家族中的 text-bison 和 Palm 2-L,以及 GPT 模型家族中的 gpt-3.5-turbo 和 gpt-4 。 不过有研究者表示:「深呼吸,一步一步地来」这个提示在谷歌的 PaLM-2 上非常有效(准确率为80.2)。但我们不能保证它适用于所有模型和所有情况,所以我们不应该盲目地到处使用它。

    56430编辑于 2023-09-19
  • 来自专栏小义思

    马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!

    下面来看看grok-1与其他大模型各项测试数据对比: 很惊讶,grok-1没有什么惊艳之处,比不过GPT4,也比不过Palm-2及Claude3。

    26010编辑于 2024-04-10
  • 来自专栏Python编程与实战

    暴打GPT-4,谷歌发布史上最强大模型Gemini

    这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。 此前,PaLM-2被曝参数规模为3400亿。

    47710编辑于 2023-12-13
  • 来自专栏DeepHub IMBA

    Falcon 180B 目前最强大的开源模型

    Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下 模型表现 就它的能力而言,Falcon 180B与PaLM-2 Large并肩而立,使其成为最强大的公开可用语言模型之一。 量化的Falcon模型在基准测试中保持了类似的指标。 它在排行榜上名列前茅,甚至给那些大牌的专有模式,比如PaLM-2,带来了竞争压力。但是我们的评估表明,它可能还需要有更大的提升。

    71520编辑于 2023-09-14
  • 来自专栏自然语言处理(NLP)论文速递

    窃取模型关键信息!Google | 仅需2000美金,就可攻破 ChatGPT等黑盒大模型

    引言 在当今的技术时代,大型语言模型如GPT-4和PaLM-2等已成为人工智能领域的重要成就。这些模型以其强大的语言理解和生成能力,在各种应用中发挥着关键作用。 就好比在GPT-4的技术报告中,并没有对模型具体架构、模型大小、硬件、训练方法、数据集构建等做过多详细的介绍;同样在PaLM-2的论文中,也并没有对外详细纰漏模型大小、模型架构等信息。

    46510编辑于 2024-03-15
  • 来自专栏机器之心

    谷歌大爆料:神秘AI工具曝光,Gemini将取代PaLM 2

    此次的泄密还为我们带来了 Gemini 的一些消息:Gemini 将取代谷歌的 PaLM-2,并可能为谷歌的 Makersuite 和 Vertex AI 提供动力。

    31220编辑于 2023-10-27
  • 来自专栏新智元

    GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型

    图5:主流模型的测试结果 研究团队测试了GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna 在benchmark中Llama取得了不错的结果,出人意料的是,PaLM-2反而容易给出一些危险的回答。 图6:benchmark中的两个具体例子 论文中,作者展示了两个例子。

    32610编辑于 2023-12-20
  • 来自专栏自然语言处理(NLP)论文速递

    中科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型

    图5:主流模型的测试结果 研究团队测试了GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna 在benchmark中Llama取得了不错的结果,出人意料的是,PaLM-2反而容易给出一些危险的回答。 图6:benchmark中的两个具体例子 论文中,作者展示了两个例子。

    42510编辑于 2023-12-19
  • 来自专栏机器之心

    超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

    总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论: WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多

    70120编辑于 2023-08-07
  • 来自专栏计算机视觉战队

    超越所有开源模型,专门用于编程任务的大模型来了

    总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论: WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多

    67930编辑于 2023-08-24
  • 来自专栏量子位

    对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4

    该成绩证明: 其一,它超过了ChatGPT-3.5和PaLM-2等9个闭源模型,并在以数学竞赛题为主的MATH集上超过GPT-4。

    49620编辑于 2023-10-08
  • 来自专栏深度学习自然语言处理

    符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!

    作者表示将在未来考虑更多的模型,例如Google的PaLM-2

    53740编辑于 2023-08-22
领券