DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广,本次使用Qwen2的架构,解决看的全(扫码方式优化)、看的的准(内容识别、视觉标记、降低重复率),多裁剪策略提取核心信息。 和其他OCR模型项目还是看自己的引用场景,通用场景还是建议使用最新的模型,识别准、理解准、排版准。2025-2026年,OCR(光学字符识别)领域迎来了开源大模型的黄金时代。 几乎同期,腾讯也在2025年底开源了HunyuanOCR(混元OCR)——一个仅1B参数却斩获多项SOTA的轻量级模型。 这两款模型代表了当前开源OCR技术的两大发展方向:DeepSeek-OCR-2主打视觉因果流(VisualCausalFlow)的创新架构,而HunyuanOCR则以极致轻量化+端到端统一见长。 、资源极度受限→选PaddleOCR通用多模态理解需求→选Qwen2-VL这两款中国团队开源的OCR模型,不仅在技术指标上达到SOTA,更重要的是它们代表了开源社区对"文档智能"这一核心场景的深度思考。
GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,
7 月 19 日,开源社区最强的大模型从 Llama 升级到 Llama2。 这意味着,作为开源大模型的代表,Llama2 第一次进入了大范围的商业考量决策之中,开发者们拥有了一个免费、开源且足够商用的大模型底座。 东北大学教授肖桐举例称,以机器翻译场景为例,我们可以用一个类似于 Llama2 这样的开源模型去做指令微调,虽然翻译性能达到不错的程度,但是最终会发现性能上限仍然受限,因为开源大模型的某些能力是在预训练阶段获得的 以 Llama2 本身所欠缺的中文语料为例,仅在 Meta 开源 Llama2 次日,开源社区首个能下载、能运行的开源中文 Llama2 模型「Chinese Llama 2 7B」就出现了。 但随着 Llama2 的释出,开源社区的技术能力被带上另一个台阶,大模型开源社区的力量已经无法被忽视。
在我们测试的大多数基准测试中,Llama-2-Chat 模型的性能优于开源对话模型,并且在我们的人工评估中,就实用性和安全性而言,与一些流行的闭源模型(如 ChatGPT 和 PaLM)不相上下。 /•项目地址:https://github.com/facebookresearch/llama Llama 2:开源,可供研究和商业使用 最新版本的 Llama 现在可以让个人、创作者、研究人员和各种规模的企业访问 我们的微调 LLM,称为 Llama 2-Chat,针对对话使用案例进行了优化。我们的模型在大多数基准测试中表现优于开源的聊天模型,并且根据我们的人工评估结果,可能是封闭源模型的合适替代品。 Llama 2 模型训练使用了 2 兆个标记,并且上下文长度是 Llama 1 的两倍。 Llama-2-chat 模型还额外训练了超过 100 万个新的人工注释。 基准测试 Llama 2 在许多外部基准测试中表现优于其他开源语言模型,包括推理、编码、熟练度和知识测试。
picture facebookresearch/llama[1] Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理 该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型的权重和起始代码。这些模型参数范围从 7B 到 70B 不等。 以下是该项目的关键特性和核心优势: 支持多种规模 (7B、13B 和 70B) 的语言模型。 所有模型都支持最长 4096 个标记长度,并根据硬件配置预分配缓存空间。 apexcharts/apexcharts.js[2] Stars: 13.1k License: MIT picture ApexCharts 是一个现代的 JavaScript 图表库,它允许您使用简单的 该库提供了一个整洁的代码基础来评估先进的深度时间序列模型或开发自己的模型,并涵盖五个主流任务:长期和短期预测、插补、异常检测和分类。
AI 图像生成的实用化转折 2024年11月25日,德国AI图像模型独角兽黑森林实验室(Black Forest Labs)发布了最新一代图像生成模型家族FLUX.2,这标志着AI图像生成技术正式从"演示工具 作为此前在Hugging Face上仅次于DeepSeek-R1的第二受欢迎开源模型FLUX.1的继任者,FLUX.2不仅在技术上实现了多项突破,更将目标锁定在解决真实生产环境中的需求上。 使用教程:快速上手 FLUX.2 本章节将详细介绍如何在不同硬件环境下部署和使用 FLUX.2 [dev] 模型,从高端数据中心 GPU 到消费级显卡,我们都提供了相应的解决方案。 方法一:手动下载并设置环境变量 访问 FLUX.2-dev 模型页面 手动下载权重文件,然后设置环境变量: export FLUX2_DEV_PATH="/path/to/your/downloaded 体验地址:http://bfl.ai/play FLUX.2 [dev] 开源地址:https://huggingface.co/black-forest-labs/FLUX.2-dev GitHub
但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 算法的核心部分主要包括有模型结构和训练方法,这两部分都有对应的源码。哪天OpenAI公开源码,我们应该就能看到的也就是模型结构和训练方法两部分。 当然,这只是核心部分。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司大机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源大语言模型打个Call吧,能讲中文还开源的大语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。
“ Meta 开源 LLAMA2 后,国内出现了不少以此为基座模型训练的中文模型,这次我们来看看其中一个不错的中文模型:Chinese-LLaMA-Alpaca-2 。” 01 — 目前在开源大模型中,比较有名的是Meta的LLAMA模型系列和清华的ChatGLM模型。 特别是在中文领域上,ChatGLM模型经过中文问答和对话的优化,更加符合中文使用者的偏好回答。 Space 空间 ChatGLM2-6B 初体验 自从Meta于7月19日凌晨开源了Llama2,并且可免费商用后,国内也开始了基于Llama2的中文大模型训练,并推出了相应的中文模型。 目前已开源的模型:Chinese-LLaMA-2(7B/13B), Chinese-Alpaca-2(7B/13B)。 外媒也这么爱标题党 LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的? 免费!
今天, Google发布了开源的小模型Gemma. Gemma使用的是与Google的商业Gemini大模型相同的技术, 但专注于小模型. Gemma 2B与Gemma 7B Gemma 2B与Gemma 7B都属于小模型行列, 小模型的优势在于普通个人只要有显卡, 你就能在本地把它跑起来并使用它, 而不需要太多的资源需求. 2B就是20 它们都属于小模型的行列, 如果不理解, 可以对比下Meta开源的Llama 2最高是70B, 也就是700亿参数 Gemma 7B适应于消费级显卡, 也就是4090这一类的消费级显卡就能把它跑起来. 关于小模型, 就不得不提及到微软的PHI-2了, 从上面的性能表现上也可以看出, PHI-2参数为27亿, 但表现却非常优秀. 如果要关注小模型, PHI-2是个不能错过的模型. } } 体验下来, 虽然是2B, 但效果确实还可以. 也支持中文. 最后 随着AI的发展, 不仅是开源AI越来越成熟. 开源的小模型也越来越多, 效果越来越优秀.
大数据产业创新服务媒体 ——聚焦数据 · 改变商业 ---- ChatGPT火爆出圈之后,社交巨头Meta奋力追赶,分别在3月、7月发布开源的LLaMA、LLaMA2大模型,引领一场大模型开源运动。 百川速度,平均28天推出一款大模型 9月6日,百川智能举办主题为“百川汇海,开源共赢”的发布会,宣布开源升级微调之后的Baichuan2大模型。 理科大提升,Baichuan2挑战LLaMA2 Baichuan2开源大模型是百川智能连续发布三款大模型之后的又一次重大技术迭代。 据介绍,70亿参数的Baichuan2-7B开源大模型在中文水平上超越了LLaMA2 130亿参数开源大模型,在英文水平上与其持平。 对中文使用者而言,“LLaMA2作为一个开源模型的时代已经过去了”。 百川智能采取开源、闭源并重的策略,在推进大模型研发的同时,又积极培育开发者生态。
小红书SuperIntelligence团队正式开源FireRed-OCR系统。这是一项将通用大型视觉语言模型转化为像素级工业OCR(光学字符识别)专家的全新技术框架。 相关模型权重与完整代码已在GitHub及开源平台全面上线。 Model:https://modelscope.cn/models/FireRedTeam/FireRed-OCR%E2%80%A6Demo:https://modelscope.cn/studios ://github.com/FireRedTeam/FireRed-OCR/blob/main/assets/FireRed_OCR_Technical_Report.pdf测试数据显示,参数量仅为2B 这一表现不仅大幅超越DeepSeek-OCR2等专用的端到端OCR系统,更在复杂表格结构解析与空间位置推理任务上,跨越量级击败了数百亿参数的各类通用智能体与旗舰大模型。
本篇文章,我们聊聊如何使用 Docker 容器快速上手 Meta AI 出品的 LLaMA2 开源大模型。 所以,现在就来聊聊如何快速上手 LLaMA2 官方版本的大模型。图片完整的开源项目代码,我上传到了 soulteary/docker-llama2-chat,有需要的同学可以自取。 -2-70b-chat-hf等待我们选择的模型下载完后,调整下目录结构:# 创建一个新的目录,用于存放我们的模型mkdir meta-llama# 将下载好的模型移动到目录中mv Llama-2-7b-chat-hf 7b最后本篇文章是 LLaMA2 相关的第一篇文章,短短几个月的时间,开源项目就能够取得这么快速的进步,还是挺令人欣慰和令人期待的。 LLaMA2 不是结束,而是新一轮的开始,开源的世界里,我们永远可以期待更强的家伙出现,不断逼进和挑战当前世界的王。这篇文章的标题里隐藏着下一篇文章的线索,你猜得到吗?
机器之心报道 编辑:泽南 为了对抗 Meta 的开源大模型系列,OpenAI 也计划推出自己的开源模型。 这一次,OpenAI 成了跟进者。 上个星期,Meta 在微软大会上发布的 Llama 2 被认为改变了大模型的格局,由于开源、免费且可商用,新版羊驼大模型立刻吸引了众多创业公司、研究机构和开发者的目光,Meta 开放合作的态度也获得了业内的一致好评 在大模型领域,开源预训练模型一直被认为是重要的方向。 GPT-4 因为不提供开源版本而时常受到人们诟病,但 OpenAI 并不一定会坚持封闭的道路,其正在关注开源的影响。 在开源问题上,OpenAI 尚未准备好承诺发布自己的开源模型,并且内部尚未决定开源的时间表。 众所周知,大模型领域最近的发展速度极快。 不过正如 Llama 2 推出时人们所讨论的,大模型的发展并不一定会朝着科技巨头 + 高投入 + 闭源的方向一直前进下去,随着利用 Llama 2 的商业应用程序开始传播,大模型技术的世界可能会发生重组
本篇文章,我们聊聊如何使用 Docker 容器快速上手 Meta AI 出品的 LLaMA2 开源大模型。 所以,现在就来聊聊如何快速上手 LLaMA2 官方版本的大模型。 Docker LLaMA2 Chat 开源项目 完整的开源项目代码,我上传到了 soulteary/docker-llama2-chat[1],有需要的同学可以自取。 先来一起做下准备工作吧。 7b 最后 本篇文章是 LLaMA2 相关的第一篇文章,短短几个月的时间,开源项目就能够取得这么快速的进步,还是挺令人欣慰和令人期待的。 LLaMA2 不是结束,而是新一轮的开始,开源的世界里,我们永远可以期待更强的家伙出现,不断逼进和挑战当前世界的王。 这篇文章的标题里隐藏着下一篇文章的线索,你猜得到吗?
W2 算子实现 要对量化后的模型进行推理,需要量化算子的支持,在业界没有现成的 w2a16 的算子可用,作者们基于 Tensorrt-LLM 中的 w4 算子开发了 w2 的 Gemm cuda kernel , 实现了 w2a16 模型的高效推理。 作者尝试使用不同的方法将模型量化为 W2A16g64。 开源对比实验结果是: 该表格是 decoupleQ 和其他方法在 Llama-1/2 上的量化结果比较。以 perplexity (PPL) 作为评价指标。 然而,layer 层面或者 block 层面的 L2 loss 最小化,未必能够代表最终模型精度的最优; 2.
机器之心报道 编辑:张倩 一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河? 「我就午休了 30 分钟,我们的领域又变了?」 在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。 更引人注目的是,FreeWilly 2 在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5 相抗衡的开源大模型,这是 Llama 2 都没有做到的事情。 FreeWilly2 则基于最新的 LLaMA 2 70B 基础模型构建。 /stabilityai/FreeWilly2 从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama 2 才刚刚推出 3 天,排行榜位置都没坐热
Orca 2 已经开源,以鼓励人们在较小语言模型的开发、评估和对齐方面进行更深入的研究。 Orca 2 模型的表现不逊于或超越包括 5-10 倍更大的模型在内的所有其他模型。这里所有模型都使用相同尺寸的 LLaMA 2 基础模型。 图 2:演示 Orca 2、其基础模型 LLaMA 2、LLaMA 2-Chat 和 ChatGPT(GPT-3.5-Turbo)对一个推理问题的响应的示例。 通过比较 Orca 2 与其它模型,研究者有以下发现: 超越相同规模的模型。Orca-2-13B 在 zero-shot 推理任务上显著优于相同规模的模型。 值得注意的是,这三个模型 Orca-2-13B、LLaMA-2-Chat-13B 和 WizardLM-13B 都基于相同的基础模型,这也凸显了 Orca 2 采用的训练过程的有效性。
选择模型 fd_set结构可以把多个套接字连在一起,形成一个套接字集合 typedef struct fd_set{ u_int fd_count;//下面数组的大小 SOCKET fd_array[FD_SETSIZE struct timeval{ long tv_sec;//指示等待多少秒 long tv_usec;//指示等待多少毫秒 }timeval; 应用举例 1 初始化fdSocket集合,添加监听套接字句柄 2 当有事件发生的时候,select函数移除fRead中没有未决IO操作的句柄,然后返回 3 比较原来的fdSocket集合,与select处理过的fdRead集合,确定哪些套接字有未决IO并处理这些IO 4 回到2进行选择 1 CInitSock theSock;//初始化winsock库 2 int main() 3 { 4 USHORT nPort=4567;//此服务器监听的端口号 5 / ); 15 return 0; 16 } 17 //进入监听模式 18 ::listen(sListen,5); 19 20 //select模型处理过程
继LLaMA开源后,Meta今天联手微软高调开源Llama 2,一共有7B、13B、70B三个版本。 据介绍,Llama 2接受了2万亿个token训练,上下文长度4k,是Llama 1的2倍。 微调模型已在超100万个人类标注中进行了训练。 Llama 2的表现更是秒杀许多开源语言模型,在推理、编码、能力和知识测试上取得了SOTA。 除了开源了Llama 2,Meta基于Llama 2微调了Llama 2-Chat模型。 在各大基准测试上,Llama 2在推理等方面表现相当出色。 就Falcon模型而言,在所有基准测试中,Llama 2-7B和34B的表现都要比Falcon-7B和40B的模型更好。 此外,Llama 2-70B模型也优于所有开源模型。 除了和开源模型作比,Meta团队还将Llama 2-70B的结果与闭源模型进行了比较。
本篇文章,我们聊聊如何使用 Docker 容器快速上手朋友团队出品的中文版 LLaMA2 开源大模型,国内第一个真正开源,可以运行、下载、私有部署,并且支持商业使用。 写在前面 感慨于昨天 Meta LLaMA2 模型开放下载之后,GitHub 上出现了许多“只有 Readme 文档” 的开源模型项目,并一时间在各个群里疯狂传播,宛如“郁金香泡沫”故事里的期货一般。 也希望能藉此让中文开源生态变的更好一些,于是本文的主角就有了:中文版 LLaMA2 模型。 /soulteary/docker-llama2-chat 中,也已经添加了中文 LLaMA2 的模型支持,欢迎下载、转发、一键三连,为一起建设更好的中文开源环境打个气! 图片 当然,如果你想使用 MetaAI 官方的 LLaMA2 大模型,可以翻阅昨天的文章:《使用 Docker 快速上手官方版 LLaMA2 开源大模型》。