搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器人课程与技术
4G网速实测与WIFI使用对比
5G即将普及，4G数据也基本能够满足需要，实测为日常使用地点（两处）和办公室WIFI，如果要求时延低，任何场合都推荐光钎，wifi和4g信号时延都要明显高于有线网络。在线测网速链接：http://www.speedtest.cn/report_mobile/4G 移动（wifi+4G1+4G2）： ~ ? ~ ? ~ ? ~ 联通（wifi+4g1+4g2）： ~ ? ~ ? ~ ? ~ 电信（wifi+4g1+4g2）： ~ ? ~ ? ~ ?
1.8K50发布于 2019-01-23
来自专栏程序猿DD
实测：文心一言 vs GPT-4
咱们就用百度发布会演示的预录制Demo，对比一下崭新出炉的GPT-4，先凭实力说话。文心一言 vs GPT-4 和GPT-4一样，文心一言是一个多模态大模型。老样子，我们也来与GPT-4进行一波对比：这波你是想看GPT-4续写的《三体》，还是文心一言的？再来看看《三体》电视剧中扮演史强和汪淼的老搭档，于和伟和张鲁一，有什么共同点？也没什么问题。并且这个名字它还不是瞎起的：再来看看GPT-4起名的效果？看起来，GPT-4对中文的掌控能力相比之下还是少了一点精髓。至于写个公司成立的新闻稿？首先是文心一言的效果展示：接下来，我们再看看GPT-4怎么说：诶，看起来反而是GPT-4没有真正理解“藏头诗”的含义。这波文化理解上，属实是文心一言“小胜一筹”了。有人调侃，看完之后感觉“提前退休的日子看起来还可以缓一缓”：离GPT-4还差了20个老胡。
77720编辑于 2023-04-04
来自专栏算法一只狗
Llama 4发布即开源 | 实测效果如何？
Meta 终于发布了一个原生多模态大模型 Llama4。而且一经发布，在大模型LMSYS排行榜上，Llama 4 Maverick冲上第二。仅仅比 Gemini-2.5-pro 模型少 22 分。比GPT-4o 价格那确实便宜很多图像推理任务：Llama 4 Maverick 在图像推理任务中表现最强。MMMU（复杂图像理解）中，Llama 4 Maverick 得分 73.4，高于其他模型。 MathVista（视觉数学）：Llama 4 Maverick 得分 73.7，高于 Gemini 2.0（73.1）和 GPT-4o（63.8）编程任务上：DeepSeek 在编码任务上略胜一筹（DS ，但 Llama 4 Maverick 表现依然优异，远超 GPT-4o。下图展示了模型在“代码任务中的累计平均负对数似然（NLL）”随序列位置变化的趋势曲线。与 Gemini 系列、GPT-4o、Claude 3、DeepSeek 等主流模型相比，Llama 4 的技术栈呈现出强烈的“工程范”：不走炫技路线，而是注重模型实用性、训练效率与部署成本之间的平衡。
1.1K20编辑于 2025-04-25
来自专栏架构进阶
实测｜Mac本地Claude Code，4大热门模型（minimaxqwenkimiglm）对比
二测试环境先跟大家同步一下本次实测的核心前提，保证测试结果的公平性：设备：MacBook Pro（M4芯片，24GB内存，512GB固态），系统版本Sequoia 15.6.1 (24G90) 工具接下来，进入核心实测环节——4个模型的全方位对比，结合相同的测试案例，拆解各自的优缺点、适用范围，每一个结论都基于我实际操作的体验，不吹不黑，客观呈现。四核心实测：4大模型全方位对比（相同案例，公平PK）本次测试选取了4类高频场景，覆盖编码、办公、推理等日常使用场景，每个场景设置相同的任务指令，从响应速度、输出质量、容错率、易用性4个维度进行评分（七、最后总结本次Mac本地基于Ollama安装Claude Code，以及4个热门模型的实测，到这里就全部结束了。最后，希望这篇实测推文，能够帮到大家，无论是Ollama安装Claude Code的实操，还是4个模型的选择，都能让大家少走弯路。
77031编辑于 2026-05-06
2026年4月 7款国产大模型能力实测
2026年4月7款国产大模型推理能力实测：谁能发现网站付费墙的漏洞？一次真实的代码安全分析任务，7款国产大模型同台竞技，最终只有1款完成了挑战。背景大模型的代码能力评测很多，但跑分和实战是两回事。 2个模型下载了错误的文件，4个模型完全没下载成功。网站的真实漏洞是什么？在分析模型表现之前，先说清楚这个网站到底有什么问题。 id=45c396367f59→拿到MP3的CDN直链下载成功，441KB，朗诵者"诵读客"深入分析s■■■■.js源码→发现前端检查Cookie但后端不验证→完整还原漏洞链关键决策点在第4步：当其他模型在猜测本文基于2026年4月23日的实测数据，测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。
33600编辑于 2026-04-23
【AGI-Eval 实测速报】OpenAI o3o4-mini视觉推理封神？实测翻车率略高
我们连夜实测，输出这份硬核报告，下滑阅读！目录：1. 发布信息 1.1 模型简介 1.2 模型性能对比2.图像识别与对比实测 2.1 图像识别 2.2 图像对比3. 图像逻辑与理解实测 3.1 图像逻辑推理 3.2 梗图理解01.发布信息北京时间4月17日凌晨一点，OpenAI 开启了20分钟线上直播，上线了满血版 o3，还有下一代推理模型 o4-mini，图像识别与对比实测划重点，我们先来看本次主观评测核心结论：对于简单问题，o3 和 o4 mini 能够处理基础的图片推理任务，能够识别图片的基本信息并做内容回答，过程中有细节错误出现。 03.图像逻辑与理解实测3.1 图像逻辑推理既然 o3 和 o4mini 在图片对比识别上未能达到预期，我们继续上一道经典的逻辑推理题，它们分别能答对多少？1. 这个营地中有几名游客？安迪在干嘛？实测小结通过实测来看，o3 和 o4 mini 能够处理基础的图片推理任务，能够识别图片的基本信息并做内容回答（但还是有错误出现）。
60110编辑于 2025-05-07
实测OpenAI发布的o3和o4-mini模型
在4月16日晚，OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。 o4‑mini / GPT‑4.1 都给了响应较快；其中 o4‑mini 价格最低，GPT‑4.1 智能能力更强。价格梯度o4‑mini ≪ GPT‑4.1 ≪ o3，输出 token 单价差距最大（4.4→8→40 美元）。目前o3和o4-mini两个模型相比以前我觉得最大的改变就是可以进行“网页搜索”和“图像输入分析”。写在最后从 o3 和 o4-mini 的发布可以看出，OpenAI 正在加速推动语言模型向智能体形态转变的进程。
85610编辑于 2025-04-21
来自专栏无原型不设计
4款UI智能标注工具真实测评-有态度的测评
优点： 1.开发可以直接复制元素代码； 2.标注比较智能，也支持百分比标注和多选标注； 3.在线的，不占内存，一个插件搞定切图和标注； 4.支持 Win／Mac, 支持 PS／Sketch / XD； 4、标你妹呀体验地址：http://www.biaonimeia.com/ 与前两款软件对比，标注的尺寸有误差（上边距和下边距），图标的宽、高各大1px。 ?
1.5K20发布于 2019-01-24
来自专栏SIGAI学习与实践平台
户外场景4种典型3D相机成像精度实测
为了让3D视觉学术研究、产品研发人员对这一问题有基本的了解，本文给出以下4种典型3D相机的成像效果实测： 1.国外某知名品牌双目3D相机（以下简称双目相机A），是当前全球范围内知名度最高的双目3D相机，官方标明可用于室外场景； 2.国外某知名品牌双目3D相机（以下简称双目相机B），是全球范围内知名度仅次于双目相机A的产品，官方标明可用于室外场景； 3.国内某知名品牌结构光相机（以下简称结构光相机A）； 4. 本次测试了这4款3D相机在户外较强光照条件下对典型材质物体的成像效果，重点分析精度与成像稳定性。下表是4种型号相机的部分参数。在这个场景中，双目相机A对光滑的细金属电线杆有明显的扭曲变形，Z向和XY向的误差都超过了4cm。双目相机B对电线杆的Z向和XY向的误差>1cm，也有明显的变形。 4.Tensor Eye，户外场景精度最高，通常可以稳定地达到毫米级成像误差，成像速度慢，价格高。适用于户外场景对价格不敏感、对速度要求不高的高精度应用，包括机械臂引导、精确测量等。
1.3K20编辑于 2023-10-23
来自专栏低代码平台
本地跑 Gemma 4 替代 Claude Code？M4 Max 实测告诉你为什么行不通
关于Gemma4系列：为什么选26BA4BGoogle这次一口气发布了四个版本：E2B、E4B、31B和26BA4B。实测环境一览开始之前，先交代测试平台的硬件和软件配置：硬件：MacStudioM4Max128GB统一内存16核CPU/40核GPU模型：google/gemma-4-26b-a4b（Q4_K_M量化，速度对比：差距不是一星半点实测下来，不同上下文长度场景下的生成速度差异非常明显：场景生成速度Prompt处理耗时体验评价短对话（<2KToken）~30-40tok/s1-2秒✅流畅中等对话（~8KToken ClaudeCode用户来说，与其折腾本地部署，不如从"节流"入手：继续使用AnthropicAPI，Sonnet的性价比在同级模型中依然突出安装RTK（RustTokenKiller）压缩命令行输出，实测可省 60-90%的Token消耗本地模型留给聊天场景，跑OpenClaw或其��轻量对话工具善用/compact和/model切换，在Opus和Sonnet之间按需灵活调度写在最后这次实测最大的收获，不是验证了
1.9K41编辑于 2026-04-08
2026年4月实测：Docker GPU 容器化配置全流程 + 最佳实践
workspace/data\-v$(pwd)/outputs:/workspace/outputs\my-training:latest六、进阶用法多卡分布式训练展开代码语言：BashAI代码解释#使用所有GPU（4卡 -rm--gpusall\--shm-size=16g\pytorch/pytorch:latest\python-mtorch.distributed.launch--nproc_per_node=4train.py 本文基于NVIDIAContainerToolkit1.19.0、CUDA13.2.1测试，发布于2026年4月。
46010编辑于 2026-04-24
【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测：发布会宣传与真实效果相差几何？
AGI-Eval评测社区第一时间做了对比实测，下滑查看！目录：01. Claude4 模型简介02. Claude 4 实测核心结论03. 网页生成案例实测04. 游戏制作案例实测1.Claude 4 模型简介Anthropic 发布了 Claude 4 系列模型，包含 Claude Opus 4 和 Claude Sonnet 4 两个版本，均为混合模型，提供快速响应和用于更深层次推理的扩展思维两种模式模型体验入口：https://claude.ai/onboarding2.Claude 4 实测核心结论从发布会的亮眼数据到实际应用表现，Claude 4 系列模型究竟能否兑现“AI新标杆”的承诺？为验证其真实能力，我们选取了网页开发和游戏制作两个典型场景，对 Claude Opus 4 （调用API）和 Claude Sonnet 4 （调用API）进行深度实测，与 DeepSeek-v3 进行横向对比 4. 游戏制作案例实测测试能力：游戏制作类实测通过跳跃游戏、贪吃蛇游戏案例，考察模型的响应速度、代码生成能力、交互与实用性，在游戏制作实测中，代码多需要二次调试。
85210编辑于 2025-06-11
4个实测案例告诉你：chatgpt的Image2 到底强在哪
4）不再那么“AI 味统一” 以前很多图一眼就能看出来：同一套塑料质感，同一批网红审美。这次在风格多样性上，我感觉明显进步了。同样一句话，多出几张，画面差异和质感层次都更自然。我实测的 4 个例子下面这些提示词，我刻意写得很短。核心就是测试“说人话能力”。例子1：人物场景提示词： “下班后的程序员在地铁站口喝咖啡，夜景霓虹，纪实摄影风。” 例子4：漫画风封面提示词： “扁平化卡通插画，一个人在电脑前搭建自动化流程，轻科技感，明亮配色。” 我看重的点：风格统一度、叙事感、是否适合作为公众号配图。
75030编辑于 2026-04-28
来自专栏机器之心
GPT-4时代已过？全球网友实测Claude 3，只有震撼
机器之心报道机器之心编辑部性能比 GPT-4 强很多。大模型的纯文本方向，已经卷到头了？不过，在定价上，能力最强的 Claude 3 也比 GPT-4 Turbo 要贵得多：GPT-4 Turbo 每百万 token 输入 / 输出收费为 10/30 美元；而 Claude 3 Opus 有人说，Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。不过，也有人表示，在实际体验方面，Claude 3 并没有彻底击败 GPT-4。第一手实测Claude3 地址：https://claude.ai/ Claude 3 是否真的像官方所宣称的那样，性能全面超越了 GPT-4？目前大多数人认为，确实有那么点意思。以下是部分实测效果：首先来一个脑筋急转弯，哪一个月有二十八天？实际正确答案是每个月都有。看来 Claude 3 还不擅长做这种题。
68310编辑于 2024-03-07
来自专栏AI进修生
实测 Google IO 放出来的 Imagen4，不如GPT4o、甚至不如Imagen3。。
我又把同样的‘考卷’扔给了 Imagen 4，特地让它画了4张，不仅审美感觉‘不在线’，文字表达也像刚学写字的小朋友，歪歪扭扭。 Imagen 4 Uttra 性能比4o差一些，但是快几倍。来自4o生成的结果：然后这里：左边是Imagen 4，右边是Imagen 3。负向提示词：卡通化、塑料质感、CGI 渲染、HDR 过度、完全对称、过度锐化 imagen4： 4o：对比一下 4、3 和 4o 生成的便签纸，同样是要求‘真实笔触与墨迹颗粒感’、‘边缘折痕与指纹 3、4o。
66910编辑于 2025-05-22
来自专栏大数据学习笔记
实测：NLPchinaelasticsearch-sql
Dio.netty.noKeySetOptimization=true, -Dio.netty.recycler.maxCapacityPerThread=0, -Dio.netty.allocator.numDirectArenas=0, -Dlog4j.shutdownHookEnabled =false, -Dlog4j2.disable.jmx=true, -Djava.locale.providers=SPI,COMPAT, --add-opens=java.base/java.io= -09T16:29:37,712][INFO ][o.e.p.PluginsService ] [TPA-VDI-OA11-17] loaded module [transport-netty4] Xshell6个人版安装与远程操作连接服务器..." , "url": "http://x.co/6nc84" ,"postdate":"2018-12-13"} { "index": {"_id": "4" （4）开打插件 ? （5）执行SQL命令（首先在右上角填写对应的ES集群地址，此处填写了本地地址：http://127.0.0.1:9200/） ? ?
1.2K20发布于 2021-08-10
DeepSeek V4 API 完全指南：性能实测、成本测算与接入方案（2026）
下面是我实测通过的代码：基础调用：from openai import OpenAIclient = OpenAI( api_key="your-api-key", base_url="https:// V4 的 API 接口和 V3 完全一致，model 参数从 deepseek-v3 改成 deepseek-v4 就行，SDK 不用换。Q2：V4 的 256K 上下文是真的能用满吗？我实测喂了 200K+ token 的内容，模型在尾部信息的召回率大概在 85% 左右，比 V3 的 128K 好不少，但和 Gemini 3 Pro 的 1M 上下文比还是有差距。 Q4：V4 的 Function Calling 稳定性怎么样？比 V3 好太多了。我实测通过聚合接口调用，首 token 约 1.1s，输出速度约 55 tokens/s，体感和 V3 差不多，没有因为参数量增大而明显变慢（MoE 架构的优势）。Q7：V4 能跑在本地吗？
24.5K300编辑于 2026-04-23
DeepSeek V4 领衔实测：国产 AI 大模型工程代码能力大测评！
第一梯队是 deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7。则是非 DeepSeek-V4 系里表现最稳定的一个。在这个层面，deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳，为第一梯队，其余模型都有一定差距。 deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7 在这一维度上的优势比较明显。 deepseek-v4-flash 在这一维度上表现最佳，deepseek-v4-pro 和 qwen3.6-plus 紧随其后。这类模型通常能够较快收敛到可用结果，整体路径较短。
1K20编辑于 2026-05-06
来自专栏量子位
直播实测GPT-4 vs 文心一言，今晚坐等你来提问！
代问工具人发自凹非寺量子位 | 公众号 QbitAI GPT-4和文心一言这前后脚一上线，我们后台留言都快炸了。不少小伙伴都想看看这俩选手真刀真枪拼起来，到底是个什么情况。
34410编辑于 2023-03-21
来自专栏福大大架构师每日一题
Llama 4 实测拉胯，官方承认“有问题”，DeepSeek 笑到最后？
在2025年4月8日凌晨1点半，Meta生成式AI团队负责人Ahmad Al-Dahle在社交媒体上发表了一篇长文，对前两天刚刚开源的Llama 4所遭遇的质疑进行了官方回应。他们坚信Llama 4模型代表了一项重要的技术进步，并期待与社区的合作，以充分发挥其价值。事实上，Llama 4在开源的当天就受到了一些对其性能的质疑。 Llama 4的表现令人失望，显然在这方面你们的工作做得相当糟糕。与其误导公众，不如坦诚承认错误。在聊天机器人领域的大语言模型排行榜上，Meta 的 Llama 4 Maverick 在编程能力方面居于首位。以往，Llama 系列的发布通常安排在美国的周二或周三上午10点左右，发布 Llama 4 的时机显得有些心虚。
34810编辑于 2025-04-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

4G网速实测与WIFI使用对比

实测：文心一言 vs GPT-4

Llama 4发布即开源 | 实测效果如何？

实测｜Mac本地Claude Code，4大热门模型（minimaxqwenkimiglm）对比

2026年4月 7款国产大模型能力实测

【AGI-Eval 实测速报】OpenAI o3o4-mini视觉推理封神？实测翻车率略高

实测OpenAI发布的o3和o4-mini模型

4款UI智能标注工具真实测评-有态度的测评

户外场景4种典型3D相机成像精度实测

本地跑 Gemma 4 替代 Claude Code？M4 Max 实测告诉你为什么行不通

2026年4月实测：Docker GPU 容器化配置全流程 + 最佳实践

【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测：发布会宣传与真实效果相差几何？

4个实测案例告诉你：chatgpt的Image2 到底强在哪

GPT-4时代已过？全球网友实测Claude 3，只有震撼

实测 Google IO 放出来的 Imagen4，不如GPT4o、甚至不如Imagen3。。

实测：NLPchinaelasticsearch-sql

DeepSeek V4 API 完全指南：性能实测、成本测算与接入方案（2026）

DeepSeek V4 领衔实测：国产 AI 大模型工程代码能力大测评！

直播实测GPT-4 vs 文心一言，今晚坐等你来提问！

Llama 4 实测拉胯，官方承认“有问题”，DeepSeek 笑到最后？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐