首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器人课程与技术

    4G网速实测与WIFI使用对比

    5G即将普及,4G数据也基本能够满足需要,实测为日常使用地点(两处)和办公室WIFI,如果要求时延低,任何场合都推荐光钎,wifi和4g信号时延都要明显高于有线网络。 在线测网速链接:http://www.speedtest.cn/report_mobile/4G 移动(wifi+4G1+4G2): ~ ? ~ ? ~ ? ~ 联通(wifi+4g1+4g2): ~ ? ~ ? ~ ? ~ 电信(wifi+4g1+4g2): ~ ? ~ ? ~ ?

    1.8K50发布于 2019-01-23
  • 来自专栏程序猿DD

    实测:文心一言 vs GPT-4

    咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。 文心一言 vs GPT-4 和GPT-4一样,文心一言是一个多模态大模型。 老样子,我们也来与GPT-4进行一波对比: 这波你是想看GPT-4续写的《三体》,还是文心一言的? 再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点? 也没什么问题。 并且这个名字它还不是瞎起的: 再来看看GPT-4起名的效果? 看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。 至于写个公司成立的新闻稿? 首先是文心一言的效果展示: 接下来,我们再看看GPT-4怎么说: 诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。 这波文化理解上,属实是文心一言“小胜一筹”了。 有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”: 离GPT-4还差了20个老胡。

    77720编辑于 2023-04-04
  • 来自专栏算法一只狗

    Llama 4发布即开源 | 实测效果如何?

    Meta 终于发布了一个原生多模态大模型 Llama4。而且一经发布,在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二。仅仅比 Gemini-2.5-pro 模型少 22 分。 比GPT-4o 价格那确实便宜很多图像推理任务:Llama 4 Maverick 在图像推理任务中表现最强。MMMU(复杂图像理解)中,Llama 4 Maverick 得分 73.4,高于其他模型。 MathVista(视觉数学):Llama 4 Maverick 得分 73.7,高于 Gemini 2.0(73.1)和 GPT-4o(63.8)编程任务上:DeepSeek 在编码任务上略胜一筹(DS ,但 Llama 4 Maverick 表现依然优异,远超 GPT-4o。下图展示了模型在“代码任务中的累计平均负对数似然(NLL)”随序列位置变化的趋势曲线。 与 Gemini 系列、GPT-4o、Claude 3、DeepSeek 等主流模型相比,Llama 4 的技术栈呈现出强烈的“工程范”:不走炫技路线,而是注重模型实用性、训练效率与部署成本之间的平衡。

    1.1K20编辑于 2025-04-25
  • 来自专栏架构进阶

    实测|Mac本地Claude Code,4大热门模型(minimaxqwenkimiglm)对比

    二 测试环境 先跟大家同步一下本次实测的核心前提,保证测试结果的公平性: 设备:MacBook Pro(M4芯片,24GB内存,512GB固态),系统版本Sequoia 15.6.1 (24G90) 工具 接下来,进入核心实测环节——4个模型的全方位对比,结合相同的测试案例,拆解各自的优缺点、适用范围,每一个结论都基于我实际操作的体验,不吹不黑,客观呈现。 四 核心实测4大模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 七、最后总结 本次Mac本地基于Ollama安装Claude Code,以及4个热门模型的实测,到这里就全部结束了。 最后,希望这篇实测推文,能够帮到大家,无论是Ollama安装Claude Code的实操,还是4个模型的选择,都能让大家少走弯路。

    77031编辑于 2026-05-06
  • 2026年4月 7款国产大模型能力实测

    2026年4月7款国产大模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产大模型同台竞技,最终只有1款完成了挑战。背景大模型的代码能力评测很多,但跑分和实战是两回事。 2个模型下载了错误的文件,4个模型完全没下载成功。网站的真实漏洞是什么?在分析模型表现之前,先说清楚这个网站到底有什么问题。 id=45c396367f59→拿到MP3的CDN直链下载成功,441KB,朗诵者"诵读客"深入分析s■■■■.js源码→发现前端检查Cookie但后端不验证→完整还原漏洞链关键决策点在第4步:当其他模型在猜测 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。

    33600编辑于 2026-04-23
  • 【AGI-Eval 实测速报】OpenAI o3o4-mini视觉推理封神?实测翻车率略高

    我们连夜实测,输出这份硬核报告,下滑阅读!目录:1. 发布信息   1.1 模型简介   1.2 模型性能对比2.图像识别与对比实测   2.1 图像识别   2.2 图像对比3. 图像逻辑与理解实测   3.1 图像逻辑推理   3.2 梗图理解01.发布信息北京时间4月17日凌晨一点,OpenAI 开启了20分钟线上直播,上线了满血版 o3,还有下一代推理模型 o4-mini, 图像识别与对比实测划重点,我们先来看本次主观评测核心结论:对于简单问题,o3 和 o4 mini  能够处理基础的图片推理任务,能够识别图片的基本信息并做内容回答,过程中有细节错误出现。 03.图像逻辑与理解实测3.1 图像逻辑推理既然 o3 和 o4mini 在图片对比识别上未能达到预期,我们继续上一道经典的逻辑推理题,它们分别能答对多少?1. 这个营地中有几名游客?安迪在干嘛? 实测小结通过实测来看,o3 和 o4 mini  能够处理基础的图片推理任务,能够识别图片的基本信息并做内容回答(但还是有错误出现)。

    60110编辑于 2025-05-07
  • 实测OpenAI发布的o3和o4-mini模型

    4月16日晚,OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。 o4‑mini / GPT‑4.1 都给了响应较快;其中 o4‑mini 价格最低,GPT‑4.1 智能能力更强。 价格梯度o4‑mini ≪ GPT‑4.1 ≪ o3,输出 token 单价差距最大(4.4→8→40 美元)。 目前o3和o4-mini两个模型相比以前我觉得最大的改变就是可以进行“网页搜索”和“图像输入分析”。 写在最后从 o3 和 o4-mini 的发布可以看出,OpenAI 正在加速推动语言模型向智能体形态转变的进程。

    85610编辑于 2025-04-21
  • 来自专栏无原型不设计

    4款UI智能标注工具真实测评-有态度的测评

    优点: 1.开发可以直接复制元素代码; 2.标注比较智能,也支持百分比标注和多选标注; 3.在线的,不占内存,一个插件搞定切图和标注; 4.支持 Win/Mac, 支持 PS/Sketch / XD; 4、标你妹呀 体验地址:http://www.biaonimeia.com/ 与前两款软件对比,标注的尺寸有误差(上边距和下边距),图标的宽、高各大1px。 ?

    1.5K20发布于 2019-01-24
  • 来自专栏SIGAI学习与实践平台

    户外场景4种典型3D相机成像精度实测

    为了让3D视觉学术研究、产品研发人员对这一问题有基本的了解,本文给出以下4种典型3D相机的成像效果实测: 1.国外某知名品牌双目3D相机(以下简称双目相机A),是当前全球范围内知名度最高的双目3D相机, 官方标明可用于室外场景; 2.国外某知名品牌双目3D相机(以下简称双目相机B),是全球范围内知名度仅次于双目相机A的产品,官方标明可用于室外场景; 3.国内某知名品牌结构光相机(以下简称结构光相机A); 4. 本次测试了这4款3D相机在户外较强光照条件下对典型材质物体的成像效果,重点分析精度与成像稳定性。 下表是4种型号相机的部分参数。 在这个场景中,双目相机A对光滑的细金属电线杆有明显的扭曲变形,Z向和XY向的误差都超过了4cm。双目相机B对电线杆的Z向和XY向的误差>1cm,也有明显的变形。 4.Tensor Eye,户外场景精度最高,通常可以稳定地达到毫米级成像误差,成像速度慢,价格高。适用于户外场景对价格不敏感、对速度要求不高的高精度应用,包括机械臂引导、精确测量等。

    1.3K20编辑于 2023-10-23
  • 来自专栏低代码平台

    本地跑 Gemma 4 替代 Claude Code?M4 Max 实测告诉你为什么行不通

    关于Gemma4系列:为什么选26BA4BGoogle这次一口气发布了四个版本:E2B、E4B、31B和26BA4B。 实测环境一览开始之前,先交代测试平台的硬件和软件配置:硬件:MacStudioM4Max128GB统一内存16核CPU/40核GPU模型:google/gemma-4-26b-a4b(Q4_K_M量化, 速度对比:差距不是一星半点实测下来,不同上下文长度场景下的生成速度差异非常明显:场景生成速度Prompt处理耗时体验评价短对话(<2KToken)~30-40tok/s1-2秒✅流畅中等对话(~8KToken ClaudeCode用户来说,与其折腾本地部署,不如从"节流"入手:继续使用AnthropicAPI,Sonnet的性价比在同级模型中依然突出安装RTK(RustTokenKiller)压缩命令行输出,实测可省 60-90%的Token消耗本地模型留给聊天场景,跑OpenClaw或其��轻量对话工具善用/compact和/model切换,在Opus和Sonnet之间按需灵活调度写在最后这次实测最大的收获,不是验证了

    1.9K41编辑于 2026-04-08
  • 2026年4实测:Docker GPU 容器化配置全流程 + 最佳实践

    workspace/data\-v$(pwd)/outputs:/workspace/outputs\my-training:latest六、进阶用法多卡分布式训练展开代码语言:BashAI代码解释#使用所有GPU(4卡 -rm--gpusall\--shm-size=16g\pytorch/pytorch:latest\python-mtorch.distributed.launch--nproc_per_node=4train.py 本文基于NVIDIAContainerToolkit1.19.0、CUDA13.2.1测试,发布于2026年4月。

    46010编辑于 2026-04-24
  • 【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测:发布会宣传与真实效果相差几何?

    AGI-Eval评测社区第一时间做了对比实测,下滑查看!目录:01. Claude4 模型简介02. Claude 4 实测核心结论03. 网页生成案例实测04. 游戏制作案例实测1.Claude 4 模型简介Anthropic 发布了 Claude 4 系列模型,包含 Claude Opus 4 和 Claude Sonnet 4 两个版本,均为混合模型,提供快速响应和用于更深层次推理的扩展思维两种模式 模型体验入口:https://claude.ai/onboarding2.Claude 4 实测核心结论从发布会的亮眼数据到实际应用表现,Claude 4 系列模型究竟能否兑现“AI新标杆”的承诺? 为验证其真实能力,我们选取了网页开发和游戏制作两个典型场景,对  Claude Opus 4 (调用API)和 Claude Sonnet 4 (调用API)进行深度实测,与 DeepSeek-v3 进行横向对比 4. 游戏制作案例实测测试能力:游戏制作类实测通过跳跃游戏、贪吃蛇游戏案例,考察模型的响应速度、代码生成能力、交互与实用性,在游戏制作实测中,代码多需要二次调试。

    85210编辑于 2025-06-11
  • 4实测案例告诉你:chatgpt的Image2 到底强在哪

    4)不再那么“AI 味统一” 以前很多图一眼就能看出来: 同一套塑料质感,同一批网红审美。 这次在风格多样性上,我感觉明显进步了。 同样一句话,多出几张, 画面差异和质感层次都更自然。 我实测4 个例子 下面这些提示词,我刻意写得很短。 核心就是测试“说人话能力”。 例子1:人物场景 提示词: “下班后的程序员在地铁站口喝咖啡,夜景霓虹,纪实摄影风。” 例子4:漫画风封面 提示词: “扁平化卡通插画,一个人在电脑前搭建自动化流程,轻科技感,明亮配色。” 我看重的点: 风格统一度、叙事感、是否适合作为公众号配图。

    75030编辑于 2026-04-28
  • 来自专栏机器之心

    GPT-4时代已过?全球网友实测Claude 3,只有震撼

    机器之心报道 机器之心编辑部 性能比 GPT-4 强很多。 大模型的纯文本方向,已经卷到头了? 不过,在定价上,能力最强的 Claude 3 也比 GPT-4 Turbo 要贵得多:GPT-4 Turbo 每百万 token 输入 / 输出收费为 10/30 美元 ;而 Claude 3 Opus 有人说,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。 不过,也有人表示,在实际体验方面,Claude 3 并没有彻底击败 GPT-4。 第一手实测Claude3 地址:https://claude.ai/ Claude 3 是否真的像官方所宣称的那样,性能全面超越了 GPT-4?目前大多数人认为,确实有那么点意思。 以下是部分实测效果: 首先来一个脑筋急转弯,哪一个月有二十八天?实际正确答案是每个月都有。看来 Claude 3 还不擅长做这种题。

    68310编辑于 2024-03-07
  • 来自专栏AI进修生

    实测 Google IO 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。

    我又把同样的‘考卷’扔给了 Imagen 4,特地让它画了4张,不仅审美感觉‘不在线’,文字表达也像刚学写字的小朋友,歪歪扭扭。 Imagen 4 Uttra 性能比4o差一些,但是快几倍。 来自4o生成的结果: 然后这里:左边是Imagen 4,右边是Imagen 3。 负向提示词:卡通化、塑料质感、CGI 渲染、HDR 过度、完全对称、过度锐化 imagen44o: 对比一下 4、3 和 4o 生成的便签纸,同样是要求‘真实笔触与墨迹颗粒感’、‘边缘折痕与指纹 3、4o。

    66910编辑于 2025-05-22
  • 来自专栏大数据学习笔记

    实测:NLPchinaelasticsearch-sql

    Dio.netty.noKeySetOptimization=true, -Dio.netty.recycler.maxCapacityPerThread=0, -Dio.netty.allocator.numDirectArenas=0, -Dlog4j.shutdownHookEnabled =false, -Dlog4j2.disable.jmx=true, -Djava.locale.providers=SPI,COMPAT, --add-opens=java.base/java.io= -09T16:29:37,712][INFO ][o.e.p.PluginsService ] [TPA-VDI-OA11-17] loaded module [transport-netty4] Xshell6个人版安装与远程操作连接服务器..." , "url": "http://x.co/6nc84" ,"postdate":"2018-12-13"} { "index": {"_id": "4" (4)开打插件 ? (5)执行SQL命令 (首先在右上角填写对应的ES集群地址,此处填写了本地地址:http://127.0.0.1:9200/) ? ?

    1.2K20发布于 2021-08-10
  • DeepSeek V4 API 完全指南:性能实测、成本测算与接入方案(2026)

    下面是我实测通过的代码:基础调用:from openai import OpenAIclient = OpenAI( api_key="your-api-key", base_url="https:// V4 的 API 接口和 V3 完全一致,model 参数从 deepseek-v3 改成 deepseek-v4 就行,SDK 不用换。Q2:V4 的 256K 上下文是真的能用满吗? 我实测喂了 200K+ token 的内容,模型在尾部信息的召回率大概在 85% 左右,比 V3 的 128K 好不少,但和 Gemini 3 Pro 的 1M 上下文比还是有差距。 Q4:V4 的 Function Calling 稳定性怎么样?比 V3 好太多了。 我实测通过聚合接口调用,首 token 约 1.1s,输出速度约 55 tokens/s,体感和 V3 差不多,没有因为参数量增大而明显变慢(MoE 架构的优势)。Q7:V4 能跑在本地吗?

    24.5K300编辑于 2026-04-23
  • DeepSeek V4 领衔实测:国产 AI 大模型工程代码能力大测评!

    第一梯队是 deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7。 则是非 DeepSeek-V4 系里表现最稳定的一个。 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7 在这一维度上的优势比较明显。 deepseek-v4-flash 在这一维度上表现最佳,deepseek-v4-pro 和 qwen3.6-plus 紧随其后。这类模型通常能够较快收敛到可用结果,整体路径较短。

    1K20编辑于 2026-05-06
  • 来自专栏量子位

    直播实测GPT-4 vs 文心一言,今晚坐等你来提问!

    代问工具人 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4和文心一言这前后脚一上线,我们后台留言都快炸了。 不少小伙伴都想看看这俩选手真刀真枪拼起来,到底是个什么情况。

    34410编辑于 2023-03-21
  • 来自专栏福大大架构师每日一题

    Llama 4 实测拉胯,官方承认“有问题”,DeepSeek 笑到最后?

    在2025年4月8日凌晨1点半,Meta生成式AI团队负责人Ahmad Al-Dahle在社交媒体上发表了一篇长文,对前两天刚刚开源的Llama 4所遭遇的质疑进行了官方回应。 他们坚信Llama 4模型代表了一项重要的技术进步,并期待与社区的合作,以充分发挥其价值。 事实上,Llama 4在开源的当天就受到了一些对其性能的质疑。 Llama 4的表现令人失望,显然在这方面你们的工作做得相当糟糕。与其误导公众,不如坦诚承认错误。 在聊天机器人领域的大语言模型排行榜上,Meta 的 Llama 4 Maverick 在编程能力方面居于首位。 以往,Llama 系列的发布通常安排在美国的周二或周三上午10点左右,发布 Llama 4 的时机显得有些心虚。

    34810编辑于 2025-04-14
领券