搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
让GBDT和GNN结合起来：Criteo AI Lab提出全新架构BGNN
选自OpenReview 作者：Sergei Ivanov等机器之心编译编辑：小舟、蛋酱 GBDT 和 GNN 方法各有各的优势，现在，来自法国、俄罗斯两家机构的研究者将二者的优势结合起来，探索
85510发布于 2021-03-15
来自专栏机器学习与推荐算法
华为、人大、清华和港中文联合发布推荐系统的Benchmarking
prediction research 实验结果更多实验结果参考官网的实验部分：https://openbenchmark.github.io/ctr-prediction/leaderboard/criteo_x4 /data/Criteo/", "dataset_id": "criteo_x4_5c863b0f", ... 2020-08-09 23:28:47,583 P587 INFO /data/Criteo/criteo_x4_5c863b0f/feature_map.json 2020-08-09 23:28:47,583 P587 INFO Loading data... 2020 /data/Criteo/criteo_x4_5c863b0f/train.h5 2020-08-09 23:28:52,372 P587 INFO Loading data from h5: .. /data/Criteo/criteo_x4_5c863b0f/valid.h5 2020-08-09 23:28:54,189 P587 INFO Train samples: total/36672493
1.1K30发布于 2021-10-14
来自专栏云深知网络可编程P4君
开放网络下基层 - 公有云不香吗？
Criteo是一家国际化数字效果广告营销公司通过掌握上网习惯提供个性化的广告 Criteo全球有 5万台自有的服务器曾经上海有PoP似乎改道香港了如此规模没有迁移公有云是不够香吗硅谷顶级风投的反思 IDC首度关注OCP开放计算项目所以Criteo 敢为行业先率先尝试开放的网络符合Gartner的预测即超过200台交换机的数据中心都将会考虑SONiC Gartner报告的玄机数据中心魔力象限临改动 Criteo网络架构和其它大厂并无二异标准的CLOS保证扩展性网络致胜-数据中心网络系统技术白皮书 Don't be shy, that works on production!
99230编辑于 2023-02-15
来自专栏图与推荐
“巨人的肩膀” 海量CTR模型的高效高性能实现 FuxiCTR
建立data文件夹，并在data下建立criteo_x4, 将train.csv、valid.csv、test.csv放在criteo_x4下。 └── xdeepfm_criteo.py 配置文件在config下建立xdeepfm_criteo_x4文件夹，分别填写数据集配置文件和模型配置文件。数据集配置文件: config/xdeepfm_criteo_x4/dataset_config.yaml criteo_x4: data_root: . /data/criteo_x4/ data_format: csv train_data: ./data/criteo_x4/train.csv valid_data: . 我们切换到正确配置的环境下，运行 # 运行命令 python xdeepfm_criteo.py # 本文执行的命令 nohup python xdeepfm_criteo.py > train_xdeepfm_criteo.log
1.3K20编辑于 2021-12-06
来自专栏机器之心
ICLR 2019趣分析：「学神」吴佳俊个人高产，谷歌、MIT投稿量最多
根据 criteo-research 的统计，这届 ICLR 的热门研究主题如下图所示： ? 图源：https://github.com/criteo-research/iclr_analysis 评审分数置信度热图如下所示： ? 图源：https://github.com/criteo-research/iclr_analysis 除强化学习、GAN 以外，对抗样本、元学习、优化、表征学习也是很受关注的研究课题。图源：https://github.com/criteo-research/iclr_analysis 而论文投稿数量最多的结构中，谷歌位列第一。参考链接：https://github.com/criteo-research/iclr_analysis https://prlz77.github.io/iclr2019-stats-2/
76640发布于 2019-04-29
来自专栏炼丹笔记
读了那么多CTR论文, 真正有效的又有几个呢？
并且在Kaggle的两个竞赛数据集Criteo和Avazu数据集上进行了比较。这篇文章我们简单分两块进行介绍：目前CTR算法中一些经典算法的开源情况；在Criteo以及Avazu两大数据集上各大模型的表现情况 & 小结；各大经典算法开源情况 ? 实验对比此处实验是对比20多个经典算法在现在数据集上的表现：在Criteo数据集合上的复现情况： ? 在Avazu数据集合上的复现情况 ? FuxiCTR和最新方法的对比 ? 1.在Criteo数据集上的表现 xDeepFM平均排名第一 DeepFM,DCN,FiGNN,ONN分别位列2,3,4,5位 2.在Avazu数据集上的表现 FiBiNET平均排名第一 ONN,HFM
1.9K20发布于 2021-05-14
来自专栏炼丹笔记
那么多CTR论文，真正能复现出效果的有几个？
并且在Kaggle的两个竞赛数据集Criteo和Avazu数据集上进行了比较。这篇文章我们简单分两块进行介绍：目前CTR算法中一些经典算法的开源情况；在Criteo以及Avazu两大数据集上各大模型的表现情况 & 小结；各大经典算法开源情况目前几乎没有一个算法是同时满足下面实验对比此处实验是对比20多个经典算法在现在数据集上的表现： 01 在Criteo数据集合上的复现情况 02 在Avazu数据集合上的复现情况 03 最新算法方案对比 1.在Criteo数据集上的表现
98220编辑于 2022-05-23
来自专栏深度学习入门与实践
PaddlePaddle分布式训练及CTR预估模型应用
数据背景：Criteo是在线效果类数字营销厂商，于2005年在法国巴黎成立，目前的核心业务是重定向广告（retargeting）。 Criteo在全球范围内共有31间办事处，有6间位于欧洲，有5间位于北美，有1间在巴西，在亚太地区总共有5间办事处。 Criteo是在线效果类展示广告厂商于2014年5月13日宣布启动在中国的业务和运营，并将北京设为中国区总部所在地。 Criteo的核心产品主要包括访客广告、流失客户广告、移动应用内效果型广告和AD-X 移动广告跟踪分析产品等。 Criteo拥有世界领先的自主学习式推荐引擎和预测引擎，能够通过其对于市场的洞察提供可评估的结果，因而能够在正确的时间通过推送广告，将对的产品推荐给对的用户。
1.1K10发布于 2019-05-25
来自专栏小小挖掘机
DeepCTR-Torch:基于深度学习的CTR预测算法库
如何快速的应用一个基于深度学习的CTR模型,代码地址在： https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/run_classification_criteo.py The Criteo Display Ads dataset 是kaggle上的一个CTR预估竞赛数据集。里面包含13个数值特征I1-I13和26个类别特征C1-C26。 /criteo_sample.txt') # 上面的数据在：https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/criteo_sample.txt
4.3K51发布于 2019-09-26
来自专栏AI研习社
代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN
特征框架 -- logs in，samples out 实验数据集用 criteo，特征工程参考: https://github.com/PaddlePaddle/models/blob/develop /model_ckpt/criteo/DeepFM/ --data_dir=../.. /data/criteo/ #predict python DeepFM.py --task_type=infer --learning_rate=0.0005 --optimizer=Adam /model_ckpt/criteo/DeepFM/ --data_dir=../.. /model_ckpt/criteo/DeepFM/ --servable_model_dir=.
6.1K91发布于 2018-03-16
来自专栏海边的拾遗者
推荐算法最前沿 | KDD 2020推荐算法论文一览（内附下载链接）
此届会议有很大一部分来自工业界的论文，包括Google、Microsoft、Criteo、Spotify以及国内大厂阿里、百度、字节、华为、滴滴等。 CTR Prediction 1. BLOB: A Probabilistic Model for Recommendation that Combines Organic and Bandit Signals 【Criteo】 3. Joint Policy-Value Learning for Recommendation 【Criteo】论文：researchgate.net/public Multi-Task Learning
3.2K32发布于 2020-11-17
来自专栏大数据文摘
美国霸榜ICML！占据3/4被接收论文，中国论文数不到美国两成
Criteo(法国)是欧洲发表文章数量排名第二的公司。洛桑联邦理工学院和苏黎世联邦理工学院是瑞士表现最好的学校。除了美国和中国，大多数顶级文章发表的机构都是大学。在非美国公司中，只有英国(DeepMind)、法国(Criteo)、中国(华为、百度、阿里巴巴)、俄罗斯(Yandex)和韩国(三星)的公司发表了5篇及其以上文章。相关报道： https://medium.com/criteo-labs/icml-2020-comprehensive-analysis-of-authors-organizations-and-countries-c4d1bb847fde
94820发布于 2020-06-29
来自专栏小小挖掘机
DCN-M：Google提出改进版DCN，用于大规模排序系统的特征交叉学习(附代码)
在Criteo和ml-1m数据上的大量实验表明，DCN-M模型能够显著胜过SOTA方法。模型 DCN回顾首先回顾一下DCN的模型结构： ? 串行结构在criteo数据集上更好，而并行结构在Movielen-1M上效果更好。数据集：Criteo ? 更高阶的模型会比2阶的模型效果更好，说明在Criteo数据集上更高阶的交叉也是有意义的。数据集：Criteo、ml-1m ? FLOPS是模型运行时间的近似估计。大部分模型的运行时间大约是参数量#Params的2倍，但xDeepFM却高出了一个数量级，难以落地。
4K40发布于 2020-11-09
来自专栏数据拾光者
广告行业中那些趣事系列52：一个超好用的CTR开源项目FuxiCTR
论文做了一个CTR模型的benchmark，在公共数据集Criteo和Avazu对比了主流CTR模型的效果。下面是FuxiCTR项目整体架构图：图1 FuxiCTR项目整体架构 2.2 FuxiCTR支持主流的CTR算法以及在公共数据集效果论文在公共数据集Criteo和Avazu对比了主流CTR模型的效果，下面是Criteo数据集上的效果展示图：图2 Criteo数据集上的效果展示图可以看出Criteo数据集上表现效果较好的是Wide&Deep、IPNN、DeepFM、DCN、xDeepFM和ONN 结合Criteo数据集和Avazu数据集模型效果来看，LR模型作为早期主流的CTR模型效果会差于其他CTR模型。
86720编辑于 2022-05-05
来自专栏PaddlePaddle
训练吞吐量提升6倍！飞桨弹性计算推荐系统ElasticCTR 1.0发布
经验证，使用Criteo数据集训练CTR-DNN模型，训练吞吐量相比同类框架可提升6倍。事实上，Criteo数据集只是一个简单的例子，在实际应用中会有更大规模的稀疏参数，ElasticCTR的训练和部署优势会更加显著。 ? 图：CTR-DNN模型训练效果对比 3. 我们以Criteo广告数据集为输入，采用ElasticCTR构建一个完整的推荐系统，实现广告的推荐。 Criteo广告数据集一共有27个维度的稀疏参数，每一条样本均有一个label来表示用户是否点击了这条广告。准备数据集部署一个HDFS集群，并在HDFS上存放好Criteo数据集。具体可参考HDFS配置教程。
80030发布于 2020-04-20
基于昇腾用PyTorch实现传统CTR模型WideDeep网络
基于昇腾用PyTorch实现传统CTR模型WideDeep网络本文主要介绍如何在昇腾上使用pytorch对推荐系统中经典的网络模型WideDeep网络进行训练的实战讲解，使用数据集是criteo，主要内容分为以下几个模块：推荐系统概述 WideDeep网络创新点介绍 WideDeep的网络架构剖析及搭建使用criteo数据集训练WideDeep网络实战 - criteo数据集介绍 - 模型训练过程定义 - 评估模型性能 - 使用criteo训练wideWeep模型推荐系统概述推荐系统可以看作是搜索排名系统，其中输入查询是一组用户和上下文信息，输出是条目的排名列表数据集介绍 criteo数据集是一个关于展示广告点击率预测的经典数据集，由广告技术公司Criteo实验室提供，被用于许多CTR比赛中。 /data/widedeepDataset/criteo_sampled_data.csv" # 通过pandas加载数据集到data，因此表格中的数值将会变成二维矩阵的形式存储在data中 data
69400编辑于 2025-02-09
来自专栏Coggle数据科学
深入理解推荐系统：大厂如何进行CTR增量训练
例如，从criteo数据集上观察到，对比起在该块前存在的features集合，new data的第一块会带来12%的new features，而第14个块仍会带来4%的new features。图4 来自criteo dataset观察到的，随着new data的blocks进来，new features对比起已存在features集合的比例在分配合适的ids给所有features后，IncCTR Criteo。该数据集用于CTR预估的benchmark算法。为了减小复制实验结果的目的，我们在criteo数据集上做了数据处理的细节。根据kaggle比赛，涉及datasampling、discretization以及feature filtering。 Data sampling：考虑数据的imbalance（只有3%的样本是正），我们将负样本做down sampling，将正样本比例接近50% 离散化：类别型和数值形features都存在在Criteo
2.2K20编辑于 2022-08-31
来自专栏AlgorithmDog的专栏
XGBoost + LR 就是加特征而已
[2].http://www.csie.ntu.edu.tw/~r01922136/Kaggle-2014-criteo.pdf [3].https://github.com/guestwalk/ Kaggle-2014-criteo
1.8K80发布于 2017-12-29
来自专栏Python与算法之美
DeepFM 二分类范例代码
公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源码和所用criteo_small数据集下载链接。
23310编辑于 2025-03-07
来自专栏机器学习AI算法工程
GBDT、FM、FFM和DNN融合构建广告点击率预测模型
数据集下载这次我们使用Kaggle上的Display Advertising Challenge挑战的criteo数据集。 https://www.kaggle.com/c/criteo-display-ad-challenge/ 下载数据集请在终端输入下面命令(脚本文件路径：. /data/download.sh)： wget –no-check-certificate https://s3-eu-west-1.amazonaws.com/criteo-labs/dac.tar.gz
2.5K10发布于 2019-10-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页

点击加载更多

让GBDT和GNN结合起来：Criteo AI Lab提出全新架构BGNN

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

开放网络下基层 - 公有云不香吗？

“巨人的肩膀” 海量CTR模型的高效高性能实现 FuxiCTR

ICLR 2019趣分析：「学神」吴佳俊个人高产，谷歌、MIT投稿量最多

读了那么多CTR论文, 真正有效的又有几个呢？

那么多CTR论文，真正能复现出效果的有几个？

PaddlePaddle分布式训练及CTR预估模型应用

DeepCTR-Torch:基于深度学习的CTR预测算法库

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

推荐算法最前沿 | KDD 2020推荐算法论文一览（内附下载链接）

美国霸榜ICML！占据3/4被接收论文，中国论文数不到美国两成

DCN-M：Google提出改进版DCN，用于大规模排序系统的特征交叉学习(附代码)

广告行业中那些趣事系列52：一个超好用的CTR开源项目FuxiCTR

训练吞吐量提升6倍！飞桨弹性计算推荐系统ElasticCTR 1.0发布

基于昇腾用PyTorch实现传统CTR模型WideDeep网络

深入理解推荐系统：大厂如何进行CTR增量训练

XGBoost + LR 就是加特征而已

DeepFM 二分类范例代码

GBDT、FM、FFM和DNN融合构建广告点击率预测模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐