首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Python数据科学

    【Kaggle入门级竞赛top5%排名经验分享】— 建模篇

    Kaggle数据挖掘竞赛入门级项目 "泰坦尼克号生还者预测" 作者:xiaoyu 阅读全文需要15分钟 1 前情回顾 上一篇是数据挖掘的前戏,主要目的是认识数据特征、判断特征重要性、观察数据异常,掌握数据间联系 上篇数据分析的链接: 【Kaggle入门级竞赛top5%排名经验分享】— 分析篇 2 数据预处理 数据预处理涉及的内容很多,也包括特征工程,是任务量最大的一部分。 而这一群人生还的概率应该是存在共性的,比如:有一个5人之家,有4人死亡,可以推测第5个人极有可能死亡。 下面是对所有特征进行衍生的新特征变量。 ,x).group(1)) title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Dr": 5, "Rev": 6, "Major": 这个分数可以达到500/11000的排名(top5%)。 ?

    74320发布于 2018-08-06
  • 来自专栏Python数据科学

    【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

    因此,先对上面5种容易的分类进的特征行可视化。 f, [ax1,ax2,ax3] = plt.subplots(1,3,figsize=(20,5)) sns.countplot(x='Sex', hue='Survived', data=data_train Embarked特征分析') f.suptitle('定类/定序数据类型特征分析',size=20,y=1.1) f, [ax1,ax2] = plt.subplots(1,2,figsize=(20,5) 但是获救率也是最低的,C港口获救率最高; SibSp: 兄弟姐妹数量最低为0的人数最多,但是获救率最低,而为1的获救率相对较高,超过50%; Parch: 情况基本同SibSp一样,后续可以考虑将二者合并; 就以上5个特征来看 Age分布和特征分析 # kde分布 f,ax = plt.subplots(figsize=(10,5)) sns.kdeplot(data_train.loc[(data_train['Survived

    1.1K30发布于 2018-08-06
  • 来自专栏别先生

    CSS入门级学习

    > 3 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> 4 <title>实验</title> 5 > 3 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> 4 <title>实验</title> 5 --link href="*.css" rel="stylesheet" type="text/css">--> 5 <title>实验</title> 6 <style type --link href="*.css" rel="stylesheet" type="text/css">--> 5 <title>实验</title> 6 <style type ,天天向上,好好学习,天天向上, 37 好好学习,天天向上,

    38
    39
    40 </body> 41 </html> 5

    1.7K70发布于 2017-12-29
  • 来自专栏机器学习-大数据

    算法入门级别------栈

    数据结构:栈,队,优先队列 编程语言:c++ 运行环境:牛客网在线OJ 代码结构:for循环遍历字符串中所有的元素 如果字符是"#",那么前面的数字就要入栈 如果字符串是"+","-","*"中的任意一个,此时栈中就有两个数字,就需要两次提取栈顶中的元素,两次弹栈--保证下次有’#‘时,我们的栈中没有数字。 题目如下:  解题: class Solution { public: long long legalExp(string str) { stack<long long>re

    37020编辑于 2022-12-19
  • 来自专栏设计模式

    Quicksum,入门级算法

    A checksum is an algorithm that scans a packet of data and returns a single number. The idea is that if the packet is changed, the checksum will also change, so checksums are often used for detecting transmission errors, validating document contents, and in many other situations where it is necessary to detect undesirable changes in data.

    21010编辑于 2024-12-20
  • 来自专栏全栈程序员必看

    LaTeX入门级教程

    LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。

    2.5K20编辑于 2022-09-13
  • 来自专栏白安全组

    黑客入门级编程

    了解程序的语法和构造并不是困难的事情,一门语言往往只需要花费几个月时间,用户就可以达到入门级程序员的水平。然而,这只是一个开始。

    1.7K30发布于 2019-09-25
  • 来自专栏新技术

    Kaka入门级教程

    bootstrap-server localhost:9092 This is my first eventThis is my second event 您可以随时停止生产者客户端Ctrl-C 第 5 dependency> 总结 可以看到当前案例中 2.x 版本使用 Kafka 是非常简单的,只需要下载好安装包,然后启动 Zookeeper、启动 Kakfa-Server 即可,不过这个案例仅仅是参考自官网的入门级案例

    1.3K20编辑于 2023-02-02
  • 来自专栏FreeBuf

    入门级应急响应小贴士

    本篇主要说明一下遇到拒绝服务攻击、DNS劫持、IOC告警以及APT事件的常规处理方式。

    1.5K30发布于 2020-06-29
  • 来自专栏百味科研芝士

    入门级预测模型构建

    确定临床问题和预测模型类型 4.1 预测模型的类型 4.2 预测模型与流行病学模型的区别 4.3 预测模型类型的选择 5. 5. 数据收集与数据处理 5.1 数据的收集 建立预测模型的数据可以重新收集,也可以来自现有的试验、队列研究、登记注册或管理的数据集。数据集应包括与预测模型的感兴趣人群相同的患者群体。

    3.5K41发布于 2020-05-06
  • 来自专栏电光石火

    IDEA入门级使用教程

    IDEA的基础配置 下载好IDEA,免不了一些配置和个人设置。一些设置问题和操作我放在最后讲,因为不影响我们的 使用。先说一下jdk和tomcat的配置。 jdk的配置。 在首页点击c

    2.2K100发布于 2018-01-18
  • 来自专栏电光石火

    IDEA入门级使用教程

    下载好IDEA,免不了一些配置和个人设置。一些设置问题和操作我放在最后讲,因为不影响我们的 使用。先说一下jdk和tomcat的配置。

    1.3K10发布于 2019-12-04
  • 来自专栏算法与编程之美

    CiteSpace小白入门级宝典

    CiteSpace简单来说,它一款通过将国内外文献进行可视化分析来帮助你了解一门学科前世今生的软件。

    2.6K10编辑于 2021-12-08
  • 来自专栏全栈程序员必看

    入门级Unity安装教程

    这是一篇面向对unity感兴趣,想要学习unity,但是还处于入门阶段的小伙伴的超详细unity安装教程。因为是面向入门的小伙伴,所以文章写的有点长,还配有许多图片,这样才能更详细的介绍安装流程。但是不必担心太长看起来太费劲,各位只要照着教程一步步来就可以了。跟着这章博文走,最终你的电脑一定能张开双臂,成功拥抱unity。那么,现在进入正题吧!

    1.1K30编辑于 2022-09-14
  • 来自专栏机器学习AI算法工程

    LDA入门级学习笔记

    5) 这下好了,每个文档的似然概率有了,可惜没啥用,实际上这个边缘分布是求不出来的,因为z_(m,n)是隐藏变量,每个词都跟θ_m和Φ都跟z_(m,n)有关,那个连乘又是非常难用积分得到的,这个就是耦合现象 利用抛绣球的方式抽到了这个词的一个topic(抛绣球的方式就是:假如topic1的概率是0.2,topic2的概率是0.3,topic3的概率是0.5,那么就弄10个桶,1号和2号是topic1的,3到5号是

    1.1K50发布于 2018-03-12
  • 来自专栏新技术

    Apache Kafka入门级教程

    bootstrap-server localhost:9092 This is my first eventThis is my second event 您可以随时停止生产者客户端Ctrl-C 第 5 /dependency> 总结 可以看到当前案例中2.x版本使用Kafka是非常简单的,只需要下载好安装包,然后启动Zookeeper、启动Kakfa-Server即可,不过这个案例仅仅是参考自官网的入门级案例

    1.4K30编辑于 2023-02-28
  • 来自专栏让技术和时代并行

    Python语言入门级使用(一)

    在Windows下 需要下载一个Python,我是下载了一个activePython3.0版本,其中语法和2.X有一点差别

    46130发布于 2019-04-16
  • 来自专栏Linux技术资源分享

    入门级Oracle存储过程 | oracle

    -- 第一个存储过程 hello world CREATE OR REPLACE PROCEDURE sayHello AS word VARCHAR2(10) := 'hello'; BEGIN dbms_output.put_line(word); END; --Execute BEGIN sayHello(); END; -- 创建学生表 CREATE TABLE student ( uuid NUMBER(6, 0) PRIMARY KEY, userna

    1.1K20发布于 2018-06-08
  • 来自专栏全栈程序员必看

    【Unity】入门级Unity安装教程

    【Unity】入门级Unity安装教程 这是一篇面向对unity感兴趣,想要学习unity,但是还处于入门阶段的小伙伴的超详细unity安装教程。

    3K50编辑于 2022-09-14
  • 来自专栏运维相关文档

    git的入门级命令(下)

    2.有些地方如linux服务器,没有图形界面,如果碰到问题需要使用git,不会命令行操作啥都干不了

    50510发布于 2021-07-22
领券