• 12 Oct 2016 » 多维数据可视化
  • 多维数据可视化是指通过一些手段将高维的数据展示在二维的平面中,在进行探索性数据分析及对聚类或分类问题的验证中有着重要的应用。本文将介绍一些常用的多维数据可视化的方法。 首先请出万能的鸢尾花数据。 import pandas as pd data = pd.read_csv('https://raw.github.com/pydata/pandas/master/pandas/tests/data/iris.csv') data.head() 可以看到其中包含5列,前四列是特征,name是分类 SepalLength SepalWidth PetalLength PetalWidth...
    Read more...

  • 19 Sep 2016 » 禅宗三境界-数据分析篇
  • 最近经常听到禅宗三境界,百度了一下典故出处: 佛教禅宗参禅三重境界,常被引申用来形容看待事物的不同境界。 佛教禅宗史书《五灯会元》,唐代禅宗大师青原惟信语: 老僧三十年前未参禅时,见山是山,见水是水。及即至后来,亲见知识,有个入处;见山不是山,见水不是水。而今得个休歇处,依前见山只是山,见水只是水。 这类高度抽象认识论,往往是可以放之四海而皆准的真(zhuang)知(bi)灼(li)见(qi)。回想一下这些年的工作经验,在数据分析领域也是存在这三个阶段 见山是山,见水是水 往往初入职场的数据新人都处于这个阶段,这个阶段的数据新人对业务了解不多,对数据的解读往往只限于数据表现本身而不考虑其背后业务的意义,单纯的解读数据。 见山不是山,见水不是水 随着对业务了解的加深,这个阶段的分析师不仅仅关注数据,而是关注数据背后的业务意义。但是,其实一个数据可以从不同角度解读,如果带有太多的先入之见去解读,也就失去了 数据分析知识发现的作用,或对数据进行过渡解读,或者只是将数据作为验证某种业务经验的工具。 见山只是山,见水只是水 了解了先入之见的危害之后,就会再次回归数据本身,对应的数据分析认识论就是敬畏数据,不过多的去解读数据,而是应该大胆假设小心验证。至此为止,也就完成了认识论的一个否定之否定的螺旋上升过程。 在现实的工作中,真正能够达到第三阶段的是凤毛麟角。最佳的工作状态还是业务人员与数据人员的组合,数据人员从数据角度给到专业分析,业务人员根据业务经验与数据人员共同对分析结论进行修正。
    Read more...

  • 24 Aug 2016 » pandas处理大数据的一些小技巧
  • 近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享。 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后再通过to_csv的mode='a',将每部分结果逐步写入文件。 import pandas as pd input = pd.read_csv('input.csv', chunksize=1000000) for i in...
    Read more...

  • 18 Jun 2015 » 营销归因分析
  • Cloga:这篇文章是国外两篇文章的翻译,试图解决营销中的归因分析问题,即GA中的多渠道如何给定权重。英文原文地址:Marketing attribution analysis: the remarkable (but scary) new world of data,Marketing attribution analysis part 2:...
    Read more...

  • 02 May 2015 » 营销101:理解营销组合观点--4Ps
  • Cloga:这篇文章是Marketing in a Digital World的一篇课外阅读文章,英文原文地址:http://www.entrepreneurial-insights.com/understanding-marketing-mix-concept-4ps/ 营销最简单的定义是:”将正确的产品以正确的价格在正确的时间放在正确的地点。“尽管这听起来是一个非常简单的观点,但是,要贯彻这个简单的定义需要大量的艰苦工作和研究。并且即使如果只是一个元素偏离了轨道,那么一个很有希望的产品或服务也可能彻底失败,并且最终会掉公司。 使用营销组合是确保“正确的产品放在正确的地方...”将发生的极好方式。营销组合是帮助理解可以提供什么产品或服务以及如何规划成功的产品供给至关重要的工具。营销组合通常通过4P营销来执行:价格(Price)、产品(Product)、促销(Promotion)和位置(Place)。 有许多额外的P可以扩展甚至4C概念。但是4Ps是开始规划产品或评估现有产品供给的良好起点。 在这篇文章中,我们将看一下 4Ps 营销组合的历史和术语 营销组合的目的 营销组合的关键特征 开发一个营销组合 关键挑战...
    Read more...

  • 13 Mar 2015 » 1.4Matplotlib:绘图
  • Cloga:这份文档是euroscipy关于Python科学计算资源的一个教程。英文版地址为:http://scipy-lectures.github.io/,是学习Python科学计算生态体系很好的资料,因此,我会陆续将它翻译为中文,相关Gitbub地址为:https://github.com/cloga/scipy-lecture-notes_cn,完整的中文目录 本文的IPython版本 1.4.1 简介 Matplotlib 可能是Python惟一一个最广泛使用的二维图包。它同时提供了从Python中可视化数据非常的快速方式以及多种格式的出版质量图片。我们将在交互模式下研究Matplotlib,包含大多数的常用案例。 1.4.1.1 IPython和pylab模式 IPython是强化版交互Python shell,有许多有趣的功能,包括:输入输出的命名、访问shell命令改进错误排除等。它位于Python中的科学计算工作流的核心,要让它与Matplotlib的结合使用: 用命令行参数 -pylab(--pylab 从IPython0.12开始)启动IPython,获得带有Matlab/Mathematica类似功能的交互Matplotlib session。 1.4.1.2...
    Read more...

  • 31 Dec 2014 » 1.3NumPy:创建和操作数值数据
  • Cloga:这份文档是euroscipy关于Python科学计算资源的一个教程。英文版地址为:http://scipy-lectures.github.io/,是学习Python科学计算生态体系很好的资料,因此,我会陆续将它翻译为中文,相关Gitbub地址为:https://github.com/cloga/scipy-lecture-notes_cn,完整的中文目录 本文的IPython版本 作者:Emmanuelle Gouillart、Didrik Pinte、Gaël Varoquaux 和 Pauli Virtanen 本章给出关于Numpy概述,Numpy是Python中高效数值计算的核心工具。 1.3.1 Numpy 数组对象 1.3.1.1 什么是Numpy以及Numpy数组?...
    Read more...

  • 22 Dec 2014 » 1.2Python语言-Python科学讲座笔记
  • Cloga:这份文档是euroscipy关于Python科学计算资源的一个教程。英文版地址为:http://scipy-lectures.github.io/,是学习Python科学计算生态体系很好的资料,因此,我会陆续将它翻译为中文,相关Gitbub地址为:https://github.com/cloga/scipy-lecture-notes_cn,完整的中文目录 本文的IPython版本 作者 Chris Burns, Christophe Combelles, Emmanuelle Gouillart, Gaël Varoquaux Python中的科学计算 这里我们介绍Python语言。这里只会仅仅解决可以用于Numpy和Scipy的最低要求。想要更多的了解这门语言,请参考http://docs.python.o rg/tutorial 这个非常好的教程。也可以借助专门的图书,比如:http://diveintopython.org/....
    Read more...

  • 15 Dec 2014 » 1.1科学计算工具及流程-Python科学讲座笔记
  • Cloga:这份文档是euroscipy关于Python科学计算资源的一个教程。英文版地址为:http://scipy-lectures.github.io/,是学习Python科学计算生态体系很好的资料,因此,我会陆续将它翻译为中文,相关Gitbub地址为:https://github.com/cloga/scipy-lecture-notes_cn,完整的中文目录 本文的IPython版本 作者 : Fernando Perez, Emmanuelle Gouillart, Gaël Varoquaux, Valentin Haenel 1.1 为什么是Python? 1.1.1...
    Read more...

  • 14 Dec 2014 » Python科学讲座笔记目录
  • Cloga:这份文档是euroscipy关于Python科学计算资源的一个教程。英文版地址为:http://scipy-lectures.github.io/,是学习Python科学计算生态体系很好的资料,因此,我会陆续将它翻译为中文,相关Gitbub地址为:https://github.com/cloga/scipy-lecture-notes_cn 这份文档是关于Python科学生态体系的教学资料,关于Python科学计算的核心工具及技术的快速入门。每章包含1到2小时的课程,专业难度从新手到专家不断提升。 Python科学计算入门 科学计算工具及流程 Python语言 NumPy:创建和操作数值数据 Matplotlib:绘图 Scipy:高级科学计算 获取帮助及寻找文档 高级话题 Python高级功能(Constructs) 高级Numpy 代码除错 代码优化 SciPy中稀疏矩阵...
    Read more...