• 26 Mar 2014 » 代友招聘-顶级4A数据分析,待遇福利一样顶级,急等你来!
  • 本职位为4A广告公司核心职位,公司的待遇和福利在4A均为一流。 职位名称: 数据分析经理/总监 职位描述: 1、根据广告推广活动目标,为其建立合理的监控体系,全面衡量活动效果和提升用户体验; 2、从多种数据源组合数据进行深度诊断分析;在发现问题的基础上,能够对广告活动优化、业务机会提供高价值的策略和数据解决方案; 3、优秀的报告撰写和陈述能力。 岗位要求: 1、有互联网、广告相关数据分析工作经历; 2、对于网站分析工具有相当程度的掌握能力:例如: Webtrends, GA, 和Omniture。,熟练操作excel、SAS/SPSS、PPT等工具; 3、良好的数据敏感度,能从海量数据提炼核心结果 4、熟练独立编写商业数据分析报告,及时发现和分析其中隐含的变化和问题,具备良好的商业敏感度和创新意识,快速识别商业问题和机会;...
    Read more...

  • 15 Mar 2014 » 一个广告人的自白-2014版机械战警观后感
  • 机械战警是近期的一部热播影片,作为好莱坞的商业片,剧情中除了充斥枪战科幻这些元素外,也包含了一些搞笑桥段,大部分搞笑桥段都是来自Pope(即OmniCorp公司市场部总管)。让我们跟随Pope的视角来看一下整部影片,轻微剧透,不喜勿入。 其实RobotCop最初是来自于Pope卖给大Boss的提高销售额的一个Idea:将机器人的应用到国内警察市场可以每年获得6000亿美元的收入,利润率上升60%。(感兴趣的同学可以等高清版出来后,研究一下背景中的数据,看一下Pope是如何将这个Idea兜售给Boss的。) < img src="/files/idea1.png" alt="idea1" width="400px"/> Pope要带领他的Team打一个大的Campaign来改变美国民众对将机器人应用国内执法的看法。不过,这里Pope只给出要做一个Campaign的理由,而没有给出具体的Proposal,结果演变成Boss与法务(好吧,我也不知道这位女士到底是干什么的),讨论具体的Campaign内容,最终由大Boss拍板:既然美国民众不喜欢机器,那我们就把一个人放到机器里面。RobotCop项目诞生了,有木有~ 确定了Campaign的大方向后,接下来是具体是执行部分,第一步是找到把什么人放入机器中,Pope在这个过程很好的发挥了搞笑的作用。他选择几个候选人都存在这样那样的问题,体重超标的大胖子,严重脑损伤,情绪容易激动等等。还好后来找到了墨菲,不过是不是由Pope找到就不得而知了。 经过了三个月的改造,墨菲终于要与世人见面了,Pope又来与大老板商量一下墨菲的外观,给Boss提了两个点后(震慑匪徒,变形博儿童喜欢),Boss说我想更Mans点,涂成黑色吧,于是墨菲变成了黑色。 后面就是墨菲关于复仇,自由意志的这些桥段,Pope在其中扮演的搞笑的作用,其一是听到墨菲在报私仇,Pope由衷的感叹道:他真是个天才,我怎么没想到,元芳你怎么看? 另外一处是在片尾的正义邪恶大对决,Pope在面对墨菲的枪口时,说出了:我只是在做Marketing。 话说导演是有多讨厌广告人。
    Read more...

  • 23 Feb 2014 » 用Pandas作图
  • 关于Pandas的基本使用介绍,请查看另一篇博文:Python中的结构化数据分析利器-Pandas简介 推荐使用ipython的pylab模式,如果要在ipython notebook中嵌入图片,则还需要指定pylab=inline。 ipython --pylab ##ipython的pylab模式 ipython notebook --pylab=inline ##notebook的inline模式 import pandas as pd 基本画图命令...
    Read more...

  • 07 Feb 2014 » 用Sklearn做判别分析(分类)
  • 加载数据集 这里我使用pandas来加载数据集,数据集采用kaggle的titanic的数据集,下载train.csv。 import pandas as pd df = pd.read_csv('train.csv') df = df.fillna(0) #将缺失值都替换为0 df.head() PassengerId...
    Read more...

  • 01 Feb 2014 » 分类-Orange教程
  • 分类 Orange的很大一部分是关于机器学习的分类方法或者说监督式数据挖掘。这些方法依赖于带有类别标签实例的数据,类似于议会选举的数据。这是加载这个数据集的代码,显示第一个数据实例,并且显示它的预测类(共和党): data = Orange.data.Table("voting") data[0] ['n', 'y', 'n', 'y', 'y', 'y', 'n', 'n', 'n',...
    Read more...

  • 28 Jan 2014 » gensim文档-相似性查询
  • 如果你想要查看logging事件不要忘记设置。 import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 相似性接口 在前面语料与向量空间的教程及主题和转换的教程中,我们涵盖了什么是在向量空间中创建一个语料库以及如何在不同的向量空间间转换。绕这样一个圈子的原因是我们想要判断一堆文档的相似性,或者特定文档与一组其他文档的相似性(比如用户查询 vs. 索引文档)。 为了展示gensim如何做到这一点,让我们看一下前面例子中语料(最初来自Deerwester等的“Indexing by...
    Read more...

  • 27 Jan 2014 » gensim文档-主题与转换
  • 如果你想要查看logging事件不要忘记设置。 import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 转化接口 在前面的语料和向量空间的教程中,我们创建了一个文档语料,用向量流来表征。接下来,让我们发动 gensim使用那些语料: from gensim import...
    Read more...

  • 27 Jan 2014 » gensim文档-语料库与向量空间
  • 如果你想要查看logging事件不要忘记设置。 import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 从字符到向量 这次让我们从文档表征为字符开始: from gensim import corpora,...
    Read more...

  • 19 Jan 2014 » sklearn文本特征提取
  • 文本特征提取 词袋(Bag of Words)表征 文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说: 标记(tokenizing)文本以及为每一个可能的标记(token)分配的一个整型ID ,例如用白空格和标点符号作为标记的分割符(中文的话涉及到分词的问题) 计数(counting)标记在每个文本中的出现频率 正态化(nomalizating) 降低在大多数样本/文档中都出现的标记的权重 在这个方案中,特征和样本的定义如下: 将每个标记出现的频率(无论是否正态化)作为特征。 给定文件中所有标记的出现频率所构成的向量作为多元样本。 因此,语料文件可以用一个词文档矩阵代表,每行是一个文档,每列是一个标记(即词)。 将文档文件转化为数值特征的一般过程被称为向量化。这个特殊的策略(标记,计数和正态化)被称为词袋或者Bag...
    Read more...

  • 12 Jan 2014 » Python多进程模块Multiprocessing介绍
  • Multiprocessing是Python的 一个标准库,通过这个库,可以实现并行编程,更有效的利用多核CPU。由于Python的GIL的限制,默认情况下Python无法有效利用多核。通过Multiproc essing,可以创建多个子线程,从而更加有效的利用多核。这篇文件会介绍一下使用Multiprocessing的线程池(Pool)实现简单的并行编程。 Multiprocessing类提供了Pool对象,通过进程池对象来管理和创建多个进程的worker,并收集这些Worker返回的结果。 简单任务的多进程编程 import multiprocessing as mul import os from math import factorial...
    Read more...