值得信赖的中国市场数据
获取与整理数据全揭秘

电商数据
首先,浏览天猫的产品类别,抓取天猫上按销售额排序的产品类别列表前120项,这些数据大约覆盖天猫销售额的75% -100%。其次,由于数据本身需进行严格的检查与清理,加之每个产品类别可能包含数百上千个列表,而多数列表的销量极低,甚至接近于零。因此,我们最终分析的数据主要集中于占大部分销量的产品,而非该类目下的全部产品类别。这有助于完全清理数据,尽可能准确地呈现电商市场情况。
数据清理
获取的原始主体数据通常非常干净,但仍需进行数据清理和整合。其中最重要的数据信息是品牌名称和原产地。品牌名称需要进行中英翻译,并与此前的历史数据库保持一致。原产地信息除了需要与之前的数据库保持一致外,还需要确保其信息的一致性,如“Netherlands”和“The Netherlands”均为“荷兰”,“The UK”和“Britain”均为“英国”。除此之外,我们还为一些明显不是来自于某个原产地的品牌进行了信息修复。如鉴于某些进口品牌可能在海外生产或是使用了海外原材料,或某些进口品牌可能来自多个不同原产地。因此,在进行修复时需要非常谨慎,尽量不过多地处理数据。经验法则:如果不是100%明显或必要的,就不必钻牛角尖。
需要清理哪些数据?
产品可能出现在不同的列表中:当搜索产品或在线选择类别时,许多其他半相关或不相关的产品可能会进入列表。我们在抓取数据时会对这种情况进行检查和删减,以确保剔除不相关的产品。
品牌名称 – 子品牌名称: 某些主品牌的产品可能会被列在其子品牌下,反之亦然,如特仑苏和蒙牛。这会导致数据不一致,并可能将子品牌呈现为独立品牌。我们的解决方法是:对每个产品分别编码其主品牌和子品牌,如果不存在子品牌,则主品牌占据子品牌列。
品牌名称 – 店铺名称: 多数情况下,在独立的天猫店铺发布的产品,系统会将店铺名称归类为产品品牌,这会导致最终呈现的数据增加了一个品牌,并从原本的产品品牌中抢走了市场份额,严重影响数据的准确性。
品牌原产地:产品列表上的产地信息容易出现混乱,其原因可能是由于误导性的信息,即某些品牌为了使产品看上去更高级,会突出显示产品某些成分的来源,而这可能与产品本身的产地并不一致。还有一些品牌可能由于存在产品生产地和品牌原产地上的混淆而导致数据错误。我们侧重于展示品牌原产地信息,但也会根据实际情况做出调整,如雀巢的多数粉状产品长期在中国本土生产,其产地则被归为中国,而其奶油和黄油通常在欧洲生产,则产地被归为欧洲国家。
规格:在抓取数据时,产品规格的错误也比较常见,如组合商品或捆绑销售的产品只显示为单一产品的规格,而不是所售产品的总规格。这会影响下后续的数据计算和结果。
变化的品牌名称:这种情况并不多见,但偶尔会出现。品牌名称的变化可能有多种原因,如某些进口品牌可能是刚刚注册了中文名称,某些品牌正在试图改变品牌形象,还有些品牌名称则是定期在中英文之间转换。
消费者数据
每季度进行一次的消费者调研,是对每月收集的电商数据的有效补充。在进行第一次消费者调研之前,China Skinny收集了6个月的电商数据,以便我们能够更准确地分析产品类型、产品卖点和品牌营销等信息。我们根据分析结果进行扩展,创建每个季度一次的消费者调研,以收集消费者购买行为、情绪和看法等历史数据。
作为一家市场咨询机构,China Skinny与调研合作伙伴建立了10年的信任关系,每年有数万名受访者参与调查。我们将此经验用在行业追踪器上,以保证高质量、精准的调研结果,准确地反映真实的消费者情绪。
数据模型
我们将电商数据和消费者调研数据加载到一个模型中,并在这些数据集合之间建立联系,以便两组数据之间进行交互。这种关联可能无法覆盖到每一个点,但我们的目标是尽可能提供背景和参考,以便对市场有一个全面的认知。