Zillow 数据集示例

Zillow 数据集示例(常见房产数据集样本展示)

Zillow(美国著名房地产平台)公开或通过爬取/竞赛分享的数据集主要有两类:

  • 宏观聚合数据:如 ZHVI(Zillow Home Value Index,房屋价值指数),这是 Zillow Research 每月发布的 CSV,追踪区域中位房价趋势。
  • 微观房产级数据:如 Kaggle “Zillow Prize” 竞赛数据集(2017 年),包含单个房产的特征 + 实际售价误差;或第三方爬取的 listing 数据(zpid、地址、卧室数、价格、Zestimate 等)。

下面给你几个典型示例(基于公开来源的样本行或结构描述):

1. Zillow Research ZHVI 示例(区域房价指数,宏观聚合型)

这是最官方的公开数据集之一,格式为 CSV,每行是一个地区(如 Metro、City、Zip)的月度中位房价估算。

典型列(部分):

  • RegionID
  • RegionName (e.g., Metro name or Zip code)
  • SizeRank
  • RegionType (e.g., Metro, City, Zip)
  • StateName
  • 然后是大量日期列:2000-01-31, 2000-02-29, …, 最新月

示例行(简化,假设 Metro 数据):

RegionNameStateName2025-01-312025-02-282025-03-31
New York-Newark-Jersey CityNY682400685200688900
Los Angeles-Long Beach-AnaheimCA912500918000923700
Chicago-Naperville-ElginIL345600347800350200

下载地址示例:https://www.zillow.com/research/data/(每月更新,选择 ZHVI → Metro 等)。

2. Kaggle Zillow Prize 数据集示例(房产级,微观 + 预测误差)

这是最经典的机器学习数据集(2017 竞赛),目标是预测 log-error = log(实际售价) – log(Zestimate)。

properties_2016.csv(房产特征,主表,约 3M 行,58 列)

典型列(部分):

  • parcelid(房产唯一 ID)
  • bathroomcnt(浴室数)
  • bedroomcnt(卧室数)
  • calculatedfinishedsquarefeet(计算完工面积)
  • latitude / longitude
  • lotsizesquarefeet(地块面积)
  • yearbuilt(建造年份)
  • taxvaluedollarcnt(税评估价值)
  • regionidcity / regionidzip 等

示例前几行(简化,基于公开 notebook 描述):

parcelidbathroomcntbedroomcntcalculatedfinishedsquarefeetyearbuilttaxvaluedollarcntlatitudelongitude
107541470.00.0NaNNaN9.034144442-118654084
107595473.04.03560.01951.01023282.034140436-118625360
108050632.02.0730.01949.0464000.034171012-118414328

train_2016_v2.csv(训练标签,只有部分房产有):

parcelidtransactiondatelogerror
107541472016-01-010.0276
107595472016-01-01-0.1685

这个数据集现在在 Kaggle 上还能下载:https://www.kaggle.com/c/zillow-prize-1/data

3. 第三方爬取的 Zillow Listing 数据示例(常见商业/研究样本)

很多第三方(如 Bright Data、PromptCloud)提供或分享的 Zillow listing 样本,字段更贴近当前网页显示。

典型字段(部分):

  • zpid(Zillow Property ID)
  • url
  • address / street
  • city / state / zip
  • beds / baths
  • sqft
  • price(售价或租金)
  • zestimate(Zillow 估价)
  • rentZestimate(租金估价)
  • year_built
  • home_status(For Sale / Sold / Rent 等)
  • latitude / longitude

示例行(基于公开样本,如 Bright Data 或 Actowiz 的预览):

zpidaddresscitystatezipbedsbathssqftpricezestimateyear_builthome_status
12345678123 Main StManhattanNY10019221200329000033500002010For Sale
87654321456 BroadwayAstoriaNY11105219002750002800001995Sold
11223344789 Ocean AveLos AngelesCA9000132.518009500009800002005For Rent

这些是常见样本结构,实际数据量从几千到上百万行不等。

如果你需要:

  • 下载具体文件(ZHVI 或 Kaggle 数据)
  • 用 Python/Pandas 加载示例代码
  • 某个特定字段的分布/分析示例

告诉我你的用途(机器学习建模?房价预测?数据分析?),我可以给你更针对性的代码或链接~

文章已创建 4725

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部