数据集 | 谷歌地图美国区域内poi、评论信息等信息
一、数据介绍
该数据集从谷歌地图采集了美国范围内一些信息(截止日期为 2021 年 9 月),数据规模
666,324,103 条评论(评级、文本、图片等) 113,643,107 位用户信息 4,963,111 条企业元数据(地址、地理信息、描述、类别信息、价格、营业时间和其他信息)
数据集地址 https://datarepo.eng.ucsd.edu/mcauley_group/gdrive/googlelocal/
1.1 完整评论数据
请仅在确实需要时下载这些(大!)文件。我们建议使用较小的数据集(即 k-core 和 CSV 文件),如下一节所示。
......
1.2 小的评论数据
如果您要在课堂项目(或类似项目)中使用这些数据,请考虑在申请大文件之前使用下面这些较小的数据集。
10-cores 经过缩减,以剩下的每个用户和每个项目都有 10 条评论。
ratings only:这些数据集不包含元数据或评论,只有(企业、用户、评分、时间戳)元组。因此,它们适合与 mymedialite(或类似)软件包一起使用。
您可以直接下载以下按类别划分的较小数据集。
二、数据格式
格式为 json 格式的每行一篇评论。如需进一步帮助阅读数据,请参阅下面的示例。
2.1 评论样本
{
'user_id': '106533466896145407182',
'name': 'Amy VG',
'time': 1568748357166,
'rating': 5,
'text': "I can't say I've ever been excited about a dentist visit before, but there's a first for everything! Loved my experience at Lush today. Every person in the office was friendly and personable- plus the office itself is gorgeous! Great experience, I highly recommend!",
'pics': [
{
'url': ['https://lh5.googleusercontent.com/p/AF1QipMBzN4BJV9YCObcw_ifNzFPm-u38hO3oimOA8Fb=w150-h150-k-no-p']
},
{
'url': ['https://lh5.googleusercontent.com/p/AF1QipNS1PEXEvadfUlhRkRDJ09id
Mxh3CveZGZYuTo5=w150-h150-k-no-p']
}
],
'resp': {
'time': 1568770503975,
'text': 'We love getting to meet new patients like yourself. Thanks for giving our office a chance to take care of your dental needs and thanks for the nice review!'
},
'gmap_id': '0x87ec2394c2cd9d2d:0xd1119cfbee0da6f3'
}
{
'user_id': '101463350189962023774',
'name': 'Jordan Adams',
'time': 1627750414677,
'rating': 5,
'text': 'Cool place, great people, awesome dentist!',
'pics': [
{
'url': ['https://lh5.googleusercontent.com/p/AF1QipNq2nZC5TH4_M7h5xRAd
61hoTgvY1o9lozABguI=w150-h150-k-no-p']
}
],
'resp': {
'time': 1628455067818,
'text': 'Thank you for your five-star review! -Dr. Blake'
},
'gmap_id': '0x87ec2394c2cd9d2d:0xd1119cfbee0da6f3'
}
其中
user_id - 审稿人的 ID
name - 审阅人姓名
time - 审核时间(UNIX 时间)
rating - 企业评级
text - 评论的文字
pics - 评论的图片
resp - 企业对评论的回复,包括 unix 时间和回复文本
gmap_id - 企业 ID
2.2 元数据样本
{
'name': 'Walgreens Pharmacy',
'address': 'Walgreens Pharmacy, 124 E North St, Kendallville, IN 46755',
'gmap_id': '0x881614ce7c13acbb:0x5c7b18bbf6ec4f7e',
'description': 'Department of the Walgreens chain providing prescription medications & other health-related items.',
'latitude': 41.451859999999996,
'longitude': -85.2666757,
'category': ['Pharmacy'],
'avg_rating': 4.2,
'num_of_reviews': 5,
'price': '$$',
'hours': [['Thursday', '8AM–1:30PM'], ['Friday', '8AM–1:30PM'], ['Saturday', '9AM–1:30PM'], ['Sunday', '10AM–1:30PM'], ['Monday', '8AM–1:30PM'], ['Tuesday', '8AM–1:30PM'], ['Wednesday', '8AM–1:30PM']],
'MISC': {
'Service options': ['Curbside pickup', 'Drive-through', 'In-store pickup', 'In-store shopping'],
'Health & safety': ['Mask required', 'Staff wear masks', 'Staff get temperature checks'],
'Accessibility': ['Wheelchair accessible entrance', 'Wheelchair accessible parking lot'],
'Planning': ['Quick visit'],
'Payments': ['Checks', 'Debit cards']
},
'state': 'Closes soon ⋅ 1:30PM ⋅ Reopens 2PM',
'relative_results': ['0x881614cd49e4fa33:0x2d507c24ff4f1c74', '0x8816145bf5141c89:0x535c1d605109f94b', '0x881614cda24cc591:0xca426e3a9b826432', '0x88162894d98b91ef:0xd139b34de70d3e03', '0x881615400b5e57f9:0xc56d17dbe420a67f'],
'url': 'https://www.google.com/maps/place//data=!4m2!3m1!1s0x881614ce7c13acb
b:0x5c7b18bbf6ec4f7e?authuser=-1&hl=en&gl=us'
}
其中
name - 企业名称
address - 企业地址
gmap_id - 企业 ID
description - 企业描述
latitude - 企业的纬度
longitude - 企业的经度
category - 企业类别
avg_rating - 企业的平均评分
num_of_reviews - 评价数量
price - 商店的价格
hours - 营业时间
MISC - 其他信息
state - 企业的当前状态(例如,永久关闭)
relative_results - 谷歌推荐的相关企业
url - 企业的 URL
三、获取数据集
数据集地址 https://datarepo.eng.ucsd.edu/mcauley_group/gdrive/googlelocal/
3.1 引用
如果您以任何方式使用这些数据,请引用以下论文:
Li, Jiacheng, Jingbo Shang, and Julian McAuley. "Uctopic: Unsupervised contrastive learning for phrase representations and topic mining." arXiv preprint arXiv:2202.13469 (2022).
Yan, An, Zhankui He, Jiacheng Li, Tianyang Zhang, and Julian McAuley. "Personalized Showcases: Generating multi-modal explanations for recommendations." In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 2251-2255. 2023.
3.2 联系方式
Jiacheng Li (j9li@eng.ucsd.edu)
精选内容
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
管理世界 | 机器学习如何赋能管理学研究?——国内外前沿综述和未来展望
中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
70G数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)
数据集 | 84w条业绩说明会问答数据(2005-2023)