凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
正文
关于下方文字内容,作者:陈沛积,广东财经大学金融学院,通信邮箱:2420070057@qq.com
背景知识:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.陈硕: 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计
Sean Foley, Jonathan R Karlsen, Tālis J Putniņš, Sex, Drugs, and Bitcoin: How Much Illegal Activity Is Financed through Cryptocurrencies?, The Review of Financial Studies, Volume 32, Issue 5, May 2019, Pages 1798–1853, https://doi.org/10.1093/rfs/hhz015
Cryptocurrencies are among the largest unregulated markets in the world. We find that approximately one-quarter of bitcoin users are involved in illegal activity. We estimate that around $76 billion of illegal activity per year involve bitcoin (46% of bitcoin transactions), which is close to the scale of the U.S. and European markets for illegal drugs. The illegal share of bitcoin activity declines with mainstream interest in bitcoin and with the emergence of more opaque cryptocurrencies. The techniques developed in this paper have applications in cryptocurrency surveillance. Our findings suggest that cryptocurrencies are transforming the black markets by enabling “black e-commerce.”
加密货币是世界上最大的不受监管的市场之一。我们发现大约四分之一的比特币用户参与非法活动。我们估计,每年约有760亿美元的非法活动涉及比特币(占比特币交易的46%),这接近于美国和欧洲非法药物市场的总规模。随着比特币主流兴趣的增加和更多不透明的加密货币的出现,比特币非法活动的份额有所下降。本文开发的技术能够应用于加密货币监控。我们的研究表明,加密货币正在通过促成“黑色电子商务”而改变黑市。加密货币在价格、受欢迎程度和主流应用方面发展迅速。截至2018年7月,共有超过1800种加密货币,市值超过3000亿美元。作为最大的加密货币,比特币占据了加密货币市场总值的一半左右。众多线上加密货币交易所和市场的日交易量约为500亿美元,已经出现了300多支“加密基金”(仅投资于加密货币的对冲基金),吸引了近100亿美元的管理资产(Rooney和Levy,2018年)。最近,比特币期货已经开始在芝加哥商品交易所(CME)和芝加哥期货交易所(COBE)进行交易,以满足机构交易和对冲比特币的需求。曾经的边缘资产正在迅速走向成熟。加密货币的迅速发展以及它们为用户提供的匿名性带来了相当大的监管挑战。出于对监管不足的担忧,2017年3月,美国证券交易委员会(SEC)驳回了加密货币交易所提交的一项价值1亿美元的交易基金(ETF)申请(2018年还有几项申请被驳回)。2017年9月,中国政府禁止居民交易加密货币,并宣布首次代币发行(ICO)为非法行为;英格拉银行行长马克•卡尼(Mark Carney)等央行行长已公开表达了对加密货币的担忧。虽然加密货币有许多潜在的好处,如更快、更高效的支付结算,但监管方面的担忧主要集中在它们在非法交易中的使用(毒品、黑客攻击和盗窃、非法色情,甚至是雇凶杀人),它们有可能被用来资助恐怖主义、洗钱以及逃避资本管制。毫无疑问,通过提供一种数字和匿名支付机制,诸如比特币之类的加密货币已经促进了线上“暗网”市场的发展,在这类市场中,非法商品和服务得以进行交易。最近,FBI从一个名为“丝绸之路”(Silk Road)的这类市场中缴获了价值逾400万美元的比特币,这让人们对监管机构面临的问题有了一些了解。本文试图对比特币促成的非法交易进行量化和描述。通过这样做,我们希望能够更好地理解这项新兴技术所面临的“问题”的性质和规模。我们开发了新方法来识别使用比特币进行的非法活动。这些方法也可用于分析其他多种区块链。执法机构最近几次查获的比特币(如美国联邦调查局查封“丝绸之路”市场),再加上区块链的公共性,为我们提供了一个独特的实验室,在那我们可以分析从比特币网络中演变出来的非法生态系统。尽管个人身份被伪匿名(26至35个字符的字母-数字地址)所掩盖,但区块链的公共性允许我们将比特币交易与个人“用户”(市场参与者)联系起来,然后进一步确定持有被当局没收的比特币的用户。比特币的扣押(结合其他一些来源)为我们提供了一些已知参与非法活动的用户样本。这是我们分析的出发点,为了从样本中得到估计的非法活动总体,我们在分析中应用了两种不同的实证方法——SLM模型和DCE模型。研究发现,使用比特币的非法用户和非法交易活动占了很大比例。例如,大约四分之一的用户(26%)和接近一半的比特币交易(46%)与非法活动有关。此外,通过算法算得,所有交易的美元总值的近五分之一(23%)和大约一半的货币持有量(49%)与非法活动有关。我们的估计表明,在2017年4月,约有2700万比特币市场参与者主要将比特币用于非法目的。这些用户每年进行总价值约为760亿美元的近3700万笔交易,合计持有价值约70亿美元的比特币。我们还发现,比特币在非法交易中的使用会随着时间的推移而变化。自2016年以来,尽管绝对数量仍在增加,但与非法交易相关的比特币活动的比例有所下降。我们将非法活动比例的下降归因于两个主要因素。首先是比特币的主流和投机兴趣迅速增长,这自然而然地使得非法份额相对减少。例如,我们发现使用比特币进行的非法活动的比例与关键字“比特币”的谷歌搜索强度成反比。第二个因素是替代品“影子”加密货币的出现,这些货币更不透明而且更能隐藏用户的活动(如Dash,Monero和ZCash)。我们发现,这种影子加密货币的出现也与使用比特币进行的非法活动的比例的下降有关。尽管替代加密货币的出现以及大量暗网市场被执法机构查封,但是在2017年4月样本结束时,涉及比特币的非法活动数量仍逼近其历史最高水平。参与非法活动的比特币用户在一些特征上与其他用户不同。非法用户倾向于进行更多的交易,但交易规模较小。他们也更有可能与特定的交易对手重复地进行交易。这些交易特征上的差异基本上与以下观点一致:非法用户主要(或仅仅)使用比特币作为支付手段来促成非法商品/服务的交易,而某些合法用户将比特币视为一项投资或投机资产。尽管非法用户交易得更多,但是因为他们面临着被当局没收比特币的风险,所以往往持有较少的比特币。我们还发现了其他一些预测用户是否参与非法活动的强有力因素。如果在用户交易的时候,有更多的暗网市场在运营、影子货币的综合市值较低、用谷歌搜索强度度量的比特币主流兴趣较低,以及交易是在暗网市场查封或欺诈事件发生之后立即进行的,则该用户很有可能是在参与非法活动。如果用户使用“翻滚(tumbling)”和/或“洗售(wash trades)”——这两种有助于隐藏他们活动的交易技术,那么他们也更有可能参与非法活动。非法用户之间的比特币交易网络的密度是合法用户网络的三到四倍,说明非法用户之间通过交易建立的联系要紧密得多。更高的密度也与非法用户交易得更多并主要将比特币作为购买/销售商品的支付手段这一特点相符合。尽管非法暗网市场的出现表明这一转变可能已经开始,但尚不清楚黑市将在多大程度上接受通过加密货币进行电子商务和数字支付这一机会。这是一个重要的实证问题。我们的研究结果说明了这一接受过程的动态性,并表明在第一种加密货币引入8年后,黑市确实在很大规模上接受了这种电子支付形式。因此,我们的研究结果表明,加密货币正在对支持非法商品和服务的黑市的运作方式产生实质性影响。每个区块确认最近交易的集合(从上一个区块开始的交易),包含对上一个区块的引用,从而形成一个“链”,进而产生术语“区块链”。因此,区块链形成了所有交易的完整和连续记录,并对网络中的任何参与者公开可用。每个比特币持有(或包裹)是由一个地址确定的,类似于钞票的序列号。比特币地址就像一个物理地址或者电子邮件地址。这是别人付给你比特币时你唯一需要提供的信息。然而一个重要的区别是,每个地址应该只用于单笔交易。时间戳的提出主要是为用户提供一份电子证据,证明用户的某些数据的产生时间,广泛运用于合同签字、知识产权保护和金融账务等方面的字符序列,它可以表示一份在某个特定时间之前就已经存在的、完整的、可验证的数据。秘钥是一个证明你有权从一个特定的钱包消费比特币的保密数据块,是通过一个密码学签名来实现的。如果你使用的是钱包软件,你的秘钥就存储在你的计算机内;如果使用的是在线钱包,你的秘钥就存储在远程服务器上。千万不能泄露秘钥,因为它们可以让你消费对应比特币钱包里的比特币一种函数,它把任何数字或者字符串输入转化成一个固定长度的输出,但是不可能通过输出反向推得输入,除非尝试了所有的可能的输入值。哈希这个词也用于指代这样一个函数的输出值。最简单的翻滚(Tumbling)形式是,用户将比特币发送给一个翻滚供应商(要求一笔小额费用作为回报),翻滚供应商将余额返还到用户控制的其他地址。洗售(wash trade)是指一个用户从一个地址发送比特币到另一个(新的)他们也控制着的地址。合法用户几乎没有理由采取这种行动来隐藏他们的行为(并承担相关费用)。相反,参与非法活动的用户很可能使用这些隐藏技术。因此,使用翻滚服务和洗售很可能是用户是否参与非法活动的一个预测因素。从2009年1月3日的第一个区块到2017年4月的最后一个区块。从每一笔交易中收集独特的交易哈希、交易金额、费用、发出者和接收者的地址、时间戳(timestamp)和区块数量。由于原始数据是一些地址数据而不是控制这些地址的用户,所以需要将这些地址数据转换为用户数据。文中使用了Cormen等人开发的Union-Find算法实现这一转化。Union-Find算法是使用最广泛的方法,主要是因为它产生的错误(对太少的地址进行聚类而不是太多)在绝大多数应用中都是保守的。Union-Find算法倾向于将太少的地址连接到一起形成聚类,这给本文中的一些度量增加了偏差。对此,文中作出了如下处理:(1)选择一个更小的样本作为实证研究的开始。因为该算法倾向将太少的地址形成聚类,这意味着会形成更多的集群,对应更多的用户,更多的用户对应着更多的地址,所以,该算法形成的用户样本可能意味着更多的地址,而实际上作者所选取的数据中并没有这么多的地址,故选择一个更小的样本。(2)将绝对数表示为相对数。由于在某些情况下,由Union-Find算法确定的两个或多个集群实际上是由一个用户控制的,所以用户数量的度量会被高估。因此,关于比特币用户的总量、非法用户的数量和合法用户的数量的估计都可能被高估。由于类似的原因,一些指标如每位比特币用户的交易数量或每位用户的持有量都将被低估。当把用户度量为用户总数的百分比时,这种偏差就不是问题了。而且在量化各种不同的用户群的交易数量、成交量或持有量时这种偏差就更不成问题了,因为这些度量不依赖于每个组中用户数量是否已知。通过Union-Find算法确定了样本中的用户数量——共有大约1.06亿位比特币用户。本文的区块链数据集包括了465093个区块,共2.196亿笔比特币交易。在原始区块链数据中,一笔交易可以有多个接受者,即存在复合交易,在对样本中的复合交易都分解成它们的组成部分后,共有8.154亿笔交易。在本研究中,我们主要的兴趣在于量化使用比特币进行的非法交易数量。所以在实证前,对样本数据进行了如下的过滤:①从样本中移除了交易费用和区块奖励以避免扭曲了交易数量。这一步共删除了2.083亿笔交易。②删除比特币兑换所及其0.884亿笔交易。这些交易不涉及买卖商品或服务意义上的交易,因此会夸大对交易活动的度量。③删除了0.711亿笔交易,这些交易反映了在给定交易中返回给用户的“零钱”。这些交易类似于用50美元账单支付价值30美元的产品并收回20美元零钱(经过处理的数据集将这种情形记录为一笔30美元的交易而不是两笔交易)。④排除了在交易当天价值小于1美元的交易,这些交易的价值微不足道,主要是用于消息、交易测试和提示的目的。(1.447亿笔这类交易占了交易的17.8%,但在比特币总量占比小于0.0001%)如果不排除这些交易可能会严重扭曲我们的数据,尤其是对交易比例的度量。经过这些筛选后,留下了3.028亿笔交易,且每笔交易都只有一个发送者和一个接受者。在本文的大部分内容中,研究的都是用户级的统计信息,而且由于每笔交易的发送者和接受者都被计算在内,因此,这类度量自然使用重复计算的数量。使用重复计算的数量后,交易数量翻了一翻,达到了6.057亿笔比特币交易。我们的样本共有大约1.06亿位比特币用户,这些用户总共进行了约6.06亿笔交易,转移了大约1.9万亿美元。我们计算了一组用来描述每一位用户比特币交易活动(例如交易数量、交易规模、交易频率、交易对手的数量)的特征。
表2给出了用户比特币交易活动特征相关的变量的描述性统计。从中,可以发现一个典型的(中位数)用户和3位不同的交易对手(Counterparties的均值约为4.2)进行了3笔比特币交易(Transaction count的均值为5.7笔)。因此,一个典型的用户在交易对手这一变量上集中程度较低,即他们不会重复与同一个交易对手进行交易(集中度变量的度量,是标准化的Herfindahl-Hirschman指数,其中位数为0)。少数实体非常活跃,其中最活跃的有将近1140万笔交易和440万的交易对手。平均交易规模约为5000美元,但是一笔典型的交易(Transaction size的中位数)是小得多的112美元。一些交易则非常巨大,最大的交易额超过了9000万美元。尽管有些用户存在多年(最长存在时间为101个月,或略多于8年),但是,对于大多数用户而言,他们的第一笔和最后一笔比特币交易都发生在同一个月内(Concentration的中位数为1个月)。我们使用了下述三种方法确定了一个参与非法活动用户的样本。第一个方法利用被执法机构如美国的FBI没收的比特币。我们通过新闻报道(通过Factiva进行搜索)和美国法庭记录(通过对数字PACER记录进行搜索)手动地确定了被没收的比特币,在记录每一次没收时,我们还会从这些信息披露中提取与任何已确定的比特币地址或交易有关的信息。(金额和日期)从这些细节中,我们通过将这些提取的比特币地址或交易标识符与从比特币区块链中构造的用户级数据相匹配,从而唯一确定了参与非法活动的用户。通过这一方法,我们确定了1016个已知的非法用户,将他们称为“Seized users”。第二个方法利用已知的主要非法市场的“热钱包”,这些“热钱包”都是中央账户,其中许多账户像托管账户一样运作,暗网市场的用户可以在这些账户中存入或提取资金。通过Wallet Explorer服务的数据确定了17个这样的市场,而Wallet Explorer服务则利用类似于Meilejohn等人(2013)的方法识别出了这些市场,即基于对给定实体进行小型的“探测”交易。从这些热钱包中,我们确定了略超过600万暗网市场用户,他们从已知的暗网市场中发送或者/且接受比特币。将这些暗网市场热钱包以及他们的贡献者/参与者称为“Black market users”。第三个方法利用暗网中包含的信息,特别是在暗网论坛中被标识为出售商品或服务的用户的比特币地址。我们系统搜集了从2013年至2017年间所有暗网论坛。这使得我们可以识别出那些可能从未被当局抓获的非法用户,以及那些通过与已知暗网市场进行交易却没有在样本数据中识别出来的非法用户。用户经常在诈骗(他们没有收到商品)、质量检查以及私人谈判交易这些情况下,为了告知资金应发往的地址这些情况下公布比特币地址。利用这一方法,我们确定了另外448名在前面两种方法中都没有确定的用户,将这些用户称为“Forum users”。
表3展示了用上述3中方法确定的非法用户的数量以及他们活动的各种度量。总体上,共有6223359名“被观测的”非法用户,占所有比特币用户的5.86%。他们在交易中所占的份额更大,共计1.96亿笔交易,约占所有交易的三分之一(32.38%)。他们在比特币持有上所占的份额甚至更大——在整个样本期,被观测的非法用户所持有的比特币的平均美元价值约为13亿美元,接近所有用户所持有的比特币的平均美元价值的一半(45.28%)。被观测的非法用户控制了大约四分之一(26.33%)的比特币地址,占所有比特币交易总美元价值的12.96%左右。在这些非法用户的分组中,就用户数量而言,最大的一组是Black market users,其次是Seized users,最后是Forum users。然而,就其在总交易中所占的份额而言,Seized users和Forum users仍然是有意义的分组。表3的结果表明样本中“被观测的”非法用户已经占用户和比特币交易活动的相当大的比例,但是尚未采用方法估计总体非法用户或活动的数量。被观测的非法用户的样本的局限性是,它主要包含在暗网市场中参与在线买卖非法商品和服务的用户。其他非法活动形式,如洗钱、逃避资本管制、支付勒索软件攻击和比特币盗窃,也涉及比特币。由于缺乏这些形式的非法活动,我们的实证模型很可能会低估这些活动的普遍性。考虑到非法活动的性质会随着时间而改变,被观测的非法用户的样本是跨越不同时间段的,而不是完全集中在某一个时间点的,这一点也很重要。图2说明了这种情况。
在2009年样本开始时,被观测的非法用户活跃度最高,然后在2012年至2015年底期间,他们的活跃度又是最高的。这些时期中的第一个时期2009年并不特别具有经济意义,因为与随后几年相比,比特币存在的头一两年所涉及的用户和交易量都很少。相反,在第二个时期(2012-2015)的活动是有意义的。这一时期正是非法暗网市场在数量和普及程度上都迅速增长的时期。Silk Road 1成立于2011年1月并很快成为买卖非法商品和服务的热门场所。在2013年10月,被美国联邦调查局关闭后,大量其他非法暗网市场在2013-2015间开始运营。因此,也许有点意料之中的是,被观测的非法用户样本的活动高峰与大量暗网市场活动同时出现。1. 网络聚类分析(Network cluster analysis)SLM算法是目前领先的网络聚类分析算法之一,其根据用户之间的交易来确定用户的“群体”。我们采用的方法是一个网络聚类分析算法,该算法将用户集(网络术语中的“点”)和用户间的交易(网络术语中的“边”或“链接”)。该算法将用户分配到群体作为输出,通过这种分配使得群体的“模块性”最大化(群体内部链接的密度以及群体间链接的稀疏性)。如果用户与非法(合法)群体成员的交易份额过大,该方法将会把这名用户标记为非法(合法)用户。这一方法不假设用户只能参与合法或非法活动,即用户可以两者兼而有之。所以,在合法和非法群体之间存在着一些交易。为了适应于具体应用,我们使用了由Waltman和van Eck(2013)开发的智能局部移动(SLM)算法的变体。该算法的名字(“智能移动”)来源于这样的事实:当把节点从一个群体移动到另一个群体时,如果这种移动可以提高模型的拟合度,则该算法将通过这种移动来寻找网络中的底层群体结构。步骤1:将所有被观测的非法用户分配到非法群体,所有剩余的用户分配到合法群体;步骤2:循环遍历每个用户,对每个用户执行以下操作:如果该用户与用户当前分配的群体的成员进行过多的交易,则将该用户留在当前分配的群体。否则,将该用户移动到其他群体(若该用户被分配到非法群体,则将他移动到合法群体,反之则反成)。步骤3:重复步骤2,直到完整遍历每个用户,没有用户在群体间转换为止。由于该算法的迭代性,并非所有被观测的非法用户都必然会留在非法群体。比如,一些被当局没收了比特币的用户参与了一些非法活动(因此被没收了比特币),但这些用户主要出于合法目的而使用比特币,这种情况是可能存在的。这种情况将在步骤2中被算法识别出来,并且将该用户移动到合法群体。2. 检测-控制估计(Detection-controlled estimation)
类似于SLM方法,DCE模型也不假设被检测到的非法用户单独或主要地参与非法活动。一旦对DCE模型进行了估计,将用户分为合法类和非法类可能导致一些被检测到的非法用户重新分类为主要的合法用户。类似于Heckman模型,用没有工具变量的DCE模型进行分类是可能的,这取决于函数形式和分布假设。然而,更稳健的分类需要通过影响一个过程而不影响另一个过程的工具变量来实现,文中采用了使用工具变量这一更稳健的方法。与非法活动相关的工具变量之一是用户使用方法来隐藏其身份或混淆其交易历史的程度。比如,为了向比特币监管者部分隐藏其身份,用户可以使用“翻滚”(“tumbling”)和“洗售”(“wash trades”)来改变他们持有的比特币的地址,从而增加追踪他们活动的难度。对每一位用户,我们度量了他们交易中的翻滚或洗售的百分比,并将这一变量命名为翻滚(Tumbling)。另一组用于判断用户参与非法活动可能性的工具涉及可能与比特币用户参与的活动类型相关联的时间序列变量。例如,我们为每个用户构造了一个指标,用来衡量用户交易时正在运营的非法暗网市场的平均数量(我们将该变量标记为Darknet sites)。在其他条件相同的情况下,非法交易(以及参与非法活动的用户)更有可能发生在非法暗网市场活动较多的时期,而不是非法暗网活动很少或根本没有的时期。本着类似的精神,我们构建了一个衡量不透明加密货币(Dash、Monero和 ZCash)流行程度的指标,将该变量标记为Shadow coins,是用户交易时不透明加密货币市值对数化后的平均值。(4)Bitcoin market cap工具变量和Bitcoin hype工具变量:我们还利用比特币的市值对数和关键词“比特币”的谷歌趋势搜索强度来度量比特币的流行程度。我们将这些变量分别标记为Bitcoin market cap和Bitcoin hype。我们还利用将比特币和影子货币排除在外的加密货币的总市值对数来度量其他加密货币的流行程度。(将这一变量标记为Alt coins)。为了避免共线性的问题,我们不会在DCE模型中同时包含比特币市值和比特币炒作这两个工具变量。(5)Darknet shock volume工具变量:最后一个关于参与非法活动的工具变量利用了轶事证据,该证据市值当暗网市场遭受重大冲击时,如执法机构查封暗网市场或,由于欺骗或黑客攻击而关闭了这些市场,导致非法用户交易活动的短暂激增,这些用户转移到其他替代市场或转移他们的财产以应对这一冲击。同时,对暗网市场的冲击不可能显著地影响合法用户的活动。因此,我们度量了每个用户在每次主要暗网市场受到冲击后的一周内发生的交易价值的比例。将这一变量标记为Darknet shock volume。(6)Pre-Silk-Road user工具变量:作为检测概率的决定因子,我们包含了一个虚拟变量,用来判断用户是否在执法机构对Silk Road 1进行的第一次比特币查封行动之前就开始使用比特币了(第一笔比特币交易的日期),(将该变量标记为Pre-Silk-Road user)。因为在第一次查封后加入比特币网络的用户只能被后续的查封检测,所以在Silk Road查封后的用户很可能有更低的检测概率。有多少非法活动涉及比特币?
表4给出了由这两个模型在合法用户和非法用户两个群体规模和活动方面的估计结果。
首先,非法用户在用户和使用比特币的交易活动上都占了相当大的比重,具体比例在不同活动度量和两个估计模型中有所不同。其次,尽管基于不同的假设和信息,在各种活动度量中,SLM和DCE的估计都非常相似。第三,即使一个直接确定非法活动的相当全面的方法(如前面使用的三种在样本中确定非法用户的方法)也仅仅捕获了全部非法活动的一小部分,强调了在直接观察样本之外进行外推的重要性。非法活动如何随时间而变化?
非法活动的数量及其在所有比特币活动所占的份额存在着有趣的时间序列变化。通过使用SLM和DCE模型对使用比特币的非法活动进行估计。可观察到非法活动占总比特币活动的百分比在2009年开始时往往比很高,然后从2011年到2016年初再次上升,此后一直到2017年间一直稳步下降。其中,直到2011年中的比特币活动水平非常小(可忽略不计),没有经济意义。而2012年和2016年间非法活动相对较高的水平与从2011年Silk Road开始的非法暗网市场数量的增长不谋而合。2016年初以来非法活动相对水平的下降与合法使用比特币的人数的增加有关。合法用途的激增很可能由一些因素驱动的,如投资者和投机者的兴趣增加(如“加密基金”,“crytofunds”和最近的比特币期货),以及作为支付手段的主流应用增加(如,咖啡和网商接受比特币)。更好地隐藏用户活动的新加密货币的出现也可能导致了使用比特币的非法活动份额下降,因为犯罪分子转移到了这些更不透明的替代品上。有趣的是,非法活动的强劲增长比合法活动的强劲增长早了约3或4年。因此,非法用户似乎是相对更早地将比特币作为支付手段的使用者。由于在样本期后两年比特币合法用户的陡增,所以在前一子节中估计的非法比特币活动的总体比例低估了存在于大部分样本期的比例。总体估计受到了在样本期最后两年加入的大量合法用户的严重影响。非法活动的最新估计(在2017年4月样本结束时)表明存在着近2700万的比特币非法用户,这些用户每年进行了约3700万笔比特币交易,价值约760亿美元,而且共同持有近70亿比特币。非法用户有哪些特征?
用两种方法评估了合法用户和非法用户特征之间的不同:将观察到的或估计的非法用户和合法用户进行比较的单变量统计,和利用被估计的DCE模型的系数的多变量检验。所有工具变量的效果和他们的假设效果是一致的,当用户在以下情况交易时,他们更可能是在参与非法活动:(2) “影子货币”如Monero,并不普及(市值低);若用户使用翻滚和/或洗售,频繁地进行小规模交易,而且倾向于与一个特定交易对手进行重复交易时,该用户更可能是在参与非法活动。尽管在多变量检验中,Alt coins与非法活动的可能性相关,但是在控制其他变量后,用户交易时其他非隐私加密货币(Alt coins)的价值在统计上并不具有显著性。结果表明,比特币的市值与比特币的主流使用和投机兴趣更为密切,因此在控制了比特币的价值之后,“Alt coins”并不是非法活动的显著预测因子。比如,这些边际效应表明用户使用比特币交易时非法暗网市场数量增加了一个标准差,则用户参与非法活动的概率增长了0.661倍,或者说增长了66.1%。这些效用大小普遍说明了绝大多数参与非法活动的决定因素以及被检测概率的决定因素都是有经济意义的。特别地,工具变量Dark sites、Shadow coins、Bitcoin market cap和Darknet shock volume都与用户参与非法活动的概率高度相关。DCE模型也揭示了非法用户被我们的三种方法“检测”出来的可能性。主要工具变量,Pre-Silk-Road用户与被检测高度相关,表明在2013年10月第一起暗网市场查封事件发生之前就开始用比特币进行交易的非法用户被检测到的概率更高。类似地,那些使用比特币进行交易的时期更长(更高的Existence time)、交易更频繁(更高的交易频率)、或倾向于与某一特定用户如暗网市场进行重复交易(更高的集中度),被检测到的概率明显更高。有点出乎意料的是,在其他情况不变时,用户使用比特币交易时的比特币波动率与用户参与非法活动的可能性成正比。非法用户网络的特征有哪些?
利用比特币区块链为我们提供的每一对交易对手间所有交易的完整记录,我们简要探讨了非法用户的交易网络与合法用户的交易网络有何不同。我们的方法是分别为两个群体或“社区”中的每一个计算一些描述性的网络指标,这些指标捕捉了网络拓补和结构的不同方面,然后比较这两个社区值的大小。在映射网络时,用户形成“节点”,用户之间的交易形成“边”或“链接”。
表7报告了这些结果,第一个指标,密度,取值范围为0到1,表示在一个社区中用户的联系的紧密程度(以及用户联系的稀疏程度)。它表明非法交易网络比合法交易网络更密集3到4倍,意味着在交易中,用户与另一用户的联系要密集得多。这一发现与非法用户往往比合法用户交易得多的事实一致,这也与在在非法社区中,比特币的主要作用很可能是作为买/卖商品的支付手段,而在合法社区,比特币还作为投资或投机这一观念一致。Reciprocity(互换)取值范围在0和1之间,刻画的是用户参与双向交易的倾向。尽管非法用户的Reciprocity(互换)比合法用户要高得多,但是它在两个社区中都普遍较低(合法用户中是1%,非法用户中是3%)。因此,比特币用户间的互动普遍是和一个从其他用户接受比特币而不是相反的交易对手进行的单向互动。当所有用户有相同链接数量时,熵取最小值0。就每个用户与社区其他成员之间的链接数量而言,非法用户是一个更加具有异质性的群体。这种异质性的一个驱动因素可能是,在非法社区的一端是暗网市场,这些市场有成千上万个与供应商和买家的链接,而在另一端有只与一个单一市场联系的个人客户,他们可能只有一个链接。结论是,这次SLM和DCE模型都提供了合法用户和非法用户在他们的贸易网络背景下如何不同的一致图景。这再次表明,这两种不同的模型倾向于认同比特币非法活动的性质。SLM alternative 1:用交易量(transaction volumes)而不是交易笔数(transaction counts)作为用户间互动的度量重新估计了SLM模型。SLM alternative 2:将SLM进行修改,强加了不允许样本中出“被观测”非法用户转移到合法社区的约束条件。DCE alternative 1:在基准模型中,Darknet sites(用户交易时暗网市场运营的数量)仅作为非法活动的决定因素,我们将它包含在两个方程中,允许它同样会影响被检测到的概率。如果许多暗网市场的存在是执法机构加强监管和执法的催化剂,则Darknet sites就会影响检测。DCE alternative2:通过将Pre-Silk-Road用户纳入到两个方程中,从而允许它同样影响非法活动的概率。DCE alternative 3:放松了翻滚不会影响被检测的概率这一约束。我们利用不同的起始值(-1,0,+1,或随机抽取的初始值)来初始化模型,并且发现结果对起始的选择并不敏感,这表明模型的估计值已收敛到似然函数的全局最大值而不是局部最大值。
表8报告了这些鲁棒性检验的结果,从中可以看出,尽管对非法活动的个别估计有一些差异,但各种活动度量中估计的非法活动的总体水平对基准模型的修改并不太敏感。比如,在各种替代模型的指标中,非法用户的估计比例这一指标从最小的22.29%到最大的29.12%。我们发现,非法活动在比特币用户和交易活动中占有相当大的比例,以美元计算,也是一个具有经济意义的数额。使用比特币的非法用户倾向于在更小规模的交易中进行更多的交易,通常会反复与特定的交易对手进行交易,而且他们持有的比特币往往更少。非法用户还会更多地使用可以掩盖他们活动的交易技术,他们的活动在暗网市场受到冲击后会激增。随着主流兴趣和炒作的增加、更加不透明的可替代加密货币的出现以及暗网市场的减少,与非法交易相关的比特币活动比例下降。我们的结论有多种启示。第一,这项研究有助于增强监管层面对这项创新带来的负面后果和风险的了解和掌握,减少监管的不确定性,从而在综合评估成本和利益的基础上作出更加明智的决策。进而使这些技术能够物尽其用。其次,本文提出的技术可以通过多种方式应用于密码货币监视,这些技术也可用于识别非法网络中具有战略重要性的个体。第三,我们的论文指出,比特币作为一种支付手段的内在价值的一个重要组成部分来自于它在促进非法交易中的作用。最后,我们的文章进一步回答了线上非法交易增长带来的福利后果这一重要问题。1. PSM倾向匹配Stata操作详细步骤和代码,干货十足,2.处理效应模型选择标准,NNM和PSM,赠书活动,3.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王,4.PSM, RDD, Heckman, Panel模型的操作程序, selective文章精华系列,5.广义PSM,连续政策变量因果识别的不二利器,6.PSM-DID, DID, RDD, Stata程序百科全书式的宝典,7.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References,8.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例,9.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,10.执行PSM的标准操作步骤, 不要再被误导了,11.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢?12.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式!13.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文!14.内生性问题和倾向得分匹配, 献给准自然试验的厚礼,15.粗化精确匹配CEM文献推荐, 程序步骤可复制,16.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,17.匹配方法(matching)操作指南, 值得收藏的16篇文章,18.中国工业企业数据库匹配160大步骤的完整程序和相应数据,19.Match匹配估计做敏感性检验的最新方法, 让不可观测变量基础上的选择无处遁形,20.无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同,21.因果推断中的匹配方法:最全回顾和前景展望,22.内生性问题和倾向得分匹配, 献给准自然试验的厚礼,23.倾向值匹配与因果推论,史上最全面精妙的锦囊,24.匹配还是不匹配?这真是个值得考虑的问题,25.匹配比OLS究竟好在哪里?这是一个问题,26.倾向匹配分析深度(Propsensity matching analysis),27.倾向得分匹配PSM, 你真的用对了吗? 对主流期刊86篇文章分析与总结!28.中文刊上用倾向得分匹配PSM和内生转换模型ESM的实证文章有哪些?不看至少需要收藏一下!29.倾向得分匹配PSM, 你真的用对了吗? 对主流期刊86篇文章分析与总结!30.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,31.ESP内生转化概率模型是什么, 如何做, 如何解释, 为什么需要它? 32.Heckman模型out了,内生转换模型掌控大局,33.因果效应中的双重稳健估计值, 让你的估计精准少误,34.加权DID, IPW-DID实证程序百科全书式的宝典下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。