当前位置:首页 > 报告详情

使用专门的商业网站来增强荷兰的统计商业登记.pdf

上传人: Fl****zo 编号:718594 2025-06-22 18页 442.38KB

1、Use of dedicated business websites to enhance the statistical business register in the NetherlandsSharing experiencesArnout van Delden,Nick de Wolf,Naomi Schalken,Sander Scholtus,Olav ten Bosch and others;Feb 4-5 2025,GdanskIcon from ;by zero_wingIntroductionAutomatic use of information on websites

2、to reduce manual labour for maintenance variables in a SBR(units,contact information,NACE)Experiences by Statistics Netherlands:1.Finding of URLs using data from an external company2.Development of a model to predict NACE misclassificationsURL findingThird party DataProvider(DP)scrapes URLs(and cont

3、act information)in many countries and makes a selection of Dutch businessesSourcePopulationFrequencyLinkageChamber of commerceRegistration of(new)legal unitsContinuousLegal unit ID numberICT surveySample of enterprisesYearlyEnterprise ID numberDataProviderDutch websites that are notblockedMonthlyID

4、numbers,name,email address and so onURLs collected by third parties are a potentially useful source for NSIs,but The collected URLs need to be linked to legal/statistical units in the SBR values of identifying variables need to be present in both sourcesURL finding:linkage of DPURL finding:contribut

5、ion of COC versus DPGroupsURL fromCOCURL fromDPDP URL-LU linkage probability 0%10-50%65%75%85 95%100%Total4 630 8364 630 8364 630 8364 630 8364 630 8364 630 8364 630 836Group A+700 973670 528656 672644 217635 936424 151389 165Group B-+671 011213 781123 76529 2651 10911Group C+-221 605252 050265 9062

6、78 361286 642498 427533 413Group D-3 037 2473 494 4773 584 4933 678 9933 707 1493 708 2573 708 257Number of Legal Units in the SBR(Oct 2020)With websites scraped by third-parties:considerable effort is needed to build and maintain a probabilistic linkage function to link non-unique identifiers,or li

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容是荷兰统计局如何利用专业商业网站来增强统计商业注册(SBR)系统。关键点如下: 1. 第三方数据提供商(DP)搜集企业网址和联系信息,为统计局提供潜在有用数据源。 - 例:DP搜集的网址需与SBR中的法律/统计单位相链接。 2. 需要构建和维护概率链接函数以关联非唯一标识符,或限制链接至唯一标识符以接受较少链接。 - 链接概率模型从旧方法更新至逻辑回归模型,增加了链接变量。 3. 网址与法律单位/统计单位是不同类型的单位,存在1:1、1:n、n:1和m:n的链接关系。 - 例如:2020年,有4,630,836个法律单位与网址链接。 4. 利用网站文本和注册单位活动描述,预测NACE代码(欧洲行业标准分类)的误分类。 - 选用基于知识的特征可提高NACE预测性能。 - 最低F1分数为0.089,最高为0.819。 5. 识别SBR中可能误分类的代码的模型显示出前景,但受代码人口规模不均影响。 文章强调了通过自动化信息处理减少人工劳动,以及提高数据质量的重要性。
"如何高效链接商业网站数据?" 提升统计商业注册效率,探讨数据自动化的可能性。 "NACE代码误分类如何智能预测?" 利用机器学习优化行业分类,提高数据准确性。 "第三方数据源链接概率揭秘" 深入分析不同数据源链接概率,优化数据整合策略。
客服
商务合作
小程序
服务号
折叠