当前位置:首页 > 报告详情

利用企业的网络影响力来改进 NACE 代码分类.pdf

上传人: Fl****zo 编号:718580 2025-06-22 19页 857.99KB

1、www.statistik.atUnabhngige Statistiken fr faktenbasierte EntscheidungenExploiting the Web Presence of Enterprises to Improve NACE Code ClassificationJohannes GussenbauerWIN 2025 CONFERENCE Danzig,05.02.2025Johannes.Gussenbauerstatistik.gv.atAlexander KowarikAlexander.Kowarikstatistik.gv.atwww.statis

2、tik.atFolie 2Outline Aim of classification task Data acquisition and processing Modelling and performance evaluation Hierarchical performance measuresFolie 3www.statistik.atAim of classification taskwww.statistik.atFolie 4Aim of classification task NACE editing labour intensive task+NACE revision co

3、ming 2025 Possible to predict NACE of entrprise using text from enterprise website?Test NACE predicion during ESSNet Web Intelligence Network Main focus on developing model used in recommendation system for editing task reduceediting timeFolie 5www.statistik.atData Acquisition and pre-processingwww.

4、statistik.atFolie 6Data Acquisition Collect web data during ICT-survey cycles Collected data from 2019 to 2023(results limited up to 2021)Google Custom API Search withname and address ofenterpriseSelenium+R Scrape text fromwebsite;especially searchfor imprint“Link Websiten and address Process text a

5、nd deterministicallylink via VAT orCRN found in imprint“www.statistik.atFolie 7www.statistik.atFolie 8Text data processing Process collected text from website Transform each word with the German morphological lexicon available on https:/www.openthesaurus.de/about/download Lemmetization and stemming

6、did not improve classification performance Removing all digits and punctuations Remove characters not part of the German dictionary Remove German stop words.Folie 9www.statistik.atModelling&Resultswww.statistik.atFolie 10NACE Classification Make NACE level 2 prediction using text as features=Pre-pro

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文研究了利用企业网站文本提高NACE代码分类的可行性。核心内容包括: 1. 目标:减少人工编辑NACE代码的时间,探索使用企业网站文本预测企业NACE代码。 2. 数据收集与处理:通过Google Custom API和Selenium + R收集2019至2021年的网站数据,使用德国形态学词典处理文本。 3. 模型选择:使用神经网络(结合词嵌入)和XGBoost进行分类。 4. 性能评估:提出了一种基于类距离的层次性能评估方法。结果显示,神经网络结合层次结构的模型在NACE 1至NACE 4的分类上均优于XGBoost,最高准确率和F1分数分别达到81%和95%(NACE 1级别)。 关键数据: - 文本预处理后包含超过200万个不同词汇。 - 使用了信息增益、基尼指数和区分特征选择器等方法筛选出200至500个“重要”词汇。 结论: - 利用网站文本进行NACE分类具有挑战性,数据收集和处理的重要性大于分类方法的选择。 - 直接分类效果不佳,但支持人工标注是可行的。
"如何利用网站文本优化NACE分类?" "企业网站文本在NACE预测中有多准确?" "数据采集对NACE分类有何影响?"
客服
商务合作
小程序
服务号
折叠