ダークウェブを学習した大規模言語モデル「DarkBERT」
韓国のKAISTとS2W Inc.に所属する研究者らが発表した論文「DarkBERT: A Language Model for the Dark Side of the Internet」は、ダークウェブに特化した大規模言語モデルを提案した研究報告であります。
ダークウェブは、Googleなどの一般的なWeb検索エンジンにはインデックスされず、通常のWebブラウザではアクセスできないインターネットの一部である。ダークウェブにアクセスするためには、Tor(The Onion Router)などの特別なソフトウェアが必要で、匿名性の高い利点から違法な取引、例えばドラッグの売買や個人情報の売買などが行われている。
この研究では、ダークウェブコーパスに事前学習させたドメイン特化型言語モデル「DarkBERT」を提案する。このモデルは、2019年に開発した「RoBERTa」のアーキテクチャをベースに設計している。
“ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発
ダークウェブコンテンツを分析し、そこから有用な情報を抽出することができます。
セキュリティ研究者や法執行機関にとって、不正な行為をより監視できるツールとして役立つことを研究チームは期待しています。