機械学習を活用した大量文章からの自動的なトピックの抽出をするアプリの実装支援

機械学習を活用した大量文章からの自動的なトピックの抽出をするアプリの実装支援

問い合わせやSNSのコメント、技術情報や長年蓄積した社内の議事録など、大量のドキュメントデータを業務の中で処理し、意思決定に利用するシーンは日々増加しています。

ここでは、数千から数万の文章を含むデータから、自動的にトピックを抽出することで、文章のスクリーニングや全体感の迅速な把握などを可能にするアルゴリズムの構築を支援しました。

今、手元に約450個の文章が記載してあるエクセルデータがあるとします(※) 。

このエクセルをアルゴリズムで分析し、トピックを抽出します。ここでは21個のトピックが抽出されています。さらにトピックの関係性も情報として提示します。

各文章には、抽出したトピックが付与されて、2次元の散布図として表示されます。

加えて、エクセルをアップロードするだけで、上記のファイルが出力される簡易アプリして実装することで、ビジネスニーズの迅速な検証を可能にしました。

実装

  • 環境:AWS(EC2)
  • 言語:Python
  • フロントエンド:Streamlit
  • ベースアルゴリズム:BERTopic(SentenceTransformersを活用)

(※) サンプルデータにはlivedoor ニュースコーパスを使用、https://www.rondhuit.com/download.html

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA