02 · BCleaning · Alignment · Quality

データセットクリーニング支援

大規模コーパスから、学習に使える高品質サブセットを抽出。
「そのまま使う」ではなく「モデルが学べる形」に整えます。

Overview / サービス概要

公開コーパスを、本当に学習に使える状態へ。

近年は大規模な公開音声・映像コーパスが手に入るようになった一方、それらを実プロジェクトに投入しようとすると、BGMや効果音の混入、話者分離の粒度不足、書き起こしの誤り、重複サンプル、低SNR区間の残留といった「そのままでは学習に不向き」な要素が山積しています。

当社では、音源分離、話者ダイアライゼーション、再書き起こし、強制アライメント、音響的品質スコアリング、重複排除までを一気通貫で実施し、大規模コーパスから「モデル性能が上がるサブセット」を抽出します。

お客様の保有データ、あるいはお客様がライセンス取得済みの公開データセットを対象に、オンプレ・お客様AWS環境・当社環境のいずれでも処理可能です。ライセンス条件を逸脱しない運用設計までサポートします。

Pipeline / クリーニング工程

STEP 01

BGM・効果音・環境音を除去し、発話のみを抽出。音楽混入のあるテレビ放送や動画コーパスでも、発話トラックを高精度に切り出します。

STEP 02

最新モデルで「誰がいつ話したか」を高精度に再推定。元データの粗い話者ラベルを、学習に使える粒度まで精緻化します。

STEP 03

最新ASRモデルで書き起こしを再生成。元ラベルと照合し、ずれや誤りのあるサンプルを自動でフラグ付けします。

STEP 04

発話境界・単語境界をミリ秒粒度で再計測。TTS、音声認識、音声対話モデルの学習に必須の精密なタイムスタンプを付与します。

STEP 05

SNR、予測MOS、ASR信頼度、話者純度などで各サンプルをスコアリング。学習用途に合わせて閾値フィルタを適用します。

STEP 06

音声フィンガープリントとテキスト類似度で重複サンプルを検出・除去。リーク抑制と学習効率の両面で効果があります。

Use cases / 活用例

CASE 01

ReazonSpeechのような大規模公開コーパス（CDLA-Sharing等）をお客様が取得済みの場合、BGM混入サンプルや話者ラベル粗い区間を除去し、TTS・音声認識の追加学習に使える粒度まで整備します。ライセンス条件を踏まえた運用設計もあわせて提供します。

CASE 02

社内に蓄積された通話録音から、オペレーター/顧客の話者分離、個人情報マスキング、感情ラベル付与までを実施。社内向け対話AIの学習コーパスとして活用可能な形に整えます。

CASE 03

社内研修動画、ウェビナー、ポッドキャストなどの音声トラックから、高品質な書き起こし＋タイムスタンプのペアを生成。社内用語・固有名詞に強いASRモデルの学習に直結します。

CASE 04

過去プロジェクトで収集したが品質が不揃いで放置されているデータセットを、現在の最新モデルで再処理し、次期プロジェクトに使える状態に再生します。

対象コーパスや想定モデル用途について、お気軽にお問い合わせください。