大規模コーパスから、学習に使える高品質サブセットを抽出。
「そのまま使う」ではなく「モデルが学べる形」に整えます。
近年は大規模な公開音声・映像コーパスが手に入るようになった一方、それらを実プロジェクトに投入しようとすると、BGMや効果音の混入、話者分離の粒度不足、書き起こしの誤り、重複サンプル、低SNR区間の残留といった「そのままでは学習に不向き」な要素が山積しています。
当社では、音源分離、話者ダイアライゼーション、再書き起こし、強制アライメント、音響的品質スコアリング、重複排除までを一気通貫で実施し、大規模コーパスから「モデル性能が上がるサブセット」を抽出します。
お客様の保有データ、あるいはお客様がライセンス取得済みの公開データセットを対象に、オンプレ・お客様AWS環境・当社環境のいずれでも処理可能です。ライセンス条件を逸脱しない運用設計までサポートします。
BGM・効果音・環境音を除去し、発話のみを抽出。音楽混入のあるテレビ放送や動画コーパスでも、発話トラックを高精度に切り出します。
最新モデルで「誰がいつ話したか」を高精度に再推定。元データの粗い話者ラベルを、学習に使える粒度まで精緻化します。
最新ASRモデルで書き起こしを再生成。元ラベルと照合し、ずれや誤りのあるサンプルを自動でフラグ付けします。
発話境界・単語境界をミリ秒粒度で再計測。TTS、音声認識、音声対話モデルの学習に必須の精密なタイムスタンプを付与します。
SNR、予測MOS、ASR信頼度、話者純度などで各サンプルをスコアリング。学習用途に合わせて閾値フィルタを適用します。
音声フィンガープリントとテキスト類似度で重複サンプルを検出・除去。リーク抑制と学習効率の両面で効果があります。
ReazonSpeechのような大規模公開コーパス(CDLA-Sharing等)をお客様が取得済みの場合、BGM混入サンプルや話者ラベル粗い区間を除去し、TTS・音声認識の追加学習に使える粒度まで整備します。ライセンス条件を踏まえた運用設計もあわせて提供します。
社内に蓄積された通話録音から、オペレーター/顧客の話者分離、個人情報マスキング、感情ラベル付与までを実施。社内向け対話AIの学習コーパスとして活用可能な形に整えます。
社内研修動画、ウェビナー、ポッドキャストなどの音声トラックから、高品質な書き起こし+タイムスタンプのペアを生成。社内用語・固有名詞に強いASRモデルの学習に直結します。
過去プロジェクトで収集したが品質が不揃いで放置されているデータセットを、現在の最新モデルで再処理し、次期プロジェクトに使える状態に再生します。