segment_id	system_id	doc_id	context	source	target	src_lang	tgt_lang	category	severity	annotator_id	correction	comment	timestamp
6577a180-b055-44da-8d5b-2a0134191c25	translategemma-12b	case-study-asr		Selective Invocation for Multilingual ASR: A Cost-effective Approach Adapting to Speech Recognition Difficulty	<v>多言語音声認識</v>における選択的呼び出し：音声認識の難易度に合わせて最適化する、費用対効果の高い手法。	en	ja	Accuracy/Omission	Major			“Automated” has been omitted. “多言語自動音声認識” is more accurate.	2026-01-28T05:28:51.193Z
6577a180-b055-44da-8d5b-2a0134191c25	translategemma-12b	case-study-asr		Selective Invocation for Multilingual ASR: A Cost-effective Approach Adapting to Speech Recognition Difficulty	多言語音声認識における選択的呼び出し：音声認識の難易度に合わせて最適化<v>する</v>、費用対効果の高い手法。	en	ja	Fluency/Grammar	Minor			In this case, "される" is more natural.	2026-01-28T05:31:43.360Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、<v>単一のモデル</v>で複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Accuracy/Omission	Critical			"[1, 2, 3, 4]" after this phrase has been omitted.	2026-01-28T05:38:15.314Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた<v>性能</v>が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Fluency/Register	Minor			Translating "performance" as "性能" is unnatural in this context.	2026-01-28T05:43:26.986Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています<v>[3, 5, 6, 7, 10, 11, 12]</v>。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Accuracy/Omission	Critical			8 and 9 have been omitted.	2026-01-28T05:45:21.226Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで<v>学習されて</v>おり、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Fluency/Grammar	Minor			The expression "学習される" sounds unnatural in this context.	2026-01-28T05:48:45.888Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、<v>堅牢な多言語性能</v>を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Fluency/Register	Minor			This is a literal translation and sounds a bit unnatural, so it needs to be rephrased.	2026-01-28T05:55:24.739Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、<v>構文の多様性</v>、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Terminology	Major			In this context, "統語的バリエーション" is the appropriate translation.	2026-01-28T06:01:41.907Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、<v>一貫した最高の性能</v>（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、単一モデルの解決策を制限する要因となっています。	en	ja	Fluency/Grammar	Minor			"一貫した" is a literal translation and grammatically awkward expression. I think "一貫性のある最高性能" is a better translation.	2026-01-28T06:07:32.369Z
26983a8a-59b2-42a6-b1d5-67b41fd99508	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	多言語自動音声認識（ASR）モデルは、単一のモデルで複数の言語を認識できるという能力から、近年注目を集めています（図1(a)を参照）。最近の進歩により、大規模な教師あり学習や自己教師あり学習による事前学習を通じて、様々な言語で優れた性能が実現されています[3, 5, 6, 7, 10, 11, 12]。例えば、Whisper[6]は、68万時間の多言語データで学習されており、標準的なASRベンチマークにおいて高い汎化性能を発揮します。一方、USM[9]は、1200万時間のラベルなしデータを利用することで、堅牢な多言語性能を実現しています。しかしながら、単一モデルを用いた多言語ASRシステムの応用は、依然として大きな課題を抱えています。言語間の音声的差異、構文の多様性、語彙の相違などが、一貫した最高の性能（SOTA）を達成することを困難にしています。さらに、リソースが豊富な言語と少ない言語間の学習データにおける不均衡が、<v>単一モデルの解決策</v>を制限する要因となっています。	en	ja	Fluency/Register	Minor			This is a literal and unnatural expression.	2026-01-28T06:09:43.302Z
f0045915-b13d-401e-82be-3230adddc035	translategemma-12b	case-study-asr		A common strategy to address these challenges is to use a language identification (LID) model that first detects the language of the input speech before invoking the corresponding SOTA ASR model for transcription, as shown in Figure 1(b). However, this two-stage approach has its drawbacks. Many SOTA models are commercial [12] and incur usage fees based on the volume of processing, making this method costly. Additionally, an incorrect LID prediction may trigger the wrong model, further affecting the user experience [13].	これらの課題に対処するための一般的な手法として、まず入力音声の言語を識別する言語識別<v>モデル（LID）</v>を使用し、その後、対応する最先端の音声認識モデル（ASR）を呼び出して文字起こしを行う方法があります（図1(b)を参照）。しかし、この二段階のアプローチにはいくつかの欠点があります。多くの最先端モデルは商用であり[12]、処理量に応じて利用料金が発生するため、この方法はコストがかかります。さらに、言語識別の予測が誤っている場合、誤ったモデルが選択され、ユーザーエクスペリエンスに悪影響を及ぼす可能性があります[13]。	en	ja	Accuracy/Mistranslation	Major			“LID” is an abbreviation for “language identification.” Since it does not include the word “model,” it should not arbitrarily change the word order.	2026-01-28T06:15:05.380Z
f0045915-b13d-401e-82be-3230adddc035	translategemma-12b	case-study-asr		A common strategy to address these challenges is to use a language identification (LID) model that first detects the language of the input speech before invoking the corresponding SOTA ASR model for transcription, as shown in Figure 1(b). However, this two-stage approach has its drawbacks. Many SOTA models are commercial [12] and incur usage fees based on the volume of processing, making this method costly. Additionally, an incorrect LID prediction may trigger the wrong model, further affecting the user experience [13].	これらの課題に対処するための一般的な手法として、まず入力音声の言語を識別する言語識別モデル（LID）を使用し、その後、対応する最先端の<v>音声認識モデル（ASR）</v>を呼び出して文字起こしを行う方法があります（図1(b)を参照）。しかし、この二段階のアプローチにはいくつかの欠点があります。多くの最先端モデルは商用であり[12]、処理量に応じて利用料金が発生するため、この方法はコストがかかります。さらに、言語識別の予測が誤っている場合、誤ったモデルが選択され、ユーザーエクスペリエンスに悪影響を及ぼす可能性があります[13]。	en	ja	Accuracy/Mistranslation	Critical			“ASR” is an abbreviation for “Automated Speech Recognition.” Since it does not include the word “モデル (model),” it should not arbitrarily change the word order. And, "Automated" has been omitted.	2026-01-28T06:18:32.261Z
f0045915-b13d-401e-82be-3230adddc035	translategemma-12b	case-study-asr		A common strategy to address these challenges is to use a language identification (LID) model that first detects the language of the input speech before invoking the corresponding SOTA ASR model for transcription, as shown in Figure 1(b). However, this two-stage approach has its drawbacks. Many SOTA models are commercial [12] and incur usage fees based on the volume of processing, making this method costly. Additionally, an incorrect LID prediction may trigger the wrong model, further affecting the user experience [13].	これらの課題に対処するための一般的な手法として、まず入力音声の言語を識別する言語識別モデル（LID）を使用し、その後、対応する最先端の音声認識モデル（ASR）を呼び出して文字起こしを行う方法があります（図1(b)を参照）。しかし、この二段階のアプローチにはいくつかの欠点があります。多くの最先端モデルは商用であり[12]、処理量に応じて利用料金が発生するため、この方法はコストがかかります。さらに、言語識別の予測が誤っている場合、誤ったモデルが<v>選択され</v>、ユーザーエクスペリエンスに悪影響を及ぼす可能性があります[13]。	en	ja	Accuracy/Mistranslation	Major			“trigger” should be translated as “トリガーする”.	2026-01-28T06:23:07.771Z
ca5b3d25-ac87-4316-b201-f201dc09d6bc	translategemma-12b	case-study-asr		Motivated by these limitations, we propose an alternative strategy that selectively invokes models based on the complexity of the input speech. In ASR tasks, the recognition difficulty varies significantly. Under clean acoustic conditions with simple vocabulary, both the SOTA and regular models typically yield low word error rates (WER). However, in noisy or acoustically challenging environments, the WER increases [14, 15, 16, 17], where robust SOTA models generally perform better [6]. This observation raises a key question: Can we distinguish between simple and complex speech inputs and adapt our ASR system accordingly?	これらの制約から、私たちは、入力音声の複雑さに応じてモデルを適切に選択する、別の戦略を提案します。<v>音声認識（ASR）</v>のタスクにおいて、認識の難易度は大きく異なります。音声環境がクリアで、語彙が単純な場合、最先端（SOTA）モデルと一般的なモデルの両方で、通常は低い単語誤り率（WER）が得られます。しかし、騒音が多い環境や、音響的に困難な環境では、WERが増加します[14, 15, 16, 17]。そのような状況では、堅牢な最先端モデルの方が一般的に優れた性能を発揮します[6]。このことから、重要な疑問が生まれます。私たちは、単純な音声と複雑な音声の区別をつけ、それに応じてASRシステムを適応させることができるでしょうか？	en	ja	Accuracy/Omission	Major			"Automated" has been omitted.	2026-01-28T06:24:37.524Z
ca5b3d25-ac87-4316-b201-f201dc09d6bc	translategemma-12b	case-study-asr		Motivated by these limitations, we propose an alternative strategy that selectively invokes models based on the complexity of the input speech. In ASR tasks, the recognition difficulty varies significantly. Under clean acoustic conditions with simple vocabulary, both the SOTA and regular models typically yield low word error rates (WER). However, in noisy or acoustically challenging environments, the WER increases [14, 15, 16, 17], where robust SOTA models generally perform better [6]. This observation raises a key question: Can we distinguish between simple and complex speech inputs and adapt our ASR system accordingly?	これらの制約から、私たちは、入力音声の複雑さに応じてモデルを適切に選択する、別の戦略を提案します。音声認識（ASR）のタスクにおいて、認識の難易度は大きく異なります。音声環境がクリアで、語彙が単純な場合、最先端（SOTA）モデルと一般的なモデルの両方で、通常は低い単語誤り率（WER）が得られます。しかし、騒音が多い環境や、音響的に<v>困難な</v>環境では、WERが増加します[14, 15, 16, 17]。そのような状況では、堅牢な最先端モデルの方が一般的に優れた性能を発揮します[6]。このことから、重要な疑問が生まれます。私たちは、単純な音声と複雑な音声の区別をつけ、それに応じてASRシステムを適応させることができるでしょうか？	en	ja	Fluency/Register	Minor				2026-01-28T06:26:23.136Z
ca5b3d25-ac87-4316-b201-f201dc09d6bc	translategemma-12b	case-study-asr		Motivated by these limitations, we propose an alternative strategy that selectively invokes models based on the complexity of the input speech. In ASR tasks, the recognition difficulty varies significantly. Under clean acoustic conditions with simple vocabulary, both the SOTA and regular models typically yield low word error rates (WER). However, in noisy or acoustically challenging environments, the WER increases [14, 15, 16, 17], where robust SOTA models generally perform better [6]. This observation raises a key question: Can we distinguish between simple and complex speech inputs and adapt our ASR system accordingly?	これらの制約から、私たちは、入力音声の複雑さに応じてモデルを適切に選択する、別の戦略を提案します。音声認識（ASR）のタスクにおいて、認識の難易度は大きく異なります。音声環境がクリアで、語彙が単純な場合、最先端（SOTA）モデルと一般的なモデルの両方で、通常は低い単語誤り率（WER）が得られます。しかし、騒音が多い環境や、音響的に困難な環境では、WERが増加します[14, 15, 16, 17]。そのような状況では、堅牢な最先端モデルの方が一般的に優れた性能を発揮します[6]。このことから、重要な疑問が生まれます。私たちは、単純な音声と複雑な音声の区別をつけ、それに応じてASRシステムを適応させることが<v>できるでしょうか？</v>	en	ja	Fluency/Register	Minor			It should be "できるのでしょうか？".	2026-01-28T06:29:41.910Z
dc1394cd-97b4-469a-a293-75e776036cf4	translategemma-12b	case-study-asr		The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance.	その結果から、SIMAモデルは、最先端モデル（SOTAモデル）を<v>適切に選択的に</v>利用することで、ベースモデルと比較して、3つのデータセットでそれぞれ18.6%、9.3%、28.2%という大幅な単語認識エラー率（WER）の削減を達成しました。さらに、ランダムなモデル選択戦略と比較して、SIMAモデルは一貫して低いWERを示し、それぞれ6.6%、4.2%、16.8%の改善が見られました。特に、FLEURSデータセットにおける改善は顕著であり、これはベースモデルにとっては未知の領域であるのに対し、LID-Topモデルにとっては学習対象の領域であるためです。これらの結果は、SIMAモデルが、最先端モデルをいつ利用すべきかを正確に判断する優れた能力を持っていることを明確に示しており、これにより、全体的な音声認識性能が最適化されます。	en	ja	Fluency/Grammar	Minor				2026-01-28T06:30:19.043Z
dc1394cd-97b4-469a-a293-75e776036cf4	translategemma-12b	case-study-asr		The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance.	その結果から、SIMAモデルは、最先端モデル（SOTAモデル）を適切に選択的に利用することで、ベースモデルと比較して、3つのデータセットでそれぞれ18.6%、9.3%、28.2%という大幅な<v>単語認識エラー率（WER）</v>の削減を達成しました。さらに、ランダムなモデル選択戦略と比較して、SIMAモデルは一貫して低いWERを示し、それぞれ6.6%、4.2%、16.8%の改善が見られました。特に、FLEURSデータセットにおける改善は顕著であり、これはベースモデルにとっては未知の領域であるのに対し、LID-Topモデルにとっては学習対象の領域であるためです。これらの結果は、SIMAモデルが、最先端モデルをいつ利用すべきかを正確に判断する優れた能力を持っていることを明確に示しており、これにより、全体的な音声認識性能が最適化されます。	en	ja	Terminology	Major			This is not an industry-standard expression.	2026-01-28T06:32:31.931Z
dc1394cd-97b4-469a-a293-75e776036cf4	translategemma-12b	case-study-asr		The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance.	その結果から、SIMAモデルは、最先端モデル（SOTAモデル）を適切に選択的に利用することで、ベースモデルと比較して、3つのデータセットでそれぞれ18.6%、9.3%、28.2%という大幅な単語認識エラー率（WER）の削減を達成しました。さらに、ランダムなモデル選択戦略と比較して、SIMAモデルは一貫して低いWERを示し、それぞれ6.6%、4.2%、16.8%の改善が見られました。特に、FLEURSデータセットにおける改善は顕著であり、これはベースモデルにとっては<v>未知の領域</v>であるのに対し、LID-Topモデルにとっては学習対象の領域であるためです。これらの結果は、SIMAモデルが、最先端モデルをいつ利用すべきかを正確に判断する優れた能力を持っていることを明確に示しており、これにより、全体的な音声認識性能が最適化されます。	en	ja	Accuracy/Mistranslation	Major			The correct translation is "専門外の," not "未知の."	2026-01-28T06:36:57.757Z
dc1394cd-97b4-469a-a293-75e776036cf4	translategemma-12b	case-study-asr		The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance.	その結果から、SIMAモデルは、最先端モデル（SOTAモデル）を適切に選択的に利用することで、ベースモデルと比較して、3つのデータセットでそれぞれ18.6%、9.3%、28.2%という大幅な単語認識エラー率（WER）の削減を達成しました。さらに、ランダムなモデル選択戦略と比較して、SIMAモデルは一貫して低いWERを示し、それぞれ6.6%、4.2%、16.8%の改善が見られました。特に、FLEURSデータセットにおける改善は顕著であり、これはベースモデルにとっては未知の領域であるのに対し、LID-Topモデルにとっては学習対象の領域であるためです。これらの結果は、SIMAモデルが、最先端モデルをいつ利用すべきかを正確に判断する優れた能力を持っていることを明確に示しており、これにより、全体的な<v>音声認識</v>性能が最適化されます。	en	ja	Accuracy/Omission	Major			"Automated" has been omitted.	2026-01-28T06:38:55.921Z
6c5c3fe2-afde-444a-b8b9-2ecd050f05bc	translategemma-12b	case-study-asr		The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses.	<v>音声認識の精度</v>（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が高いものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍に削減し、関連する費用を大幅に低減します。	en	ja	Accuracy/Mistranslation	Critical		音声認識の精度（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が高いものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍に削減し、関連する費用を大幅に低減します。	“invocation decision” is translated as "呼び出しの判断," but this has been mistakenly rendered as "音声認識 (Speech Recognition)." This is a critical error.	2026-01-28T06:45:23.816Z
6c5c3fe2-afde-444a-b8b9-2ecd050f05bc	translategemma-12b	case-study-asr		The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses.	音声認識の精度（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が高いものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍<v>に</v>削減し、関連する費用を大幅に低減します。	en	ja	Accuracy/Mistranslation	Critical		音声認識の精度（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が高いものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍に削減し、関連する費用を大幅に低減します。	"に" means "to," not "by." This may lead to misunderstanding.	2026-01-28T06:49:50.970Z
6c5c3fe2-afde-444a-b8b9-2ecd050f05bc	translategemma-12b	case-study-asr		The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses.	音声認識の精度（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が<v>高い</v>ものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍に削減し、関連する費用を大幅に低減します。	en	ja	Accuracy/Mistranslation	Critical		音声認識の精度（ACC）とF1スコアは、いずれも約70%であり、これは、大規模言語モデル（SLLM）が、音声の複雑さに基づいて効果的に区別できるという仮説を支持するものです。SIMAは、LID-Topと比較してわずかに単語誤り率（WER）が高いものの、3つのデータセット全体で、呼び出しにかかるコストを約0.51倍に削減し、関連する費用を大幅に低減します。	This translation engine arbitrarily interprets it as "高い (high)," but the original text only states "わずかな差がある (exhibits a slight gap). "This may lead to misunderstanding.	2026-01-28T06:53:31.611Z
9cb717b1-be71-496d-b1fc-52652ad5f2c3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	現在のSIMAモデルは、<v>単語認識精度（WER）</v>において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。	en	ja	Terminology	Major		現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。	This is not an industry-standard expression.	2026-01-28T06:54:30.810Z
9cb717b1-be71-496d-b1fc-52652ad5f2c3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、<v>学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]</v>においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。	en	ja	Accuracy/Mistranslation	Critical		現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。	The relationship between "out-of-domain data" and "FLEURS" is not a parallel connection linked by "や (and)," but rather "〜である〜 (as)."	2026-01-28T07:05:51.145Z
9cb717b1-be71-496d-b1fc-52652ad5f2c3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、<v>特定のタスク</v>を効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。	en	ja	Accuracy/Mistranslation	Major		現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。		2026-01-28T07:07:12.905Z
9cb717b1-be71-496d-b1fc-52652ad5f2c3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、<v>最先端モデル（SOTA）</v>の音声認識性能を向上させることを計画しています。	en	ja	Accuracy/Mistranslation	Major		現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。		2026-01-28T07:08:41.267Z
9cb717b1-be71-496d-b1fc-52652ad5f2c3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の<v>音声認識</v>性能を向上させることを計画しています。	en	ja	Accuracy/Omission	Major		現在のSIMAモデルは、単語認識精度（WER）において大幅な改善が見られますが、依然としてWhisper [6]に比べて、学習データとは異なるデータセット（アウトオブドメインデータ）やFLEURS [28]においては性能が劣ります。この制限は、当初の仮説である「ベースのSLLMモデルが、特定のタスクを効果的に実行できる」という考え方に基づいています。弊社のベースとなるSLLMモデル [29] は、学習データの制約から、Whisperのような専門的なモデルに比べて、本来的に性能が劣ります。今後の研究では、Whisper [6]をベースモデルとして採用し、SIMAシステムをさらに改良することで、最先端モデル（SOTA）の音声認識性能を向上させることを計画しています。		2026-01-28T07:09:13.266Z