segment_id	system_id	doc_id	context	source	target	src_lang	tgt_lang	category	severity	annotator_id	correction	comment	timestamp
7d32812a-ef1c-4392-ac27-19a13d8ac250	translategemma-12b	case-study-asr		Selective Invocation for Multilingual ASR: A Cost-effective Approach Adapting to Speech Recognition Difficulty	<v>Invoca</v> selettiva per il riconoscimento vocale multilingue: un approccio economicamente vantaggioso che si adatta alla difficoltà del riconoscimento vocale.	en	it	Fluency/Grammar	Major		Invocazione selettiva per il riconoscimento vocale multilingue: un approccio economicamente vantaggioso che si adatta alla difficoltà del riconoscimento vocale.	“Invoca” is a verb form and is grammatically incorrect as a noun in Italian. Correct version is "Invocazione selettiva"	2026-01-27T20:22:13.551Z
98e9102e-9697-471d-a76e-82f55af96e6e	translategemma-12b	case-study-asr		Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions.	I modelli automatici di riconoscimento vocale multilingue (ASR) hanno suscitato notevole interesse per la loro capacità di riconoscere più lingue utilizzando un unico modello [1, 2, 3, 4], come illustrato in Figura 1(a). I recenti progressi hanno portato a prestazioni notevoli in diverse lingue grazie all'utilizzo di tecniche di pre-addestramento supervisionato o auto-supervisionato su larga scala [3, 5, 6, 7, 8, 9, 10, 11, 12]. Ad esempio, Whisper [6] è stato addestrato su 680.000 ore di dati multilingue <v>etichettati in modo parziale</v>, il che gli consente di generalizzare efficacemente su standard di riferimento per l'ASR, mentre USM [9] sfrutta 12 milioni di ore di dati non etichettati per ottenere prestazioni robuste tra diverse lingue. Nonostante questi progressi, l'applicazione di sistemi ASR multilingue con un unico modello presenta ancora sfide significative. Le differenze fonetiche, le variazioni sintattiche e le disparità nel vocabolario tra le lingue rendono difficile ottenere prestazioni universalmente all'avanguardia (SOTA) costanti. Inoltre, gli squilibri nei dati di addestramento tra le lingue con molte risorse e quelle con poche risorse limitano ulteriormente le soluzioni basate su un unico modello.	en	it	Accuracy/Mistranslation	Major		I modelli automatici di riconoscimento vocale multilingue (ASR) hanno suscitato notevole interesse per la loro capacità di riconoscere più lingue utilizzando un unico modello [1, 2, 3, 4], come illustrato in Figura 1(a). I recenti progressi hanno portato a prestazioni notevoli in diverse lingue grazie all'utilizzo di tecniche di pre-addestramento supervisionato o auto-supervisionato su larga scala [3, 5, 6, 7, 8, 9, 10, 11, 12]. Ad esempio, Whisper [6] è stato addestrato su 680.000 ore di dati debolmente multilingue, il che gli consente di generalizzare efficacemente sui benchmark ASR standard, mentre USM [9] sfrutta 12 milioni di ore di dati non etichettati per ottenere prestazioni robuste tra diverse lingue. Nonostante questi progressi, l'applicazione di sistemi ASR multilingue con un unico modello presenta ancora sfide significative. Le differenze fonetiche, le variazioni sintattiche e le disparità nel vocabolario tra le lingue rendono difficile ottenere prestazioni universalmente all'avanguardia (SOTA) costanti. Inoltre, gli squilibri nei dati di addestramento tra le lingue ad alta disponibilità di risorse e quelle a bassa disponibilità limitano ulteriormente le soluzioni basate su un unico modello.	“Dati multilingue etichettati in modo parziale” is a semantic misinterpretation of weakly multilingual data. The correct concept is weak supervision, not partial labeling. Correct: "680.000 ore di dati multilingue debolmente supervisionati"	2026-01-27T20:24:16.749Z
5e06e4fb-11e9-45b2-ad6a-c5a886b216eb	translategemma-12b	case-study-asr		A common strategy to address these challenges is to use a language identification (LID) model that first detects the language of the input speech before invoking the corresponding SOTA ASR model for transcription, as shown in Figure 1(b). However, this two-stage approach has its drawbacks. Many SOTA models are commercial [12] and incur usage fees based on the volume of processing, making this method costly. Additionally, an incorrect LID prediction may trigger the wrong model, further affecting the user experience [13].	Una strategia comune per affrontare queste sfide consiste nell'utilizzare un modello di identificazione della lingua (LID) che, in una prima fase, rileva la lingua del discorso in ingresso, prima di attivare il modello di riconoscimento vocale (ASR) più avanzato (SOTA) corrispondente per la trascrizione, come illustrato in Figura 1(b). Tuttavia, questo approccio in due fasi presenta alcuni svantaggi. Molti modelli SOTA sono commerciali [12] e comportano costi di utilizzo basati sul volume di elaborazione, rendendo questo metodo costoso. Inoltre, una previsione LID errata può attivare il modello sbagliato, compromettendo ulteriormente l'esperienza dell'utente [13].	en	it	no-error	Minor				2026-01-27T20:24:43.009Z
6c7d7490-83c1-4487-8a4a-f505bfcbe1ce	translategemma-12b	case-study-asr		Motivated by these limitations, we propose an alternative strategy that selectively invokes models based on the complexity of the input speech. In ASR tasks, the recognition difficulty varies significantly. Under clean acoustic conditions with simple vocabulary, both the SOTA and regular models typically yield low word error rates (WER). However, in noisy or acoustically challenging environments, the WER increases [14, 15, 16, 17], where robust SOTA models generally perform better [6]. This observation raises a key question: Can we distinguish between simple and complex speech inputs and adapt our ASR system accordingly?	Motivati da queste limitazioni, proponiamo una strategia alternativa che seleziona i modelli in base alla complessità del <v>segnale vocale</v> in ingresso. Nelle attività di riconoscimento vocale automatico (ASR), il livello di difficoltà del riconoscimento varia notevolmente. In condizioni acustiche favorevoli e con un vocabolario semplice, sia i modelli all'avanguardia (SOTA) che quelli standard tendono a produrre bassi tassi di errore di parola (WER). Tuttavia, in ambienti rumorosi o con condizioni acustiche difficili, il WER aumenta [14, 15, 16, 17], mentre i modelli SOTA più robusti generalmente offrono prestazioni migliori [6]. Questa osservazione solleva una domanda fondamentale: possiamo distinguere tra segnali vocali semplici e complessi e adattare di conseguenza il nostro sistema ASR?	en	it	Terminology	Minor		Motivati da queste limitazioni, proponiamo una strategia alternativa che invoca selettivamente i modelli in base alla complessità del parlato in ingresso. Nelle attività di riconoscimento vocale automatico (ASR), il livello di difficoltà del riconoscimento varia notevolmente. In condizioni acustiche favorevoli e con un vocabolario semplice, sia i modelli all'avanguardia (SOTA) sia quelli standard tendono a produrre bassi tassi di errore di parola (WER). Tuttavia, in ambienti rumorosi o con condizioni acustiche difficili, il WER aumenta [14, 15, 16, 17], mentre i modelli SOTA più robusti generalmente offrono prestazioni migliori [6]. Questa osservazione solleva una domanda fondamentale: è possibile distinguere tra segnali vocali semplici e complessi e adattare di conseguenza il nostro sistema ASR?	“segnale vocale” introduces an unnecessary technical narrowing. The source text refers to speech input, not explicitly to the signal level. Correct: "parlato"	2026-01-27T20:25:29.662Z
bace67cf-4331-4091-8117-002250ecbbd7	translategemma-12b	case-study-asr		The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance.	I risultati indicano che, grazie all'invocazione selettiva dei modelli all'avanguardia (SOTA), il modello SIMA ottiene riduzioni significative del tasso di errore di riconoscimento vocale (WER) del 18,6%, del 9,3% e del 28,2% rispetto al modello di base, sui tre dataset analizzati. Inoltre, rispetto alla strategia di invocazione casuale, SIMA offre costantemente un WER inferiore, con miglioramenti del 6,6%, del 4,2% e del 16,8%. In particolare, il miglioramento sul dataset FLEURS è particolarmente significativo, poiché questo dataset è al di fuori del dominio di applicazione del modello di base, ma rientra nel dominio del modello LID-Top. Questi risultati dimostrano in modo convincente l'eccezionale capacità di SIMA di determinare con precisione quando invocare il modello all'avanguardia, ottimizzando così le prestazioni complessive del sistema di riconoscimento vocale.	en	it	no-error	Minor				2026-01-27T20:25:41.637Z
3593a149-b739-4b0d-b4ef-0b346fa04efa	translategemma-12b	case-study-asr		The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses.	L'accuratezza (ACC) e i punteggi F1 relativi alla capacità di identificazione sono di circa il 70%, confermando la nostra ipotesi che i modelli linguistici di grandi dimensioni (LLM) possano distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA mostri una leggera differenza nel tasso di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione <v>di circa lo 0,51 volte</v> nei tre dataset, diminuendo significativamente le spese associate.	en	it	Accuracy/Mistranslation	Major		L'accuratezza della decisione di invocazione (ACC) e i punteggi F1 sono pari a circa il 70%, a supporto della nostra ipotesi secondo cui i modelli linguistici di grandi dimensioni specializzati (SLLM) siano in grado di distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA presenti un lieve divario di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset, abbattendo in modo significativo le spese associate.	“Riduce i costi di circa lo 0,51 volte” is mathematically and scientifically incorrect in Italian. The original meaning is a reduction to 0.51×, not by 0.51×. Correct: "riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset"	2026-01-27T20:26:45.095Z
3593a149-b739-4b0d-b4ef-0b346fa04efa	translategemma-12b	case-study-asr		The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses.	L'accuratezza (ACC) e i punteggi F1 relativi alla capacità di identificazione sono di circa il 70%, confermando la nostra ipotesi che i modelli linguistici di <v>grandi dimensioni</v> (LLM) possano distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA mostri una leggera differenza nel tasso di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione di circa lo 0,51 volte nei tre dataset, diminuendo significativamente le spese associate.	en	it	Accuracy/Omission	Minor		L'accuratezza della decisione di invocazione (ACC) e i punteggi F1 sono pari a circa il 70%, a supporto della nostra ipotesi secondo cui i modelli linguistici di grandi dimensioni specializzati (SLLM) siano in grado di distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA presenti un lieve divario di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset, abbattendo in modo significativo le spese associate.	Missing "specializzati" (S in SLLM)	2026-01-27T20:51:58.323Z
6cb3413d-ba2c-4ce9-9c1e-f04c48543ec3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	Sebbene il modello SIMA attuale migliori significativamente il tasso di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] quando si tratta di dati provenienti da domini diversi, come dimostrato da FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente <v>il compito di riconoscimento vocale</v>. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale.	en	it	Accuracy/Mistranslation	Major		Sebbene il modello SIMA attuale migliori significativamente il tasso di errore di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] sui dati fuori dominio, come FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper, a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale.	The translation incorrectly states that the SLLM performs the speech recognition task. In the source text, it performs the invocation decision task. This is a major conceptual error. Correct: "Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione."	2026-01-27T20:29:05.732Z
6cb3413d-ba2c-4ce9-9c1e-f04c48543ec3	translategemma-12b	case-study-asr		Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model.	Sebbene il modello SIMA attuale migliori significativamente il <v>tasso di riconoscimento vocale</v> (WER), rimane comunque inferiore a Whisper [6] quando si tratta di dati provenienti da domini diversi, come dimostrato da FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di riconoscimento vocale. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale.	en	it	Accuracy/Omission	Minor		Sebbene il modello SIMA attuale migliori significativamente il tasso di errore di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] sui dati fuori dominio, come FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper, a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale.	missing "errore"	2026-01-27T20:53:17.227Z