segment_id system_id doc_id context source target src_lang tgt_lang category severity annotator_id correction comment timestamp 7d32812a-ef1c-4392-ac27-19a13d8ac250 translategemma-12b case-study-asr Selective Invocation for Multilingual ASR: A Cost-effective Approach Adapting to Speech Recognition Difficulty Invoca selettiva per il riconoscimento vocale multilingue: un approccio economicamente vantaggioso che si adatta alla difficoltà del riconoscimento vocale. en it Fluency/Grammar Major Invocazione selettiva per il riconoscimento vocale multilingue: un approccio economicamente vantaggioso che si adatta alla difficoltà del riconoscimento vocale. “Invoca” is a verb form and is grammatically incorrect as a noun in Italian. Correct version is "Invocazione selettiva" 2026-01-27T20:22:13.551Z 98e9102e-9697-471d-a76e-82f55af96e6e translategemma-12b case-study-asr Multilingual automatic speech recognition (ASR) models have gained significant attention for their ability to recognize multiple languages using a single model [1, 2, 3, 4], as illustrated in Figure 1(a). Recent advances have led to impressive performance in various languages through large-scale supervised or self-supervised pre-training [3, 5, 6, 7, 8, 9, 10, 11, 12]. For example, Whisper [6] is trained on 680,000 hours of weakly multilingual data, enabling it to generalize effectively across standard ASR benchmarks, while USM [9] leverages 12 million hours of unlabeled data to achieve robust cross-lingual performance. Despite these advances, the application of multilingual ASR systems with a single model still faces significant challenges. Phonetic differences, syntactic variations, and vocabulary disparities across languages make it difficult to achieve consistent universal state-of-the-art (SOTA) performance. Moreover, imbalances in training data between high-resource and low-resource languages further limit the single-model solutions. I modelli automatici di riconoscimento vocale multilingue (ASR) hanno suscitato notevole interesse per la loro capacità di riconoscere più lingue utilizzando un unico modello [1, 2, 3, 4], come illustrato in Figura 1(a). I recenti progressi hanno portato a prestazioni notevoli in diverse lingue grazie all'utilizzo di tecniche di pre-addestramento supervisionato o auto-supervisionato su larga scala [3, 5, 6, 7, 8, 9, 10, 11, 12]. Ad esempio, Whisper [6] è stato addestrato su 680.000 ore di dati multilingue etichettati in modo parziale, il che gli consente di generalizzare efficacemente su standard di riferimento per l'ASR, mentre USM [9] sfrutta 12 milioni di ore di dati non etichettati per ottenere prestazioni robuste tra diverse lingue. Nonostante questi progressi, l'applicazione di sistemi ASR multilingue con un unico modello presenta ancora sfide significative. Le differenze fonetiche, le variazioni sintattiche e le disparità nel vocabolario tra le lingue rendono difficile ottenere prestazioni universalmente all'avanguardia (SOTA) costanti. Inoltre, gli squilibri nei dati di addestramento tra le lingue con molte risorse e quelle con poche risorse limitano ulteriormente le soluzioni basate su un unico modello. en it Accuracy/Mistranslation Major I modelli automatici di riconoscimento vocale multilingue (ASR) hanno suscitato notevole interesse per la loro capacità di riconoscere più lingue utilizzando un unico modello [1, 2, 3, 4], come illustrato in Figura 1(a). I recenti progressi hanno portato a prestazioni notevoli in diverse lingue grazie all'utilizzo di tecniche di pre-addestramento supervisionato o auto-supervisionato su larga scala [3, 5, 6, 7, 8, 9, 10, 11, 12]. Ad esempio, Whisper [6] è stato addestrato su 680.000 ore di dati debolmente multilingue, il che gli consente di generalizzare efficacemente sui benchmark ASR standard, mentre USM [9] sfrutta 12 milioni di ore di dati non etichettati per ottenere prestazioni robuste tra diverse lingue. Nonostante questi progressi, l'applicazione di sistemi ASR multilingue con un unico modello presenta ancora sfide significative. Le differenze fonetiche, le variazioni sintattiche e le disparità nel vocabolario tra le lingue rendono difficile ottenere prestazioni universalmente all'avanguardia (SOTA) costanti. Inoltre, gli squilibri nei dati di addestramento tra le lingue ad alta disponibilità di risorse e quelle a bassa disponibilità limitano ulteriormente le soluzioni basate su un unico modello. “Dati multilingue etichettati in modo parziale” is a semantic misinterpretation of weakly multilingual data. The correct concept is weak supervision, not partial labeling. Correct: "680.000 ore di dati multilingue debolmente supervisionati" 2026-01-27T20:24:16.749Z 5e06e4fb-11e9-45b2-ad6a-c5a886b216eb translategemma-12b case-study-asr A common strategy to address these challenges is to use a language identification (LID) model that first detects the language of the input speech before invoking the corresponding SOTA ASR model for transcription, as shown in Figure 1(b). However, this two-stage approach has its drawbacks. Many SOTA models are commercial [12] and incur usage fees based on the volume of processing, making this method costly. Additionally, an incorrect LID prediction may trigger the wrong model, further affecting the user experience [13]. Una strategia comune per affrontare queste sfide consiste nell'utilizzare un modello di identificazione della lingua (LID) che, in una prima fase, rileva la lingua del discorso in ingresso, prima di attivare il modello di riconoscimento vocale (ASR) più avanzato (SOTA) corrispondente per la trascrizione, come illustrato in Figura 1(b). Tuttavia, questo approccio in due fasi presenta alcuni svantaggi. Molti modelli SOTA sono commerciali [12] e comportano costi di utilizzo basati sul volume di elaborazione, rendendo questo metodo costoso. Inoltre, una previsione LID errata può attivare il modello sbagliato, compromettendo ulteriormente l'esperienza dell'utente [13]. en it no-error Minor 2026-01-27T20:24:43.009Z 6c7d7490-83c1-4487-8a4a-f505bfcbe1ce translategemma-12b case-study-asr Motivated by these limitations, we propose an alternative strategy that selectively invokes models based on the complexity of the input speech. In ASR tasks, the recognition difficulty varies significantly. Under clean acoustic conditions with simple vocabulary, both the SOTA and regular models typically yield low word error rates (WER). However, in noisy or acoustically challenging environments, the WER increases [14, 15, 16, 17], where robust SOTA models generally perform better [6]. This observation raises a key question: Can we distinguish between simple and complex speech inputs and adapt our ASR system accordingly? Motivati da queste limitazioni, proponiamo una strategia alternativa che seleziona i modelli in base alla complessità del segnale vocale in ingresso. Nelle attività di riconoscimento vocale automatico (ASR), il livello di difficoltà del riconoscimento varia notevolmente. In condizioni acustiche favorevoli e con un vocabolario semplice, sia i modelli all'avanguardia (SOTA) che quelli standard tendono a produrre bassi tassi di errore di parola (WER). Tuttavia, in ambienti rumorosi o con condizioni acustiche difficili, il WER aumenta [14, 15, 16, 17], mentre i modelli SOTA più robusti generalmente offrono prestazioni migliori [6]. Questa osservazione solleva una domanda fondamentale: possiamo distinguere tra segnali vocali semplici e complessi e adattare di conseguenza il nostro sistema ASR? en it Terminology Minor Motivati da queste limitazioni, proponiamo una strategia alternativa che invoca selettivamente i modelli in base alla complessità del parlato in ingresso. Nelle attività di riconoscimento vocale automatico (ASR), il livello di difficoltà del riconoscimento varia notevolmente. In condizioni acustiche favorevoli e con un vocabolario semplice, sia i modelli all'avanguardia (SOTA) sia quelli standard tendono a produrre bassi tassi di errore di parola (WER). Tuttavia, in ambienti rumorosi o con condizioni acustiche difficili, il WER aumenta [14, 15, 16, 17], mentre i modelli SOTA più robusti generalmente offrono prestazioni migliori [6]. Questa osservazione solleva una domanda fondamentale: è possibile distinguere tra segnali vocali semplici e complessi e adattare di conseguenza il nostro sistema ASR? “segnale vocale” introduces an unnecessary technical narrowing. The source text refers to speech input, not explicitly to the signal level. Correct: "parlato" 2026-01-27T20:25:29.662Z bace67cf-4331-4091-8117-002250ecbbd7 translategemma-12b case-study-asr The results indicate that, due to the selective invocation of SOTA models, the SIMA model achieves significant WER reductions of 18.6%, 9.3%, and 28.2% relative to the base model on the three datasets. Furthermore, compared to the random invocation strategy, SIMA consistently delivers lower WER, with improvements of 6.6%, 4.2%, and 16.8%. Notably, the improvement on the FLEURS dataset is especially significant, as it is out-of-domain for the base model but in-domain for the LID-Top model. These findings convincingly demonstrate SIMA’s remarkable ability to precisely determine when to invoke the SOTA model, thereby optimizing overall ASR performance. I risultati indicano che, grazie all'invocazione selettiva dei modelli all'avanguardia (SOTA), il modello SIMA ottiene riduzioni significative del tasso di errore di riconoscimento vocale (WER) del 18,6%, del 9,3% e del 28,2% rispetto al modello di base, sui tre dataset analizzati. Inoltre, rispetto alla strategia di invocazione casuale, SIMA offre costantemente un WER inferiore, con miglioramenti del 6,6%, del 4,2% e del 16,8%. In particolare, il miglioramento sul dataset FLEURS è particolarmente significativo, poiché questo dataset è al di fuori del dominio di applicazione del modello di base, ma rientra nel dominio del modello LID-Top. Questi risultati dimostrano in modo convincente l'eccezionale capacità di SIMA di determinare con precisione quando invocare il modello all'avanguardia, ottimizzando così le prestazioni complessive del sistema di riconoscimento vocale. en it no-error Minor 2026-01-27T20:25:41.637Z 3593a149-b739-4b0d-b4ef-0b346fa04efa translategemma-12b case-study-asr The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses. L'accuratezza (ACC) e i punteggi F1 relativi alla capacità di identificazione sono di circa il 70%, confermando la nostra ipotesi che i modelli linguistici di grandi dimensioni (LLM) possano distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA mostri una leggera differenza nel tasso di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione di circa lo 0,51 volte nei tre dataset, diminuendo significativamente le spese associate. en it Accuracy/Mistranslation Major L'accuratezza della decisione di invocazione (ACC) e i punteggi F1 sono pari a circa il 70%, a supporto della nostra ipotesi secondo cui i modelli linguistici di grandi dimensioni specializzati (SLLM) siano in grado di distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA presenti un lieve divario di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset, abbattendo in modo significativo le spese associate. “Riduce i costi di circa lo 0,51 volte” is mathematically and scientifically incorrect in Italian. The original meaning is a reduction to 0.51×, not by 0.51×. Correct: "riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset" 2026-01-27T20:26:45.095Z 3593a149-b739-4b0d-b4ef-0b346fa04efa translategemma-12b case-study-asr The invocation decision accuracy (ACC) and F1 scores are approximately 70%, supporting our hypothesis that SLLMs can effectively differentiate speech inputs based on complexity. Although SIMA exhibits a slight WER gap compared to LID-Top, it reduces invocation costs by approximately 0.51× across the three datasets, significantly lowering associated expenses. L'accuratezza (ACC) e i punteggi F1 relativi alla capacità di identificazione sono di circa il 70%, confermando la nostra ipotesi che i modelli linguistici di grandi dimensioni (LLM) possano distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA mostri una leggera differenza nel tasso di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione di circa lo 0,51 volte nei tre dataset, diminuendo significativamente le spese associate. en it Accuracy/Omission Minor L'accuratezza della decisione di invocazione (ACC) e i punteggi F1 sono pari a circa il 70%, a supporto della nostra ipotesi secondo cui i modelli linguistici di grandi dimensioni specializzati (SLLM) siano in grado di distinguere efficacemente gli input vocali in base alla loro complessità. Sebbene SIMA presenti un lieve divario di errore di riconoscimento (WER) rispetto a LID-Top, riduce i costi di elaborazione a circa 0,51 volte su tutti e tre i dataset, abbattendo in modo significativo le spese associate. Missing "specializzati" (S in SLLM) 2026-01-27T20:51:58.323Z 6cb3413d-ba2c-4ce9-9c1e-f04c48543ec3 translategemma-12b case-study-asr Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model. Sebbene il modello SIMA attuale migliori significativamente il tasso di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] quando si tratta di dati provenienti da domini diversi, come dimostrato da FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di riconoscimento vocale. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale. en it Accuracy/Mistranslation Major Sebbene il modello SIMA attuale migliori significativamente il tasso di errore di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] sui dati fuori dominio, come FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper, a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale. The translation incorrectly states that the SLLM performs the speech recognition task. In the source text, it performs the invocation decision task. This is a major conceptual error. Correct: "Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione." 2026-01-27T20:29:05.732Z 6cb3413d-ba2c-4ce9-9c1e-f04c48543ec3 translategemma-12b case-study-asr Although the current SIMA model significantly improves WER, it still lags behind Whisper [6] on out-of-domain data, FLEURS [28]. This limitation stems from our initial hypothesis that the base SLLM model can effectively perform the invoke task. Our base SLLM model [29] is inherently weaker than specialized models such as Whisper because of the limitation of training data. In future work, we plan to adopt Whisper [6] as the base model and further refine the SIMA system to improve the ASR performance of the SOTA model. Sebbene il modello SIMA attuale migliori significativamente il tasso di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] quando si tratta di dati provenienti da domini diversi, come dimostrato da FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di riconoscimento vocale. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale. en it Accuracy/Omission Minor Sebbene il modello SIMA attuale migliori significativamente il tasso di errore di riconoscimento vocale (WER), rimane comunque inferiore a Whisper [6] sui dati fuori dominio, come FLEURS [28]. Questa limitazione deriva dalla nostra ipotesi iniziale che il modello SLLM di base possa svolgere efficacemente il compito di invocazione. Il nostro modello SLLM di base [29] è intrinsecamente meno performante rispetto a modelli specializzati come Whisper, a causa delle limitazioni dei dati di addestramento. In futuro, prevediamo di adottare Whisper [6] come modello di base e di perfezionare ulteriormente il sistema SIMA per migliorare le prestazioni del modello all'avanguardia (SOTA) nel riconoscimento vocale. missing "errore" 2026-01-27T20:53:17.227Z