TWOJA PRZEGLĄDARKA JEST NIEAKTUALNA.

Wykryliśmy, że używasz nieaktualnej przeglądarki, przez co nasz serwis może dla Ciebie działać niepoprawnie. Zalecamy aktualizację lub przejście na inną przeglądarkę.

 

Grant Miniatura dla naukowca z W12

Dr inż. Bartłomiej Kruk z Wydziału Elektroniki, Fotoniki i Mikrosystemów został laureatem czwartej tegorocznej edycji konkursu Miniatura. W swoim projekcie zajmie się stworzeniem pierwszej w Polsce, nowoczesnej bazy nagrań mowy polskiej.

To już dziewiąta edycja konkursu organizowanego przez Narodowe Centrum Nauki. Dofinansowanie otrzymały 92 osoby, którym na realizację pomysłów przyznano w sumie ponad 3,5 mln zł.

Pieniądze mogą przeznaczyć na badania wstępne, kwerendy oraz wyjazdy badawcze i konsultacyjne. Tematyka może być dowolna, jednak musi się mieścić w obszarze badań podstawowych.

Mężczyzna siedzi przy stole mikserskim w studiu nagraniowym. Uśmiecha się i gestykuluje dłońmi, patrząc w prawo, poza kadr. W tle widoczne są głośniki i panele akustyczne.Dr inż. Bartłomiej Kruk z Katedry Akustyki, Multimediów i Przetwarzania Sygnałów na realizację swojego projektu „Budowa referencyjnej bazy nagrań mowy polskiej do badań nad jakością i zrozumiałością głosów naturalnych i syntetycznych” otrzymał ponad 35 tys. zł.

– Badania koncertują się na stworzeniu pierwszej w Polsce, nowoczesnej bazy nagrań mowy polskiej, która stanie się punktem odniesienia dla badań nad jakością i zrozumiałością głosu – zarówno naturalnego, jak i syntetycznego – wyjaśnia dr Kruk. – To przedsięwzięcie ma duże znaczenie, ponieważ dostępne obecnie bazy nagrań powstały jeszcze w latach 70. XX w. i nie odpowiadają dzisiejszym wymaganiom technologicznym. Zawierają szumy, pogłosy i zbyt ograniczony zakres danych, co uniemożliwia prowadzenie rzetelnych badań w czasach, gdy technologie generowania mowy rozwijają się wyjątkowo szybko – dodaje.

Naukowiec podkreśla, że mowa syntetyczna – tworzona przez systemy Text-to-Speech – towarzyszy nam dziś w wielu obszarach życia: od komunikatów w transporcie publicznym, przez systemy nawigacji czy bankowość głosową, aż po interakcję z inteligentnymi asystentami. Równocześnie rośnie popularność technologii klonowania głosu (voice cloning), która pozwalają „skopiować” czyjś głos i wykorzystywać go do generowania nowych wypowiedzi.

– To narzędzia o ogromnym potencjale, ale też pewnym ryzyku, bo wraz z nimi pojawia się problem wiarygodności nagrań głosowych i zjawisko tzw. deepfake audio, czyli fałszywych nagrań trudnych do odróżnienia od prawdziwych – tłumaczy dr Kruk. – Aby takie systemy można było rozwijać i oceniać w sposób naukowy, potrzebne są wysokiej jakości, neutralne nagrania referencyjne. Dzięki nim badacze mogą porównywać głosy naturalne i sztucznie wygenerowane, sprawdzać ich zrozumiałość w różnych warunkach akustycznych oraz opracowywać metody wykrywania manipulacji – dodaje.

W ramach projektu nagrane zostaną cztery zestawy materiałów językowych:

  • logatomy – sztucznie stworzone sylaby bez znaczenia semantycznego (np. “baf”, “puta”, “mito”), które pozwalają ocenić czystość odbioru mowy, niezależnie od sensu słów,
  • zdania – 500 naturalnych, gramatycznie poprawnych wypowiedzi, odzwierciedlających codzienną komunikację,
  • pojedyncze słowa – 1 000 najczęściej używanych w języku polskim, dobranych tak, aby odzwierciedlały różne struktury fonetyczne,
  • rymujące się pary wyrazów – przydatne w badaniach nad odróżnianiem podobnie brzmiących słów.

Nagrania zrealizują profesjonalni lektorzy – zarówno kobiety, jak i mężczyźni – nagrani w komorze bezechowej – specjalnie zaprojektowanym pomieszczeniu pozbawionym pogłosu, czyli odbicia fal dźwiękowych. Użycie zaawansowanego toru cyfrowego pozwoli uzyskać czyste, niezakłócone nagrania.

– Baza obejmująca ponad dziesięć godzin nagrań zostanie udostępniona na zasadach otwartego dostępu i wzbogacona o szczegółowe metadane. Dzięki temu posłuży nie tylko w dalszych badaniach prowadzonych na naszej uczelni, ale także innym ośrodkom naukowym w kraju – zapowiada naukowiec z W12.

W kolejnych etapach planowany jest rozwój metod oceny jakości systemów syntezy mowy, weryfikacja ich zrozumiałości przez polskich słuchaczy, a także prace nad narzędziami umożliwiającymi rozpoznawanie głosów syntetycznych i wykrywanie fałszywych nagrań. Rezultaty mogą znaleźć zastosowanie w wielu obszarach – od poprawy komunikatów alarmowych i systemów nagłośnienia, przez edukację i multimedia, aż po bezpieczeństwo w bankowości czy administracji publicznej.

baner_700x100_80_lecie_pwr_v1.jpg

Tegoroczne granty w programie Miniatura

W marcu 2025 r. laureatką pierwszego tegorocznego rozdania programu Miniatura 9 została dr Elżbieta Jasińska (Wydział Zarządzania).

W czerwcu do grona laureatów dołączyli dr inż. Martyna Zemlik (Wydział Mechaniczny), dr inż. Mirosław Gierczak (Wydział Elektroniki, Fotoniki i Mikrosystemów), dr inż. Piotr Bortnowski (Wydział Geoinżynierii, Górnictwa i Geologii) oraz dr inż. Mariusz Michalczyk (Wydział Chemiczny).

W lipcu granty otrzymali dr Paweł Piszko oraz dr inż. Kinga Żołnacz (oboje z Wydziału Podstawowych Problemów Techniki).

mic

Galeria zdjęć

Politechnika Wrocławska © 2025

Nasze strony internetowe i oparte na nich usługi używają informacji zapisanych w plikach cookies. Korzystając z serwisu wyrażasz zgodę na używanie plików cookies zgodnie z aktualnymi ustawieniami przeglądarki, które możesz zmienić w dowolnej chwili. Ochrona danych osobowych »

Akceptuję