Tłumacz Google
Zdjęcie serwisu (2018) | |
Typ strony | serwis tłumaczeniowy |
---|---|
Komercyjna | nie |
Data powstania | 2006 (od 2001 dostępny przez Language Tools) |
Autor | |
Właściciel | |
Rejestracja | opcjonalna |
Wersje językowe | |
Strona internetowa |
Tłumacz Google (ang. Google Translate) – darmowy serwis internetowy Google umożliwiający tłumaczenie tekstu, plików, stron internetowych, mowy i zdjęć na różne języki.
Historia
W 2001 w wyszukiwarce Google wprowadzono funkcję tłumaczenia znalezionych stron internetowych dla anglojęzycznych użytkowników[1]. Do wyszukiwarki dodano także podstronę Language Tools (pol. Narzędzia językowe), na której można było tłumaczyć podaną przez siebie stronę[2] i tekst[3]. W 2006 te dwa narzędzia zyskały własną subdomenę[4], tuż po implementacji pierwszej pary języków korzystających ze statystycznego tłumaczenia maszynowego (angielski-arabski). Rok 2006 podawany jest jako data uruchomienia Tłumacza Google[5][6][7]. 8 maja 2008 dodano język polski i możliwość tłumaczenia między dwoma dowolnymi językami z list. W 2013 z serwisu korzystało codziennie 200 milionów osób[8]. W 2016 ponad 500 milionów osób korzystało z serwisu – tłumacząc ponad 100 miliardów słów dziennie[5]. W marcu 2017 język polski zaczął opierać się na systemie GNMT, który ulepszył jakość tłumaczeń.
Funkcje
Tłumacz Google pozwala na tłumaczenie tekstu wieloma metodami. Wśród nich są:
- tłumaczenie tekstu – tłumaczy tekst wprowadzony za pomocą klawiatury (fizycznej lub wirtualnej, w tym przez pismo odręczne[9]) bądź głosowo[10].
- tłumaczenie dokumentów – wersja na komputer pozwala tłumaczyć pliki[11].
- tłumaczenie stron – Tłumacz Google pozwala na tłumaczenie stron internetowych[11].
- tłumaczenie zdjęć – tłumaczy tekst wykryty w obrazie z aparatu lub zapisanym zdjęciu. Funkcja dostępna wyłącznie w aplikacji mobilnej[12].
- „dotknij, aby przetłumaczyć” – tłumaczenie wybranego tekstu z innych aplikacji. Funkcja dostępna wyłącznie w aplikacji mobilnej[13].
- konwersacja – pozwala na tłumaczenie dwujęzycznego dialogu. Funkcja dostępna wyłącznie w aplikacji mobilnej[14].
- transkrypcja – zamiana mowy na tekst. Funkcja dostępna wyłącznie w aplikacji mobilnej[15].
Serwis natychmiastowo tłumaczy wyrażenia podczas wpisywania i potrafi wykryć ich język. Wpisując wyraz lub wyrażenie translator działa niczym słownik, oferując kilka propozycji. Po zalogowaniu się na konto Google, serwis pozwala na zapisanie tłumaczeń na później[16] i przegląd historii[17].
W przypadku języków, które nie posługują się pismem łacińskim dostępna jest automatyczna transliteracja. Do tego dostępne są edytory wprowadzania znaków (IME) dla większości tych języków.
Otrzymane tłumaczenia można odsłuchać dzięki syntezie mowy – większość należy do WaveNet od Google (głosy brzmiące naturalnie), a reszta – do eSpeak (głosy brzmiące syntetycznie). Głosy różnią się w zależności od geolokalizacji: angielski głos będzie miał akcent brytyjski w Europie, Afryce i Azji Południowej, australijski w Australii i Nowej Zelandii, indyjski w Indiach, nigeryjski w Nigerii, a amerykański w reszcie świata. Podobnie z hiszpańskim (amerykański na kontynencie, kastylijski poza nim), portugalskim (akcent europejski tylko w Portugalii, poza nią – brazylijski) i francuskim (akcent Quebecu tylko w Kanadzie, poza nią – europejski).
Tłumacz Google jest dostępny jako wtyczka w niektórych przeglądarkach[18], a w Chrome jest zintegrowana domyślnie[19].
Dostępne języki
kod | język | data dodania | narzędzia wprowadzania | pismo odręczne | syntezator mowy | tłumaczenie mowy | transkrypcja | aparat |
---|---|---|---|---|---|---|---|---|
en | angielski | do 2001 |
| tak | tak (WaveNet, 5 dialektów) | tak | tak | tak |
fr | francuski | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
es | hiszpański | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
de | niemiecki | do 2001 |
| tak | tak (WaveNet) | tak | tak | tak |
pt | portugalski | do 2001 |
| tak | tak (WaveNet, 2 dialekty) | tak | tak | tak |
it | włoski | do 2001 |
| tak | tak (WaveNet) | tak | tak | tak |
zh-CN | chiński (uproszczony)[a] | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | tak | tak |
ja | japoński | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | nie | tak |
ko | koreański | 18–19 listopada 2004 |
| tak | tak (WaveNet) | tak | nie | tak |
ar | arabski | 26 kwietnia 2006 |
| tak | tak (WaveNet) | tak | nie | tak |
ru | rosyjski | 5–6 grudnia 2006, ~0:00 |
| tak | tak (WaveNet) | tak | tak | tak |
zh-TW | chiński (tradycyjny)[a] | 2 lutego 2007, ~9:10 | - | - | tak (WaveNet) | - | tak | - |
el | grecki | 11 listopada 2007, ~14:30 |
| tak | tak (WaveNet) | tak | nie | tak |
nl | niderlandzki | 11 listopada 2007, ~14:30 |
| tak | tak (WaveNet) | tak | nie | tak |
hi | hindi | 30 kwietnia 2008, ~19:00 |
| tak | tak (WaveNet) | tak | tak | tak |
bg | bułgarski[21] | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
hr | chorwacki | 8 maja 2008 |
| tak | tak (eSpeak) | tak | nie | tak |
cs | czeski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
da | duński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
fi | fiński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
no | norweski[b] | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
pl | polski | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
ro | rumuński | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sv | szwedzki | 8 maja 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
tl | filipiński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
iw | hebrajski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
id | indonezyjski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
ca | kataloński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
lt | litewski | 24–25 września 2008 |
| tak | nie | tak | nie | tak |
lv | łotewski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sr | serbski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sk | słowacki | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sl | słoweński | 24–25 września 2008 |
| tak | nie | tak | nie | tak |
uk | ukraiński | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
vi | wietnamski | 24–25 września 2008 |
| tak | tak (WaveNet) | tak | nie | tak |
sq | albański | 30–31 stycznia 2009 |
| tak | tak (eSpeak) | tak | nie | tak |
et | estoński | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
ga | galicyjski | 30–31 stycznia 2009 |
| tak | nie | tak | nie | tak |
mt | maltański | 30–31 stycznia 2009 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
th | tajski | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | tak | tak |
tr | turecki | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
hu | węgierski | 30–31 stycznia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
fa | perski[22] | 18 czerwca 2009 |
| tak | nie | tak | nie | tak |
af | afrikaans[23] | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
be | białoruski | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
ga | irlandzki | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
is | islandzki | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
yi | jidysz | 23–25 sierpnia 2009 |
| nie | nie | nie | nie | nie |
mk | macedoński | 23–25 sierpnia 2009 |
| tak | nie | tak | nie | tak |
ms | malajski | 23–25 sierpnia 2009 |
| tak | tak (WaveNet) | tak | nie | tak |
sw | suahili | 23–25 sierpnia 2009 |
| tak | tak (eSpeak) | tak | nie | tak |
cy | walijski | 23–25 sierpnia 2009 |
| tak | nie | nie | nie | tak |
ht | kreolski (Haiti) | 28–29 stycznia 2010 |
| tak | nie | nie | nie | tak |
az | azerski[24] | 13 maja 2010 | tak | nie | tak | nie | tak | |
eu | baskijski | 13 maja 2010 |
| tak | nie | tak | nie | tak |
ka | gruziński | 13 maja 2010 |
| tak | nie | tak | nie | nie |
hy | ormiański | 13 maja 2010 |
| tak | nie | tak | nie | nie |
ur | urdu | 13 maja 2010 |
| tak | tak (WaveNet) | tak | nie | tak |
la | łaciński[25] | 29–30 września 2010 | tak | tak (WaveNet, identyczny z włoskim) | nie | nie | tak | |
bn | bengalski[26] | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
gu | gudżarati | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
kn | kannada | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
ta | tamilski | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
te | telugu | 19–20 czerwca 2011 |
| tak | tak (WaveNet) | tak | nie | tak |
eo | esperanto[27] | 22 lutego 2012, ~21:30 | tak | nie | nie | nie | tak | |
lo | laotański[28] | 12–13 września 2012 |
| tak | nie | tak | nie | nie |
km | khmerski[29] | 19 kwietnia 2013, ~1:00 |
| tak | tak (WaveNet) | tak | nie | nie |
bs | bośniacki[30] | 8 maja 2013, ~2:00 |
| tak | tak (eSpeak) | nie | nie | tak |
ceb | cebuański | 8 maja 2013, ~2:00 | tak | nie | nie | nie | tak | |
hmn | hmong[c] | 8 maja 2013, ~2:00 | tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) | |
jw | jawajski | 8 maja 2013, ~2:00 |
| tylko w aplikacji | tak (WaveNet) | tak | nie | tak |
mr | marathi | 8 maja 2013, ~2:00 |
| tak | tak (WaveNet) | tak | nie | tak |
ha | hausa[31] | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
ig | igbo | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
yo | joruba | 9 grudnia 2013, ~23:00 |
| nie | nie | nie | nie | tak |
mi | maori | 9 grudnia 2013, ~23:00 |
| tak | nie | nie | nie | tak |
mn | mongolski | 9 grudnia 2013, ~23:00 |
| tak | nie | tak | nie | tak |
ne | nepalski | 9 grudnia 2013, ~23:00 |
| tak | tak (WaveNet) | tak | nie | tak |
pa | pendżabski | 9 grudnia 2013, ~23:00 |
| tak | tylko w aplikacji (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
so | somalijski | 9 grudnia 2013, ~23:00 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
zu | zulu | 9 grudnia 2013, ~23:00 |
| tak | nie | tak | nie | tak |
my | birmański[32] | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | nie |
ny | cziczewa | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
kk | kazachski | 11 grudnia 2014 |
| tak | nie | tak | nie | tak |
ml | malajalam | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | tak (nie w czasie rzeczywistym) |
mg | malgaski | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
st | sotho | 11 grudnia 2014 |
| nie | nie | nie | nie | tak |
su | sundajski | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | tak |
si | syngaleski | 11 grudnia 2014 |
| tak | tak (WaveNet) | tak | nie | nie |
tg | tadżycki | 11 grudnia 2014 |
| tak | nie | nie | nie | tak |
uz | uzbecki | 11 grudnia 2014 |
| tak | nie | tak | nie | tak |
am | amharski[33] | 17 lutego 2016, ~16:30 |
| tak | nie | tak | nie | nie |
fy | fryzyjski[d] | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
haw | hawajski | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
ky | kirgiski | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
co | korsykański | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
ku | kurdyjski[e] | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
lb | luksemburski | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
ps | paszto | 17 lutego 2016, ~16:30 |
| nie | nie | nie | nie | tak |
sm | samoański | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
sn | shona | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak |
sd | sindhi | 17 lutego 2016, ~16:30 |
| nie | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
gd | szkocki gaelicki | 17 lutego 2016, ~16:30 | tak | nie | nie | nie | tak | |
xh | xhosa | 17 lutego 2016, ~16:30 |
| tak | nie | nie | nie | tak |
or | orija[34] | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak (nie w czasie rzeczywistym) |
rw | ruanda-rundi[f] | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
tt | tatarski | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
tk | turkmeński | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak |
ug | ujgurski | 27 lutego 2020, ~17:30 |
| nie | nie | nie | nie | tak (tylko w czasie rzeczywistym) |
as | asamski[35] | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| tak | nie | nie | brak danych | brak danych |
ay | ajmara | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
bm | bambara | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
bho | Bhodźpuri | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
dv | Divehi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
doi | dogri | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
ee | ewe | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
gn | guarani | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ilo | Ilokano | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
qu | keczua | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
gom | Konkani | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
kri | krio | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ckb | kurdyjski (sorani) | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
ln | lingala | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
lg | luganda | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
mai | maithili | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
mni-Mtei | meiteilon (manipuri) | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
lus | mizo | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
om | oromo | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
sa | sanskryt | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| nie | nie | nie | brak danych | brak danych |
nso | Sepedi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ti | tigrinia | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) |
| tak | nie | nie | brak danych | brak danych |
ts | Tsonga | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych | |
ak | twi | 11 maja 2022 (test); 12 maja 2022, ~21:30 (wypuszczenie) | nie | nie | nie | brak danych | brak danych |
Aplikacja mobilna
Przykładowe tłumaczenie z czeskiego (2021) | |
Autor | |
---|---|
Pierwsze wydanie | styczeń 2010 (Android) 8 lutego 2011 (iOS) |
System operacyjny | Android, iOS |
Rodzaj | serwis tłumaczeniowy |
Aplikację mobilną wydano najpierw na system Android w styczniu 2010, a 8 lutego 2011[36] na iOS. Oprócz tego, istniała wcześniejsza aplikacja HTML dla urządzeń z iOS, powstała w sierpniu 2008[37]. Poza podstawowymi funkcjami, aplikacja pozwala na użytkowanie w trybie offline, tłumaczenie napisów z aparatu oraz plików graficznych[38] (dzięki Word Lens[39]), wykonywanie tłumaczeń w innych aplikacjach, oraz tłumaczenie ludzkiej mowy na żywo w trybie konwersacji[40] lub w trybie transkrypcji.
API
Google nadal oferuje API serwisu, pomimo tego, że 26 maja 2011[41][42] ogłosiło zakończenie jego funkcjonowania, z datą końcową 1 grudnia[43]. Ze względu na dużą popularność API do tego nie doszło[44], ale od tego momentu API stało się płatne[45].
Społeczność
Google pozwala wolontariuszom ulepszać tłumaczenia (crowdsourcing) przez aplikację Google Crowdsource[46][47], lub opcję „Społeczność” na stronie internetowej[48][49][50][51][52]. Użytkownicy mogą tłumaczyć podane zdania, oceniać istniejące tłumaczenia, a w przypadku języków BETA , testować wczesną wersję translatora. Badania pokazują, że nawyki użytkowników pozwalają niwelować błędne tłumaczenia nawet w 40% przypadków[53]. Oprócz obecnie dostępnych języków, można wybrać też:
Oprócz tego, (co najmniej) 3 języki są niedostępne w menu: balijski (kod: ban), kreolski seszelski (kod: crs) i rundi (kod: rn).
Metody tłumaczenia
Od listopada 2016, Google korzysta z GNMT[23][54], a wcześniej – z mechanizmu statycznego tłumaczenia maszynowego[55] i SYSTRAN.
GNMT
Google Neural Machine Translation (GNMT) opracowano w celu zwiększenia płynności i dokładności serwisu. System ten wykorzystuje dużą, sztuczną sieć neuronową (dokładniej sieć długiej pamięci krótkoterminowej[56][57][58][59]) zdolną do deep learningu. Dzięki wykorzystaniu metody tłumaczenia maszynowego opartą na próbkach (EBMT), w której system „uczy się z milionów przykładów”, GNMT pozwala poprawić jakość tłumaczeń[60]. Według badaczy Google technika ta umożliwia przekładanie „całych zdań naraz, a nie kawałek po kawałku. Zwraca uwagę na szerszy kontekst, aby znaleźć najbardziej odpowiednie tłumaczenia, które następnie przestawia i dostosowuje tak, aby przypominały ludzką mowę z poprawną gramatyką”. Zamierzona przez GNMT architektura została zaimplementowana dla wszystkich języków obsługiwanych przez serwis[61][62]. Dzięki kompleksowej strukturze, „system z czasem uczy się tworzyć lepsze, bardziej naturalne tłumaczenia”. Sieć GNMT jest zdolna do międzyjęzykowego tłumaczenia maszynowego, która koduje „semantykę zdania, niż zapamiętując frazę do tłumaczenia”, a system nie wymyślił własnego języka uniwersalnego, ale korzysta z „podobieństw znalezionych między wieloma językami”[63]. GNMT zostało wypuszczone dla polskiego w marcu 2017[64].
GNMT umożliwia tłumaczenie bezpośrednio z jednego języka na inny (L1 → L2), co jest poprawą względem wcześniejszych wersji, które najpierw tłumaczyły na język angielski, a dopiero potem na język docelowy (L1 → EN → L2). Jest to możliwe dzięki „tłumaczeniu zero-shot”[65], które dotyczy par języków, których system nie oferował bezpośrednio (np. z japońskiego na koreański).
Statystyczne tłumaczenia maszynowe i SYSTRAN
Przed październikiem 2007 tłumaczenia między językami innymi niż arabski, chiński i rosyjski działały w oparciu o SYSTRAN – silnik oprogramowania, który był stosowany np. w Babel Fish. Od tego czasu, do implementacji GNMT Tłumacz Google używał zastrzeżonej technologii wewnętrznej opartej na statystycznym tłumaczeniu maszynowym[66][67][55].
System ten nie stosował się do zasad gramatycznych – jego algorytmy były oparte na analizie statystycznej, a nie na tradycyjnej analizie opartej na regułach gramatyki. Oryginalny twórca systemu, Franz Josef Och, skrytykował skuteczność algorytmów opartych na regułach, w zamian popierając metody statystyczne. Oryginalne wersje serwisu wykorzystywały metodę zwaną statystycznym tłumaczeniem maszynowym, opartą na badaniach Ocha, zwycięzcy konkursu DARPA na tłumaczenie maszynowe w 2003 roku. Och był szefem grupy tłumaczeń maszynowych Google, aż do momentu dołączenia do Human Longevity, Inc. w lipcu 2014[68].
Według Ocha solidna podstawa do stworzenia użytecznego systemu statystycznego dla nowej pary języków od podstaw powinna składać się z dwujęzycznego korpusu tekstowego (lub kolekcji równoległej) o objętości ponad 150–200 milionów słów i dwóch jednojęzycznych korpusów, z których każdy powinien zawierać ponad miliarda słów. Modele statystyczne z tych danych byłyby następnie wykorzystywane do tłumaczenia między językami. Do zebrania tak ogromnej ilości danych językowych Google wykorzystał dokumenty i transkrypty od Organizacji Narodów Zjednoczonych i Parlamentu Europejskiego[69][70]. ONZ zazwyczaj publikuje dokumenty w sześciu oficjalnych językach, co ułatwiło zebranie ogromnego korpusu.
Tłumacz Google nie tłumaczył bezpośrednio z jednego języka na inny (L1 → L2). W zamian, w większości przypadków treści były tłumaczone najpierw na angielski, a dopiero potem na język docelowy (L1 → EN → L2).
Przy generowaniu tłumaczenia Tłumacz Google szukał wzorców w setkach milionów dokumentów, które zostały już przełożone przez ludzkich tłumaczy, aby znaleźć najtrafniejsze odwzorowanie. Wykrywszy je, Tłumacz mógł w przemyślany sposób domyślić się, jak powinno brzmieć poprawne tłumaczenie.
Wykorzystane licencje WordNet
Język[71] | WordNet | Na licencji |
---|---|---|
albański | Albanet | CC BY 3.0/GPL 3 |
angielski | Princeton Wordnet | Wordnet |
arabski | Arabic Wordnet | CC BY-SA 3 |
chiński | Chinese Wordnet | Wordnet |
duński | Dannet | Wordnet |
fiński | FinnWordnet | Wordnet |
francuski | WOLF (WOrdnet Libre du Français) | CeCILL-C |
galicyjski | Multilingual Central Repository | CC BY-3.0 |
hebrajski | Hebrew Wordnet | Wordnet |
hiszpański | Multilingual Central Repository | CC BY-3.0 |
indonezyjski | Wordnet Bahasa | MIT |
japoński | Japanese Wordnet | Wordnet |
kataloński | Multilingual Central Repository | CC BY-3.0 |
kreolski (Haiti) | MIT-Haiti Initiative | CC-BY 4.0 |
malajski | Wordnet Bahasa | MIT |
norweski | Norwegian Wordnet | Wordnet |
perski | Persian Wordnet | wolny użytek |
polski | plWordnet | Wordnet |
portugalski | OpenWN-PT | CC BY-SA-3.0 |
tajski | Thai Wordnet | Wordnet |
włoski | MultiWordnet | CC BY-3.0 |
Dokładność
Tłumacz Google nie jest tak dokładny, jak tłumaczenie ludzkie. Jeżeli tekst jest krótki[72], poprawnie sformułowany i używa formalnego słownictwa (w szczególności kiedy oba języki mają duże korpusy językowe[73]), wynik jest podobny do satysfakcjonującego[74], lecz w im mniejszym stopniu spełnia te kryteria, tym wynik będzie gorszy. Ludzka ocena wykazała, że tłumaczenia przekazywały zamysł powyżej 50% tylko dla 35 języków z 102[75]. W przypadku par bez angielskiego po którejkolwiek stronie, liczba ta wynosi około 1%. Badania z 2011 pokazały, że Google uzyskał wynik trochę większy niż na zaliczenie egzaminu z angielskiego na UCLA[76]. Pod względem formalności, spójności, długości oraz struktury zdań wyniki Tłumacza są podobne względem tłumaczeń ludzkich[77]. Podczas badań Google z 2018, użytkownicy języków mieli ocenić tłumaczenia w skali od 0 do 6 – średnia wyniosła 5,43[78].
Jakość tłumaczeń różni się między językami ze względu na powszechność języków i źródeł na ich temat. Wiele języków azjatyckich i afrykańskich (z wyjątkami np. afrikaans i chińskiego) wypada gorzej w porównaniu z tymi europejskimi, a tych rdzennych z Oceanii i Ameryk nie ma prawie wcale.
Działając jako słownik, Tłumacz często popełniał błędy względem słów polisemicznych – 100 najpopularniejszych słów w korpusie słownika Oxford ma średnio 15 znaczeń[79], a większość znanych wyrazów ma ich co najmniej 2. Ponieważ translator opierał się na tłumaczeniu statystycznym, a tłumaczenia korzystały z angielskiego jako bazy, w niektórych przypadkach oznaczało to błędne tłumaczenia. Jeżeli w bazie nie ma wyrazu, serwis jest w stanie wymyślić dla niego tłumaczenie[53].
Ograniczenia
Tłumacz Google, jak inne serwisy tłumaczeniowe, posiada ograniczenia. Serwis ogranicza liczbę znaków (5000), które mogą być jednorazowo przetłumaczone, lecz można to obejść tłumacząc tekst w pliku. O ile serwis pozwala użytkownikowi zrozumieć tekst, często tłumaczy słowo-do-słowa, co czyni tłumaczenia niedokładnymi. Pod względem gramatycznym, serwis zmaga się z rozróżnianiem aspektu dokonanego i niedokonanego w językach romańskich, co przyczynia się do błędów, których by nie napotkał ludzki tłumacz. Translator borykał się także z trybem łączącym[80] oraz francuskim tu i vous (w angielskim oba tłumaczy się jako you)[81]. Tłumacz ma problemy z rozumieniem polisemii i związków frazeologicznych[82].
Odbiór i wykorzystanie w praktyce
Tuż po wystartowaniu serwisu, wygrał on międzynarodowy turniej w tłumaczeniu maszynowym z angielskiego na chiński i arabski[83].
Wykorzystanie w sądzie
W 2017 Tłumacz Google został użyty podczas rozprawy sądowej w Teesside Magistrates’ Court, ponieważ nie można było zarezerwować tłumacza dla oskarżonego mówiącego po chińsku[84].
Uwagi
Przypisy
- ↑ Google Special Search Features – Web Page Translation, Google [dostęp 2022-03-24] [zarchiwizowane 2001-05-21] (ang.).
- ↑ Language Tools, Google [dostęp 2022-03-24] [zarchiwizowane 2001-09-11] (ang.).
- ↑ Language Tools, Google [dostęp 2022-03-24] [zarchiwizowane 2001-12-02] (ang.).
- ↑ web.archive.org/web/2006*/http://translate.google.com/, 2006 [dostęp 2022-03-24] (ang.).
- ↑ a b Barak Turovsky , Ten years of Google Translate, Google, 28 kwietnia 2016 [dostęp 2022-03-24] (ang.).
- ↑ Alanna Petroff , Google Translate now covers 103 languages, CNNMoney, 18 lutego 2016 [dostęp 2022-03-24] (ang.).
- ↑ Michael Pollitt , A Warning from History for the Google Translate Generation, „History Today”, 64 (9), wrzesień 2014 [dostęp 2022-03-24] (ang.).
- ↑ Stephen Shankland , Google Translate now serves 200 million people daily, CNET [dostęp 2022-02-06] .
- ↑ Tłumaczenie pisma odręcznego lub tekstu wpisanego z klawiatury wirtualnej – Urządzenie z Androidem – Google Translate – Pomoc, support.google.com [dostęp 2020-10-24] .
- ↑ Tłumaczenie mowy – Urządzenie z Androidem – Google Translate – Pomoc, support.google.com [dostęp 2020-10-24] .
- ↑ a b Tłumaczenie stron internetowych i dokumentów – Komputer – Google Translate – Pomoc, support.google.com [dostęp 2020-10-24] .
- ↑ Tłumaczenie obrazów – Urządzenie z Androidem – Google Translate – Pomoc, support.google.com [dostęp 2020-10-24] .
- ↑ Jacob Kastrenakes , Google Translate now works inside any app on Android, The Verge, 11 maja 2016 [dostęp 2022-02-04] .
- ↑ Tłumaczenie rozmowy w dwóch językach – Android – Google Translate – Pomoc, support.google.com [dostęp 2022-02-04] .
- ↑ Transkrypcja w Tłumaczu Google – Android – Google Translate – Pomoc, support.google.com [dostęp 2022-02-04] .
- ↑ Zapisywanie tłumaczeń – Urządzenie z Androidem – Google Translate – Pomoc, support.google.com [dostęp 2020-10-24] .
- ↑ Znajdowanie i usuwanie historii tłumaczeń – Android – Google Translate – Pomoc, support.google.com [dostęp 2022-02-06] .
- ↑ Search results for "Google Translate" – Add-ons for Firefox (en-US), addons.mozilla.org [dostęp 2022-02-07] .
- ↑ Google Translate Integrated In Google Chrome 5 – gHacks Tech News, gHacks Technology News, 7 lutego 2010 [dostęp 2022-02-07] .
- ↑ Języki – Tłumacz Google, translate.google.pl [dostęp 2022-02-07] .
- ↑ Alex Chitu , Google Translate Becomes the Best Free Online Translator, Google Translate Becomes the Best Free Online Translator, 8 maja 2008 [dostęp 2022-02-05] .
- ↑ Alex Chitu , Google Translate for Persian, Google Translate for Persian, 18 czerwca 2009 [dostęp 2022-01-29] .
- ↑ a b Alex Chitu , New Languages in Google Translate, New Languages in Google Translate, 25 sierpnia 2009 [dostęp 2022-01-29] .
- ↑ Five more languages on translate.google.com, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Veni, Vidi, Verba Verti, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Google Translate welcomes you to the Indic web, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Tutmonda helplingvo por ĉiuj homoj, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Translating Lao, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Google Translate now supports Khmer, Google Translate Blog [dostęp 2020-10-24] .
- ↑ More than 70 of the world’s languages in the blink of an eye, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Google Translate – now in 80 languages, Google Translate Blog [dostęp 2020-10-24] .
- ↑ Google Translate – 10 More Languages with your Help, Google Translate Blog [dostęp 2020-10-24] .
- ↑ From Amharic to Xhosa, introducing Translate in 13 new languages – now over 100 in total!, Google, 17 lutego 2016 [dostęp 2020-10-24] .
- ↑ Google Translate adds five languages, Google, 26 lutego 2020 [dostęp 2020-10-24] .
- ↑ Google Translate adds 24 languages, Google, 26 lutego 2020 [dostęp 2020-10-24] .
- ↑ Introducing the Google Translate app for iPhone [dostęp 2022-02-07] .
- ↑ Google Translate now for iPhone [dostęp 2022-02-07] .
- ↑ Introduction: Into the Black Box of Google Translate, Teach You Backwards, 30 marca 2019 [dostęp 2022-02-07] .
- ↑ Google Translate just got smarter: Word Lens and instant voice translations in latest update, Android Authority, 14 stycznia 2015 [dostęp 2022-02-07] .
- ↑ Google Translate's New 'Conversation Mode': Hands On, PCMAG [dostęp 2022-02-07] .
- ↑ BREAKING NEWS! Google to shut down Translate API – GTS Blog, web.archive.org, 31 maja 2011 [dostęp 2022-02-07] [zarchiwizowane z adresu 2011-05-31] .
- ↑ Spring cleaning for some of our APIs – The official Google Code blog, Spring cleaning for some of our APIs – The official Google Code blog, 3 czerwca 2011 [dostęp 2022-02-07] .
- ↑ Google Translate API – Google Code, web.archive.org, 22 sierpnia 2011 [dostęp 2022-02-07] [zarchiwizowane z adresu 2011-08-22] .
- ↑ Google cancels plan to shutdown Translate API. To start charging for translations – GTS Blog, web.archive.org, 30 czerwca 2011 [dostęp 2022-02-07] [zarchiwizowane z adresu 2011-06-30] .
- ↑ Cloud Translation, Google Cloud [dostęp 2022-02-07] .
- ↑ New Google Crowdsource app asks you to help with translation and text transcription a few seconds at a time, Android Police, 29 sierpnia 2016 [dostęp 2022-02-07] .
- ↑ Stephen Shankland , New Crowdsource app lets you work for Google for free, CNET [dostęp 2022-02-07] .
- ↑ 49 Shares , 4 0k Reads , Google Seeks Community Help To Improve Google Translate, Search Engine Journal, 28 lipca 2014 [dostęp 2022-02-07] .
- ↑ Translate Community: Help us improve Google Translate!, Google Translate Blog [dostęp 2022-02-07] .
- ↑ Google Translate Adds Crowdsourcing Features To Improve Its Translations, TechCrunch [dostęp 2022-02-07] .
- ↑ Nick Summers , Google sets up Community Site For Translate Service, TNW | Google, 25 lipca 2014 [dostęp 2022-02-07] .
- ↑ Tłumacz Google, translate.google.pl [dostęp 2022-02-07] .
- ↑ a b Qualitative Analysis of Google Translate across 108 Languages, Teach You Backwards, 1 kwietnia 2019 [dostęp 2022-02-07] .
- ↑ A Neural Network for Machine Translation, at Production Scale, Google AI Blog [dostęp 2022-02-07] .
- ↑ a b Statistical machine translation live, Google AI Blog [dostęp 2022-02-07] .
- ↑ (PDF) Long Short-term Memory, ResearchGate [dostęp 2022-02-07] .
- ↑ Felix A. Gers , Jürgen Schmidhuber , Fred Cummins , Learning to Forget: Continual Prediction with LSTM, „Neural Computation”, 12, 1999, s. 2451–2471 [dostęp 2022-02-07] .
- ↑ Yonghui Wu i inni, Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, „arXiv:1609.08144 [cs]”, 26 września 2016, arXiv:1609.08144 [dostęp 2018-05-01] .
- ↑ Cade Metz , An Infusion of AI Makes Google Translate More Powerful Than Ever, „Wired”, ISSN 1059-1028 [dostęp 2022-02-07] .
- ↑ Tłumacz Google z neuronowym silnikiem – by chińszczyznę było łatwiej pojąć, dobreprogramy, 29 września 2016 [dostęp 2022-02-07] .
- ↑ Google Translate now uses neural machine translation for some languages, Android Police, 7 marca 2017 [dostęp 2022-02-07] .
- ↑ Google adds Indonesian and eight new Indian languages to its neural machine translation, Android Police, 26 kwietnia 2017 [dostęp 2022-02-07] .
- ↑ Chris McDonald , Ok slow down., Medium, 7 stycznia 2017 [dostęp 2022-02-07] .
- ↑ Tłumacz Google z lepszą obsługą polskiego dzięki sieciom neuronowym, dobreprogramy, 21 marca 2017 [dostęp 2022-02-07] .
- ↑ Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System, Google AI Blog [dostęp 2022-02-07] .
- ↑ Alex Chitu , Google Switches to Its Own Translation System, Google Switches to Its Own Translation System, 22 października 2007 [dostęp 2022-02-07] .
- ↑ Google Translate Drops Systran For Home Brewed Translation, Search Engine Land, 23 października 2007 [dostęp 2022-02-07] .
- ↑ Franz Och, Ph.D., Expert in Machine Learning and Machine Translation, Joins Human Longevity, Inc. as Chief Data Scientist – Human Longevity, Inc., web.archive.org, 16 stycznia 2015 [dostęp 2022-02-07] [zarchiwizowane z adresu 2015-01-16] .
- ↑ Google seeks world of instant translations, „Reuters”, 28 marca 2007 [dostęp 2022-02-07] .
- ↑ Google Translate and the battle for accurate translations by computer, the Guardian, 19 grudnia 2010 [dostęp 2022-02-07] .
- ↑ Open Source Components & Language Licenses – Google Translate, translate.google.pl [dostęp 2022-02-04] .
- ↑ Comparison of online translation tools, web.archive.org, 10 lutego 2011 [dostęp 2022-02-07] [zarchiwizowane z adresu 2011-02-10] .
- ↑ Empirical Evaluation of Google Translate across 107 Languages, Teach You Backwards, 30 marca 2019 [dostęp 2022-02-07] .
- ↑ Conclusions: Real Data, Fake Data & Google Translate, Teach You Backwards, 30 marca 2019 [dostęp 2022-02-07] .
- ↑ Evaluation Scores of Google Translate in 107 Languages, Google Docs [dostęp 2022-02-07] .
- ↑ An Analysis of Google Translate Accuracy, translationjournal.net [dostęp 2022-02-07] .
- ↑ Haiying Li , A. Graesser , Zhiqiang Cai , Comparison of Google Translation with Human Translation, FLAIRS Conference, 2014 [dostęp 2022-02-07] .
- ↑ How Accurate Is Google Translate in 2018? – Argo Translation, www.argotrans.com [dostęp 2022-02-07] .
- ↑ Polysemy in top 100 Oxford English Corpus words within Wiktionary, by Martin Benjamin, released in the public domain, Google Docs [dostęp 2022-02-07] .
- ↑ Twitter, Google translate can't recognise the fucking subjunctive so why should I have to., Twitter [dostęp 2022-02-07] .
- ↑ Google translate doesn't really understand 'tu' and 'vous'. Particularly "tu"., r/French, 2 grudnia 2013 [dostęp 2022-02-07] .
- ↑ The Astounding Mathematics of Machine Translation, Teach You Backwards, 1 kwietnia 2019 [dostęp 2022-02-07] .
- ↑ Michael A Nielsen , Reinventing discovery. The new era of networked science, Princeton, N.J.: Princeton University Press, 2012, ISBN 978-0-691-14890-8, OCLC 724663975 [dostęp 2020-10-10] .
- ↑ Kieran Corcoran , A British court was forced to rely on Google Translate because it had no interpreter, Business Insider [dostęp 2020-10-10] .
Media użyte na tej stronie
Google logo since September 1, 2015. The letters of "Google" are each purely colored (from left to right) with blue, red, yellow, blue, green, and red in Product Sans font. The e is slightly angled.
Autor: PorazonyCreeper, Licencja: CC BY-SA 4.0
Based on by User:Earth_Resident, a map of Google Translate's choice of English TTS voice by region (country).
Green (Europe, Central Asia, Africa w/o Nigeria; Iran, South Asia w/o India; Malaysia, Brunei, Hong Kong, Guyana) - British accent Pink (Americas w/o Guyana; Middle East w/o Iran; Caucasus states, East Asia w/o HK, Brunei or Malaysia; Oceania w/o Australia or NZ proper) - American accent Yellow (Australia, New Zealand proper) - Australian accent Orange (India) - Indian accent Blue (Nigeria) - Nigerian accent
Actual as of 14 Jan 2022.Autor: Daniel.krauz20, Licencja: CC BY-SA 4.0
Google Translate, ukázka překladu začátku Máchova Máje z češtiny do chorvatštiny.
Screenshot of Google Translate, is a free multilingual machine translation service developed by Google.