prva strana dokumenti fajlovi diskusije veze ljudi o projektu latinica english
 
cirilica.org

AllTheWeb.comСрпски језик и претраживачи

написао: Ранко Томић

Изгледа да смо се, као народ, вековима трудили да будемо превише различити. То нам је, између осталог, донело и врло несвакидашњу могућност да свој језик „равноправно” пишемо двома писмима. И, како је рачунарска револуција трајала, наше основно писмо, ћирилица, је захваљујући тој равноправности скоро нестала. Из простог разлога што је било готово немогуће корисити је у раним рачунарским временима, Срби су се определили за оно што им је било при руци. Тако је равноправност постала премоћ, а Срби су навикли да на Интернету и рачунарима (а и у другим делатностима) пишу латиницом.

Тако смо навикли и да српске стране претражујемо углавном користећи латиничне упите, често заборављајући да је све више страна на српском језику писаних ћирилицом. Ово можда не би био проблем када би имали могућност да у UNICODE стандарду имамо своје знакове који би били представљени по значењу (јер у том погледу свако ћирилично слово има свој значењски парњак у латиници, па бисмо за прелазак с једног у друго писмо мењали фонт, али би сам запис остао исти), али је стварност другачија. Наиме, иако је нама са употребне стране (да не улазимо у културолошке, где то није случај) сасвим свеједно којим писмом пишемо, претраживачима није. За њих је било која наша реч написана латиницом потпуно друга реч од исте те речи написане ћирилицом, па ту настаје збрка.

Због тога сам направио мало истраживање на тему како претраживачи виде ћирилицу и какве резултате даје претраживање истих коришћењем ћириличних упита. Све претраживаче сам посетио користећи Internet Explorer 6.0 покренут на оперативном систему Windows 2000 са уобичајено уграђеном подршком за српски језик (ћирилица и латиница), и свима сам дао потпуно исти упит - врло саможив, додуше, јер сам тражио своје име (мада би последице биле исте и да сам тражио било шта друго)...

Исход

Могло би се одмах написати да постоје две групе претраживача: они који се са ћирилицом сналазе и они који се не сналазе уопште. Иако је сасвим очекивано да ће страни претраживачи имати ових проблема, то није увек случај, а врло је трагично то што од свих домаћих претраживача само два знају да раде са ћирилицом. Ипак, кренимо редом, од оних који су били најбољи (како и доликује):

  1. AllTheWeb.com је претраживач који скоро никада нисам користио, тако да сам био врло пријатно изненађен када ми се као резултат претраге појавила UTF-8 кодирана страна, на којој су се врло лепо исписали изводи ћириличних страна на којима је тражени текст нађен. Свака им част! Да не заборавим, упит је прихватио као UNICODE ниску, кодирану хексадецимално по бајтовима.
  2. Google је свакако најпознатији и најкоришћенији претраживач данашњице и по многим погледима то и завређује. Упит је прихватио као UNICODE ниску, а резултате приказао на потпуно латиничној страни, уз чувене коментаре о језику страница, којима ћу се вратити касније.
  3. Netscape је све учинио исто као и Google, што је и логично обзиром да користи његов претраживач :-)
  4. Lycos је нашао врло чудне странице примивши још чуднији упит, што ми говори да је ту негде проблем. Исто су се понели и његови потомци (корисници, млађа браћа) Search.com i HotBot.
  5. AltaVista, Northern Light, Dmoz, Overture, WebBrain и Yahoo нису нашли ништа. Изузетно, заиста.

krstarica.comШто се домаћих тиче, ту је Крстарица неприкосновена, а прати је Српко, који очигледно има мању базу адреса, па и скромнији број нађених страна. Остали „претраживачи” нашег поднебља нису успели да нађу ништа, па ћу их само навести (да не буде да могу, а да их нисам испробао): Beocity, Pretrazivac, Trazi, www.yu и YuSearch.


Питање језика и Google

Као што сам рекао, Google има веома чудно поимање језика. Већина страна које је пронашао, биле су пријављене као мкедонске, а једна чак као вијетнамска. Наравно, нисам могао чуду да се начудим, али ни да останем равнодушан, па сам им послао једно писамце (е-, наравно) а они одговорише овако:

Google не проверава да ли у заглављу HTML документа постоји META таг Content-Language, нити проверава да ли постоји LANG атрибут у оквиру BODY тага, којима се најтачније одређује језик документа. Уместо тога, њихов систем покушава да сам закључи који је језик у питању, а претпоставља да све што је CP-1251 припада македонском, тј. да је српски само писан латиницом. Тачније, њихов систем није подешен тако да препознаје као српске стране које су писане ћирилицом. Просто невероватно! Замолио сам их да макар користе језичке тагове тамо где их има и добио сам одговор да ће то ускоро почети, јер иако само 3% страница на мрежи ове тагове садржи, ипак би се требало поуздати у њих тамо где постоје (то су њихове речи). Такође, написао сам им и разлику у ћириличним словима која користе српски и македонски језик, па се надам да ће то помоћи да се ова разлика направи, а њихов систем подеси како треба. У сваком случају, рекли су ми да раде и на UTF-8 приказивању резултата (попут AllTheWeb.com), што свакако треба поздравити.

Кодирање

Морам признати да сам, као творац једног скоро потпуно ћириличног и-места, био веома зачуђен чињеницом да се моје ћириличне e-стране не могу читати на UNIX системима, јер су кодиране по Windows CP-1251 кодној страни. Ја сам се на то одлучио јер сам користио знак „bullet” на неким местима, а он се није видео у ISO-8859-5 кодној страни, а такође ме и бринуло да ли се та страна индексира правилно. Ипак, недоумицу о индексирању разрешио је посетилац сајта који ми је и указао на проблем нечитљивости на UNIX системима, па сам све стране пребацио на ISO, жртвујући кружиће, али добијајући читљивост свуда.

Што се претраживача тиче, изгледа да сви који омогућавају ћириличну претрагу кодирају своје базе по UNICODE стандарду, па им није важно како су стварне стране постављене. Зато, ако већ правите ћирилични сајт (а и латинични, кад смо већ код тога), користите ISO, како би сви могли да виде сва слова. Још боље, користите UTF-8, ако имате програм за прављење HTML докумената који то подржава. Macromedia Dreamweaver MX то може, а за остале не знам.

Шта сад?

Иако ме нико није питао за савет, ја бих да га дам, па можда ме неко и чује (камо среће да ме и послуша): Крстарици и Српку бих предложио да направе једно дугменце на формулару за упит, којим би се потврдило да ли се жели претрага и ћириличних и латиничних страна уз аутоматско удвајање упита. Тиме би се веома олакшала претрага, а равноправност би била ближа стварности.

Осталима бих саветовао да унапреде своје претраживаче. Срамота је да светски сервиси претражују ћириличне упите, а да домаћи то не могу...

Google је макар обећао да ће се поправити, што је за сваку похвалу, поготово што њих, у принципу, баш брига за тамо неке Србе и њихове проблеме.

Домаћим творцима сајтова бих препоручио да користе језичке тагове где год је потребно, а у заглављима докумената обавезно. Надам се да ће то ускоро бити врло добар путоказ, макар на Google-у. Такође, користите UTF-8 (или макар ISO) кодирање за своје стране, како би вас сви видели. YUSCII заборавите у потпуности, као да га није ни било. А онда, да се сви надамо да ће ускоро вијетнамске стране у ћирилици бити само ружно сећање...

Коментар? Можда имате да додате нешто?


уз помоћ: Arhit

Ako imate problema sa citanjem ove strane, probajte vezu „Latinica”.
If you can not see text or do not understand contents on this page, try link „English”.