Artykuły -WYSZUKIWARKI - PROBLEMY Z WYSZUKIWANIEM

Słowo Kluczowe, Fraza Kluczowa
Czas Oszczedzaj i Zarabiaj Wiedzą Dziel Się i Pomagaj
Co To Jest Wiki-System? Co To Jest MyStartAll?
Pajacyk Pajacyk
Dodaj Organizację
MyStartAll - wyszukiwarki - artykuły
1 2 3 4...7
A A A

WYSZUKIWARKI - PROBLEMY Z WYSZUKIWANIEM

 

WYSZUKIWARKI - PROBLEMY Z WYSZUKIWANIEM

 

Wyszukiwarki nie radzą sobie z językiem polskim

 

Wyszukiwarki internetowe w większości są dostosowane do prowadzenia poszukiwań dokumentów w języku angielskim. Cechą charakterystyczną naszego rodzimego języka jest fleksyjność, język angielski natomiast jest pozycyjny. W praktyce różnice te sprawiają, że znaczenie polskiego wyrazu w określonym zdaniu nie jest warunkowane miejscem jego występowania tylko np. sposobie jego odmiany poprzez dodanie odpowiedniej końcówki.

 

Fakt ten ma ogromne znaczenie w procesie wyszukiwania i katalogowania informacji. Główny problem polega na tym, że narzędzia i mechanizmy stworzone do współpracy z językami pozycyjnymi, (czyli większość istniejących wyszukiwarek zagranicznych) nigdy nie będzie w stanie rozróżnić w dokumencie ważności słów odmienianych w języku fleksyjnym.

 

Dlaczego wyszukiwanie po polsku jest mniej dokładne?

 

Najpopularniejsze wyszukiwarki światowe takie jak Google, Altavista, Inktomi czy FAST, zostały skonstruowane przez zagranicznych programistów. Oprogramowanie to z wiadomych względów nie jest dostosowane do specyfiki prezentowanej przez język polski. Fakt używania algorytmów niedopasowanych do podstawowych zasad języka polskiego skutkuje problemami z poprawnym wyszukiwaniem treści w języku polskim. W efekcie otrzymujemy znacznie obniżoną trafność wyników wyszukiwania stron tworzonych w języku polskim.

 

Najbardziej typową i najczęściej wyszukiwaną metodą zapisywania znaków na komputerach jest standard ASCII - polega ona na tym, że wszystkim najpopularniejszym łacińskim literom, znakom i cyfrom przyporządkowuje się numerację od 0 do 128. Znaki diakrytyczne występujące w języku polskim oznacza się natomiast poprzez wykorzystanie liczb z przedziału między 128 a 256.

 

Wyszukiwarki funkcjonują dzięki stałej pracy robotów, które bardzo często nie biorą pod uwagę znaków oznaczonych liczbą nie mieszczącą się w podstawowym zakresie  (0-128), traktując je w kategoriach znaków niedrukowalnych. W rezultacie wiele systemów wyszukiwawczych rozpoznaje polskie znaki jako puste.

 

Kolejnym problemem niektórych wyszukiwarek jest to, że pomimo rozpoznawania przez nie kodowania powyżej podstawowego zakresu, nie są w stanie skojarzyć różnorodnych sposobów kodowania takich samych znaków narodowych.

 

Istnieje jedynie niewielka grupa wyszukiwarek, które są w stanie rozpoznać, że znaki o różnych kodach są tymi samymi znakami. Następny problem większości czołowych zagranicznych wyszukiwarek polega na skonstruowaniu mechanizmu rozpoznającego , że „rozowy" i „różowy" mogą być tymi samymi wyrazami, tyle że zapisanymi w inny sposób. Jedną z niewielu wyszukiwarek eliminujących opisywane problemy jest polska wyszukiwarka NEToskop, która „potrafi" rozpoznawać wyrazy opatrzone znakami diakrytycznymi.

 

Umiejętność szukania ułatwia odnajdywanie

 

Podstawowym czynnikiem znacznie utrudniającym użytkownikom proces poszukiwania informacji przy użyciu wyszukiwarki jest brak umiejętnego formułowania zapytań wpisywanych w okno wyszukiwarki. Konstruowanie opisu poszukiwanych dokumentów przy użyciu odpowiednich haseł kluczowych w większości przypadków ogranicza się do jednego wyrazu. Wyszukiwanie w ten sposób powoduje że internauta otrzymuje ogromną ilość ogólnych wyników, generowanych na podstawie luźnych powiązań związanych z wpisywanym hasłem.

 

Rozwiązaniem tego problemu, stosowanym przez niektóre wyszukiwarki jest wykorzystywanie funkcji wspomagających użytkownika w procesie wyszukiwawczym i korygujące ewentualne błędy chociażby w pisowni poszukiwanego wyrażenia, jest to tzw."System Podpowiedzi Kontekstowych".

 

Źródło: www.ekademia.pl/blog/integracja2008/627

 

Dodaj Komentarz (15)
Oceń:
Poleć Zajomym
Dodaj Komentarz
FORUM
BLOK REKLAMOWY
Główna Str Intro Po Co Ta Reklama Start Z Nami Atuty Moduły Misja Regulamin O Nas Praca Referencje Kontakt Pełny Ekran Rozwiń Tagosfera

AddThis

Przepraszamy !
Chwilowo W Wersji Beta

Moduł AddThis