Lingvističke aktuelnosti

Upisano u kategoriju: Projekti, Broj: 19

Стана Ристић, Тања Самарџић, Ненад Ивановић, Александра Марковић, Милена Јакић (Београд)

 

ДИГИТАЛИЗАЦИЈА ГРАЂЕ И УНАПРЕЂЕЊЕ РАДА НА РЕЧНИКУ  СРПСКОХРВАТСКОГ КЊИЖЕВНОГ И НАРОДНОГ ЈЕЗИКА САНУ

 

   

              Постојећа грађа за израду Речника српскохрватског књижевног и народног језика САНУ (грађа даље у тексту) представља национално културно благо сама за себе. Ова колекција од око 6 милиона листића садржи податке о значењу, употреби и граматичким особинама речи српског језика који су годинама брижљиво прикупљани и складиштени и који данас представљају богат и незаменљив извор сазнања о самом српском језику.

 

 

              Дефинисање потреба дигитализације грађе

 

              Складиштење Грађе у дигиталном облику, у виду одговарајуће базе података, подухват је који захтева релативно мало улагања у односу на очекивану корист, не само за истраживачку заједницу која се бави проучавањем и стандардизацијом српског језика, већ и за друштво у целини. Наиме,  грађа, која тренутно постоји искључиво у папирном облику, доступна је само релативно уском кругу стручњака. Добар део грађе је већ доста стар и склон оштећењу и приликом руковања. Дигитализација грађе би омогућила, с једне стране, њену ефикаснију експлоатацију, а с друге стране, њену физичку заштиту и очување.  

              Прецизније, дигитализиција би омогућила:

1.      Лакши приступ грађи. База података која би садржала све податке из грађе могла би да се дистрибуира помоћу компакт-диска или сличног меморијског уређаја, што би значило да заинтересовани истраживачи не би морали физички да буду присутни у самој згради Института и не би морали ручно да манипулишу листићима. Ово би допринело како очувању оригиналне грађе, тако и повећању броја потенцијалних корисника.

2.      Лакше претраживање.  Грађа би у дигиталном облику била много прегледнија и лакша за претраживање него у папирном облику, пошто би се за претраживање могли користити компјутерски програми (тј. врло једноставне функције унутар програма). Такође, уноси у бази података би се много лакше сортирали, класификовали, поредили и, евентуално, бројили, што би могло да донесе значајну уштеду времена у току истраживачког рада.

3.      Унапређење рада на Речнику. Грађа у дигиталном облику омогућила би шире и ефикасније коришћење рачунарских капацитета у рада на Речнику, што би значајно изменило и осавременило готово све аспекте технике и организације лексикографског рада, почевши од основне обраде па до контроле квалитета и припреме за штампу.

 

 

              Дигитализација грађе и унапређење рада на Речнику

 

              Припрема

              Према постојећој организацији рада, пре него што може да се позабави стручном лексикографском обрадом грађе, лексикограф је дужан да припреми грађу за обраду, тј. да прегледа све листиће из дате секције и да:

1. провери да ли су правилно уазбучени;

2. провери тачност обележених граматичких својстава;

3. провери тачност скраћенице која упућује на извор датог примера;

4.   формира списак будућих одредница на основу примера који се налазе у секцији;

5. сравни овај списак са додатним изворима (постојећи речници и енциклопедије) и, евентуално, дода речи које нису потврђене примерима у секцији.

              Доступношћу грађе у виду адекватно осмишљене и пажљиво формиране базе података, фаза припреме била би готово у потпуности елиминисана у раду лексикографа. Тачније, послови везани за ову фазу били би укључени у процес дигитализације и тиме би били обављени за целокпуну грађу одједном, омогућивши лексикографима да више времена посвете стручној обради грађе.

              Корак 1, уазбучавање, могао би у потпуности да се обави аутоматски (уместо физичког премештања листића), чиме би се не само уштедело време, већ би се и елиминисале све потенцијалне грешке. Корак 2 би и даље захтевао рад стручњака који би гарантовали тачност и поузданост података унетих у базу. За ефикаснији рад у Кораку 3 било би неопходно располагати целокупном библиотеком у форми машински претраживих докумената (текстуелни или претраживи .пдф документи). На овај начин, обрађивач (не нужно образовани лексикограф) много би брже проналазио потврде и примере у релевантним текстовима. Физичка претрага, која подразумева и физичко присуство у библиотеци, била би замењена претрагом уз коришћење програмских функција (нпр. Search у Addobe Reader-у). У Кораку 4, листа потенцијалних речничких одредница могла би да се формира аутоматски полазећи од унетих података, уз евентуално стручно надгледање. На крају, уз додатне изворе такође расположиве у форми машински читљивих докумената, разлике између добијене листе потенцијалних одредница и листе одредница у другим изворима могле би да се идентификују аутоматски (са истим предностима као и горе – брже и без грешака).  

             

              Обрада

              Централна фаза у изради речника, обрада грађе, подразумева следеће кораке:

1. Сви листићи за дату одредницу треба да се прочитају.

2. Читајући примере употребе, лексикограф издваја основно значење речи (на основу стручно дефинисаних критеријума).

3. Затим се издвајају секундарна и пренесена значења.

4.  На крају, издвајају се и илуструју стилски или регионално ограничене употребе.

5. Одредници се затим додају одговарајуће граматичке информације.

              Уз постојање грађе у дигиталном облику и максимално коришћење рачунарских капацитета, ова фаза могла би да се осмисли као попуњавање нове, лексикографске базе података. Примери из грађе би били увезени у ову базу аутоматски. Лексикограф би могао да их прегледа и класификује према значењима тако што би поред сваке реченице која илуструје употребу дате одреднице уписао  одговарајући знак (скуп знакова би могао да дефинише сваки лексикограф сам за себе, а могли би да се дефинишу општи знакови које би сви користили). Након обележавања, рачунарски систем би могао да прикаже само примере са истим знаком, на пример, у једном тренутку, што би било корисно при дефинисању значења и одабиру примера. Такође, рачунарски систем би могао да обезбеди да сви примери буду прегледани и обележени и сви значења обрађена.

              База података која би се попуњавала у фази обраде садржала би унапред задату листу одредница (добијену у процесу дигитализације грађе, као што је описано у претходном одељку). Такође, ова база би садржала унапред предодређена поља у која би лексикограф уносио садржај обраде (граматички подаци, дефиниција, лексички слој, пример, референца ка другој одредници, колокације и др.), као и податке о расподели дужности (евентуално још неке управљачке податке попут, на пример, рокове за доставу података и сл.).

              Подаци из грађе би могли да се увезу у одговарајућа поља ове базе аутоматски. На пример, уколико се лексикограф одлучи да искористи пример из грађе као пример у својој обради, могао би да га обележи (помоћу функције коју би дати софтвер обезбедио) и тај би пример био аутоматски смештен у одговарајуће поље у бази.   

              Ова база би могла да се осмисли тако да се максимално искористе већ постојеће обраде. Садржај досад завршених томова Речника био би унет у ову базу и био би лако доступан лексикографу ради провере конзистентности података као и модела обраде. Како различите класе речи захтевају различите обраде (#литература), било би могуће дефинисати посебне обрасце обраде за сваку од дефинисаних класе речи. Лексикограф би на почетку обраде дефинисао класу текуће одреднице. Систем би затим приказао само поља која је неопходно попунити за дату класу, укључивши, евенутално, и најчешће коришћене формуле или моделе уноса података.

 

              Редиговање и припрема за штампу

              Комплетна редакција обрада обављала би се у оквиру записа у лексикографској бази података. Систем би у сваком тренутку био у стању да прикаже она поља која редактор захтева, као и све друге податке који су били доступни обрађивачу.  Редактор би контролисао квалитет и поузданост унетих података и могао би да на одговарајћи начин обележи све уносе који су преконтролисани и оцењени као добри (комплетни), као и оне који треба да се дораде. Систем би, такође, могао да спречи сваки даљи покушај редиговања уноса који су означени као комплетни.   

              У циљу ефикасније организације рада и контроле квалитета обраде, било би могуће аутоматски обележити идентитет обрађивача и редактора за сваку одредницу, као и време последње измене уноса у базу (тј. одреднице). Као што је већ споменуто у претходном одељку, свака одредница би могла да садржи и податке о роковима за завршетак основне обраде, редакције и сл. 

              Припрема за штампу и слагање текста речника полазећи од комлетираних података у лексикографској бази били би крајње аутоматизовани. Редослед података, тип слога и формат текста били би одређени аутоматски помоћу програма за конверзију формата текста, где би сваком пољу у бази био придружен одговарајући формат. Словне грешке би се такође све време аутоматски исправљале.

              На крају, уредник би се бавио одабиром одредница за штампу, у зависности од потреба текућег издања, као и другим стриктно урединчким питањима.   

 

Bez komentara »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

You must be logged in to post a comment.

Napravljeno pomoćuWordPressa