루씬 인 액션 (Lucene in ACTION) - 오픈소스 자바 검색엔진네이버나 구글 같은 웹사이트는 이제 일상생활에서 자주 접하게 되는 세상이며, 검색엔진이라는 단어는 뭔지는 정확히 모르겠지만 낯설지는 않다.. 이제 검색엔진이라는 기술은 우리 일상과 밀접한 것이다..
검색엔진 이라는 기술은 등장한지 꽤 오래되었는데, 요즘엔 그 기반기술에 대한 공개 라이브러리들이 오픈소스로 접해볼 수 있는 것들이 많아지고 있다.. 특히 그 중에서도 자바로 만들어진 루씬이라는 엔진이 성능이 뛰어나다고 하는데 바로 이 책이 루씬에 대한 기본 개념 및 활용법, 기타 내용에 대해 다루고 있다..
교육용 컨텐츠를 다루는 S/W를 만들면서 검색엔진 도입에 대한 필요성에 대해서는 예전부터 생각을 하고 있었으나, 전문 검색엔진을 도입하게 되면 전체 판매가격이 너무 올라가게 되고 그렇다고 직접 구현을 하자면 투자비용이 너무 많이 들어가게 되어 참 계륵과 같은 존재였는데 (기능을 넣고 싶으나 뾰족한 방법이 없는..) 루씬을 사용하면 한번 해볼만 할 것 같다는 생각이 든다..
네이버 내 PC 검색 같은 기능이 우리 S/W에도 도입되었으면 좋겠다는 생각을 이런 프로그램이 나오기 훨씬 이전부터 하고 있었는데 이제야 가능성이 보이는 것 같다..
하지만, 루씬이 있다고 해도 검색엔진을 도입해서 기본적인 기능을 하게 만드는데 있어서는 여러가지 해결해야 하는 어려움이 있는 것 같다..
- 한글 형태소분리 혹은 자연어처리 문제 (의미있는 단어를 제대로 분리해 내는 문제, 이 부분은 쓸만한 오픈소스가 없는지?)
- 불용어, 동의어 사전 등 필요한 데이터 (공개된 데이터는 없는지?)
- 기타 한글 검색엔진을 만들기 위해 필요한 정보
전문 검색엔진 수준으로 가자면 이런 부분에 상당한 노력을 기울여야 하겠지만, 검색엔진 기능이 주가 아닌 부인 경우엔 이런 부분들이 공개된 일반적인 수준만으로도 충분한데 기본적인 기능을 동작시키기 위한 공개된 데이터들이 없는지 궁금하다.. 구할 수 있는 방법은 없을까? 공개된 데이터는 없는가? 너무 많은 것을 바라고 있는지 모르겠지만, 사실 중고등 학교 등 교육용 S/W를 구매하는 예산으로 전문 검색엔진을 구입할 수 있는 방안은 거의 없으니 이런 방법이 있다면 찾아보고 싶다.. 이 기능이 들어가게 된다면 교육컨텐츠를 관리하는데 좋은 기능들을 많이 구현해 넣을 수 있을 것 같다.. 일단은 이 책을 제대로 좀 더 읽어보고, 테스트 코드도 좀 작성해 보고해서 활용할 방법들을 좀 궁리해봐야겠다.. 인터넷을 통해서도 정보도 좀 찾아보고.. 외국에서 검색엔진에 대한 기술을 이렇게 공개하고 있는 만큼 국내에서도 형태소분리나 불용어/동의어 사전 같은 데이터 및 자료들에 대한 공개된 것들이 분명 있을 것이다..
이 책은 검색엔진 구현 및 활용에 대한 기초지식을 (전문지식에 대한 책은 아니다..) 루씬이라는 예제를 통해 재미나게 배울 수 있는 좋은 책이다..
앞으로는 이런 책들이 국내 저자들에 의해 집필되는 날이 오길 기대하고, 원저의 명성을 그대로 느끼게 해주는 수준높은 번역서들이 나올 수 있는데 많은 기여를 한 출판사 및 번역자 분들의 수고에 감사하며.. (요즘엔 번역서 구입을 고려하며 망설이는 경우가 없다..)
이 글과 관련있는 글을 자동검색한 결과입니다 [?]