완벽함이란 더 이상 무엇인가를 더할 것이 없을때 이루어 지는 것이 아니라, 더 이상 무엇인가를 뺄 것이 없을 때 이루어진다. - 앙뜨완느 마리 로제 드 생떽쥐페리
by 미친병아리 이글루스 피플 2006 이글루스 TOP 100 2007 이글루스 TOP 100
포토로그
메뉴릿
주저리 주저리
라이프로그
루씬 인 액션 - 오픈소스 자바 검색엔진..
루씬 인 액션 (Lucene in ACTION) - 오픈소스 자바 검색엔진

네이버나 구글 같은 웹사이트는 이제 일상생활에서 자주 접하게 되는 세상이며, 검색엔진이라는 단어는 뭔지는 정확히 모르겠지만 낯설지는 않다.. 이제 검색엔진이라는 기술은 우리 일상과 밀접한 것이다..

검색엔진 이라는 기술은 등장한지 꽤 오래되었는데, 요즘엔 그 기반기술에 대한 공개 라이브러리들이 오픈소스로 접해볼 수 있는 것들이 많아지고 있다.. 특히 그 중에서도 자바로 만들어진 루씬이라는 엔진이 성능이 뛰어나다고 하는데 바로 이 책이 루씬에 대한 기본 개념 및 활용법, 기타 내용에 대해 다루고 있다..

교육용 컨텐츠를 다루는 S/W를 만들면서 검색엔진 도입에 대한 필요성에 대해서는 예전부터 생각을 하고 있었으나, 전문 검색엔진을 도입하게 되면 전체 판매가격이 너무 올라가게 되고 그렇다고 직접 구현을 하자면 투자비용이 너무 많이 들어가게 되어 참 계륵과 같은 존재였는데 (기능을 넣고 싶으나 뾰족한 방법이 없는..) 루씬을 사용하면 한번 해볼만 할 것 같다는 생각이 든다.. 네이버 내 PC 검색 같은 기능이 우리 S/W에도 도입되었으면 좋겠다는 생각을 이런 프로그램이 나오기 훨씬 이전부터 하고 있었는데 이제야 가능성이 보이는 것 같다..

하지만, 루씬이 있다고 해도 검색엔진을 도입해서 기본적인 기능을 하게 만드는데 있어서는 여러가지 해결해야 하는 어려움이 있는 것 같다..
- 한글 형태소분리 혹은 자연어처리 문제 (의미있는 단어를 제대로 분리해 내는 문제, 이 부분은 쓸만한 오픈소스가 없는지?)

- 불용어, 동의어 사전 등 필요한 데이터 (공개된 데이터는 없는지?)

- 기타 한글 검색엔진을 만들기 위해 필요한 정보
전문 검색엔진 수준으로 가자면 이런 부분에 상당한 노력을 기울여야 하겠지만, 검색엔진 기능이 주가 아닌 부인 경우엔 이런 부분들이 공개된 일반적인 수준만으로도 충분한데 기본적인 기능을 동작시키기 위한 공개된 데이터들이 없는지 궁금하다.. 구할 수 있는 방법은 없을까? 공개된 데이터는 없는가? 너무 많은 것을 바라고 있는지 모르겠지만, 사실 중고등 학교 등 교육용 S/W를 구매하는 예산으로 전문 검색엔진을 구입할 수 있는 방안은 거의 없으니 이런 방법이 있다면 찾아보고 싶다.. 이 기능이 들어가게 된다면 교육컨텐츠를 관리하는데 좋은 기능들을 많이 구현해 넣을 수 있을 것 같다.. 일단은 이 책을 제대로 좀 더 읽어보고, 테스트 코드도 좀 작성해 보고해서 활용할 방법들을 좀 궁리해봐야겠다.. 인터넷을 통해서도 정보도 좀 찾아보고.. 외국에서 검색엔진에 대한 기술을 이렇게 공개하고 있는 만큼 국내에서도 형태소분리나 불용어/동의어 사전 같은 데이터 및 자료들에 대한 공개된 것들이 분명 있을 것이다..

이 책은 검색엔진 구현 및 활용에 대한 기초지식을 (전문지식에 대한 책은 아니다..) 루씬이라는 예제를 통해 재미나게 배울 수 있는 좋은 책이다..

앞으로는 이런 책들이 국내 저자들에 의해 집필되는 날이 오길 기대하고, 원저의 명성을 그대로 느끼게 해주는 수준높은 번역서들이 나올 수 있는데 많은 기여를 한 출판사 및 번역자 분들의 수고에 감사하며.. (요즘엔 번역서 구입을 고려하며 망설이는 경우가 없다..)
by 미친병아리 | 2006/11/01 23:19 | ▣ 책이야기 ▣ | 트랙백(1) | 덧글(11)
트랙백 주소 : http://madchick.egloos.com/tb/1441222
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from 한글이 꿈틀 at 2007/02/24 15:46

제목 : 루씬 기반의 데스크톱 검색엔진, regain
루씬 기반의 데스크톱 검색엔진, regain을 찾았습니다. 구글 데스크톱 같은 냄새가 물씬 풍기는군요. 처리 속도도 나름 빠릅니다. 수십기가의 파일을 단 20분 정도에 뚝딱 해치우는군요. 하지만, 한글이 안된다는거~ 한글 적용하면 바로 검색 가능하도록 만들 수 있지 않을까 싶습니다. 히힛. 이건 정말 쓸모 있겠는걸! 개발자 여러분들은 다들 참고하시라. 자신이 검색엔진 돌리고, 고쳐서 다시 돌리고 :-) . 검색엔진 개발에 피드백이 ......more

Commented by 고감자 at 2006/10/30 10:34
보면 볼수록 얻는게 많은 책입니다.

원서의 묘미를 잘 살린 번역 정말 강추입죠.
Commented by 에이콘 at 2006/10/30 11:35
안녕하세요. 미병님. 에이콘 xxx입니다. ^^ 좋은 서평 감사합니다. 책마다 이렇게 좋은 평가를 받을 수 있으면 얼마나 좋을까요? 앞으로도 열심히 노력하겠습니다. :)
Commented by 미친병아리 at 2006/10/30 14:31
고감자님 : 네~ 고감자님 덕분에 알게된 책이지요.. 이제야 읽을 수 있는 기회를 만들어 열심히 보고 있답니다.. 읽으면서 궁금한거 많이 물어보러 놀러가겠습니다..

에이콘님 : 다들 열심이시라 에이콘에서 나오는 책들은 모두 좋은 평가를 받는 것 같습니다.. 감사합니다..
Commented by 쌍부라 at 2006/10/30 20:38
CJKAnalyzer...

일본어는 한술 더뜹니다. 한국어는 띄어쓰기라도 있어서 대강 찾아도 대강 나오는데 일본어는 인덱싱도 잘 안되고 검색도 여엉..

물론 CJKAnalyzer같은 형태소 분석기를 쓰면 되겠지만 양키들이 만든 프로그램에서 그런 걸 써주기를 바라는게 무리죠. Lookout이라고 Lucene 베이스의 닷넷으로 만든 아웃룩 풀텍스트 서치 플러그인을 썼었습니다. 일본에서는 못쓰고 있죠.
Commented by BRix at 2006/10/31 17:50
한글 형태소 분리는 영문의 의미 분리에 비해 상당히 어렵다고 알고 있습니다.
오픈소스 형태로 제공되는지는 잘 모르겠습니다. (없는 것으로 알고 있습니다.)

불용어나 동의어 사전이라면 영문의 WordNet 같은 걸 말씀하시는 것 같은데, 한글 워드넷의 경우는 관련 프로젝트를 하면서 찾다가 포기해버렸습니다. 일단, 표준화되서 한곳에서 집중적으로 만드는 것도 아니고, 그나마 여기저기 연락해서 얻은 것들도 만족스러운 결과를 보여주지 않습니다.

그리고, 이책 한번 읽어봐야 겠군요. :) 좋은 책 추천해주셔서 감사합니다.
Commented by astraea at 2006/11/02 00:08
어떤분이 루씬으로 블로그 검색엔진 만드시는걸
포스팅으로 접한적이 있던거 같은데 기억이 안 나네요orz
혼자 다 하고 게셔서 감탄이었는데~
Commented by falconer at 2006/11/03 13:12
http://dna.daum.net/technote

이런곳에서 미친병아리님이 원하는 것들을 오픈소스로 진행하면 좋을것 같습니다.

가입하시고 의견을 한번 올려 보는것도 괜찮을것 같습니다.


Commented by jong10 at 2006/11/05 00:48
'루씬 인 액션'도 꽤나 많이들 읽는 것을 보면, 곧 누군가가 제대로 된 KoreanAnalyzer를 만들지 않을까요?
이건 딴 얘기인데, 어디선가 줏어들었는데 다음의 검색엔진팀이 루씬을 분석해서 새로 만들었다더군요. (미래형인지 과거형인진 기억이 안나네요.)
Commented by 미친병아리 at 2006/11/12 23:21
쌍부라님 : 제대로 된 색인을 만들자면 형태소분석기가 필수인 것 같은데 쉽게 만들 수 있는게 아니더군요..

BRix님 : 네, 공개된 자료는 거의 전무한 것 같습니다.. 알아서 잘 해봐야죠..

astraea님 : 어떤분인지 저도 좀 알아봐야겠습니다..

falconer님 : 좋은 페이지 알려주셔서 감사합니다..

jong10님 : 누군가 공개하기만을 기다리고 있습니다.. ㅎㅎㅎ
Commented by Gwen.Park at 2007/07/26 17:50

안녕하세요,
헤드헌팅회사 프로매치코리아 박선희대리입니다.

당사에서는
루씬과 너치를 이용한 검색엔진 시스템을 개발할 분을
고객기업의 의뢰로, 찾고 있습니다.

회사는 강남구 역삼에 위치하며
프랑스회사의 합작법인입니다.
현재는 소규모이나 매우 전망있고 내실있는 기업체입니다.

연락주시면
상세한 내용을 오픈드리고 싶습니다.
운영자님께 도움요청드리오니 연락부탁드립니다.

전화: 02-564-1912
이메일: gwen@promatch.co.kr
Commented by 미친병아리 at 2007/08/15 00:04
Gwen.Park님 : 저는 이제 책 보며 공부해볼라 폼 잡고 있는지라 안되겠네요..

:         :

:

비공개 덧글

Creative Commons License

< 이전페이지 다음페이지 >


이글루 파인더
카테고리
태그
최근 등록된 덧글
한동안 이 앺을 잘 썼는데..
by 수학의정석 at 01/06
gw031511@naver.com ..
by gw031511 at 01/05
최고입니다!
by 아리스 at 12/28
귀환 축하드립니다~ㅎㅎ
by 라디오키즈 at 12/23
ftp이동시 한글/중국어/..
by 흐흠... at 12/17
YOIU MAD CHICK YOU.
by my name at 12/17
YOU MAD CHICK YOU.
by my name at 12/17
Solution for Error code:..
by C광 at 12/14
저도내복사야하는디....
by 미친감자 at 12/09
하하^^ 저도 요즘 뜸하..
by 김정수 at 11/27
잘 봤습니다. UML에 대..
by ohyecloudy at 11/21
잘 지내시죠? 여전히 일로..
by hehua at 11/20
월동준비없이 간만에 오..
by 쩌비 at 11/20
블로그가 업데이트 되어..
by Funny at 11/19
간만의 포스팅 반갑습니..
by 135th at 11/19
오랜만이세요.. 어케 ..
by zoops at 11/19
오래간만 입니다. :)
by 마음으로 찍는 사진 at 11/19
오랜만에 돌아오셨네요~..
by jely at 11/19
좋은평가 감사드립니다. ..
by ilsooni at 11/16
참 오래간만이시네요.^^..
by gonny at 11/03
최근 등록된 트랙백
[펌] UTF-8 인코딩과..
by 돈버는 기계로 살것인가?..
크리스마스 영어 표현들
by 영어와 가제트 이야기 [..
데꾸벅의 생각
by techbug's me2DAY
UML, 실전에서는 이것..
by Ohyecloudy's Progr..
데드라인 - 소설로 재미..
by Ohyecloudy's S3
실전적 문장비법 글쓰기..
by 블로거1.0의 WEB2.0 도전기
우분투 리눅스 8.10 하루..
by joogunking
마이클잭슨 사망 소식들..
by Bluesky
후아유(2002) : 2000년대 ..
by 생활의 발견
知的人의 생각
by peter_c's me2DAY
톰캣!!
by 나두미키님의 이글루
정규 표현식 완전 해부와..
by 김재호의 디지털보단 아..
HTML 소스 제대로 보자,..
by [부동산]개발.정비구역
내 손안의 PC - 자바가 ..
by 上善若水
Stringbuilder OutOfMe..
by Pinch of Smack for D..
웹 오피스 정리
by Web N Bizr
네이버 블로그 검색 - ..
by InformationRedesign
에반게리온: 서 - 사운드..
by LG전자 XCANVAS홈..
블로그에서 수익은 기대..
by IT, 모바일, 엔터테..
"다음으로 지원한 이메일..
by 민노씨.네
이글루링크
EBC (Egloos Broad..
erehwon.LAB
About willy
Living Loving and L..
修身齊家萬事成
【 이름쟁이™의 눈으로 】
개 풀 뜯어먹는 소리
觀鷄者의 망상 공간
Oz in Wonderland
김명신의 즐거운 하루
함께.. 늘 그렇게..
荷花(hehua)
소스코드위를 걷다.....
네러티브 오프로드
zoops 이야기
까모의 룰루랄라~
▒ 제닉스의 사고뭉치 ▒
河伊兒의 고물상
가로수들은 여전히 제자..
餘分D: physics and fun
극한추리 hansang\'s w..
길고양이 이야기
어쨌건간에 흘러가는 者
선인장 일지
~★~ 우하하!!~ 프로..
without coffee
Lady Nariel's Golde..
검색엔진 루씬 Lucene..
fire, walk with me
디지털을 말한다 by oojoo
♠후리지아 향기처럼♠
일상 생활 속의 파편들
뽐뿌 inside
책읽는 엄마의 보석창고
Mono log
blogger jely
반복되는 일상속의 비정..
골룸의 골방
질풍 17주의 머브러브 라..
maniacs
AURA's Showcase
ozzyz review 허지웅..
디제의 애니와 영화 이야기
ANTIEGOIST : GyuHo..
미달이의 육아일기
All about IT Trends
Suicide Solution
얼음집
Trouble n Travel
모기불통신
Trip
찬별은 초식동물
숲 속 작은 섬
snowcat blog
전도서에 바치는 장미
한글이 꿈틀
이우진의 UCC 제작실 ..
INVENT
위로..위로..위로..
woody's film review
Show me the money
전자음악 알아보기
sunny's store
이규영 연예영화 블로그
◀ M.HOUSE - Masade..
Urban Living
쉽니다.
roadster
무디의 무책임한 세상
이제 다시... 바라보다.
random life
Beyond Web
ricordati di me
Jania's Blog
Gaious 功房 네오베..
애자일 이야기
- Last Paromix -
T9T9 Research Center
양군 블로그
소프트웨어 이야기
식사일보 food daily
Software Engineering..
티오
고재관의 블로그
mocca
yundream의 프로그래..
통TON
lalou
생각이 없는 블로그
이전블로그
rss

skin by 이글루스