'프로그래밍' 카테고리의 글 목록 (4 Page)

[Hadoop] hdfs에 데이터 올라가는 과정 (0)	2015.08.21
[Hadoop] OOZIE 사용 (with hive, sqoop) (0)	2015.06.17
[Hadoop] hive 파티션 설정, external table, datatype (0)	2015.06.13
MR(mapreduce) with java (0)	2015.03.28
MR job log 파일 뽑기 (0)	2015.03.26

git 같은 브랜치 다른 호스트에서 작업 (0)	2015.09.03
mysql 대소문자 비교 컬럼 (0)	2015.09.02
mysql table 용량 보는 쿼리 (0)	2015.05.07
[maven] jar 를 Local Repository 에 추가하기 (0)	2015.05.06
maven 프로젝트생성하기 (0)	2015.05.06

[Elasticsearch] Custom analyzer plugin 만들기

Elasticsearch에서는 기본 analyzer 이외에도 따로 analyzer를 만들어서 쓸 수 있다.

따로 custom analyzer 만들어야 할 일이 생겨 그 과정을 남기고자 한다.

1. 환경 : java, elasticsearch-1.4.6, maven
analyzer 의 구성에는 루씬에서 작동을 따르므로, filter, analyzer, tokenizer 를 각 구현해줘야한다.
밑에 클래스가 index setting 에 적용되어 filter, analyzer, tokenizer를 플러그인에 바인딩한다.
그리고 해당되는 클래스 네임으로 각각 구현해주면 된다.

public class TestAnalysisBinderProcessor extends AnalysisModule.AnalysisBinderProcessor {
    @Overrid
    public void processAnalyzers(AnalyzersBindings analyzersBindings) {
        analyzersBindings.processAnalyzer("test_analyzer", TestAnalyzerProvider.class);
    }

   @Override
    public void processTokenizers(TokenizersBindings tokenizersBindings) {
        tokenizersBindings.processTokenizer("test_tokenizer", TestTokenizerFactory.class);
    }

    @Override
    public void processTokenFilters(TokenFiltersBindings tokenFiltersBindings) {
        tokenFiltersBindings.processTokenFilter("test_filter", TestTokenFilterFactory.class);
    }
}

TestAnalyzerProvider 클래스 구현. AbstractIndexAnalyzerProvider를 상속하고 메인 analyzer클래스를 선언한다.

public class TestAnalyzerProvider extends AbstractIndexAnalyzerProvider {
    private final TestAnalyzer analyzer;
    @Inject
    public TestAnalyzerProvider(Index index, @IndexSettings Settings indexSettings, Environment env, @Assisted String name, @Assisted Settings settings) throws IOException {
        super(index, indexSettings, name, settings);
        analyzer = new TestAnalyzer(version);
    
    @Override
    public TestAnalyzer get() {
        return this.analyzer;
    }
}

filterfactory 클래스를 만들어 custom filter를 선언한다.

public class TestFilterFactory extends AbstractTokenFilterFactory {
    @Inject
    public TestFilterFactory(Index index, @IndexSettings Settings indexSettings, @Assisted String name, @Assisted Settings settings) {
        super(index, indexSettings, name, settings);
    }
    @Override
    public TokenStream create(TokenStream tokenStream) {
        return new TestFilter(tokenStream);
    }
}

custom_tokenizer를 선언하는 클래스를 만든다. 잠깐 설명하자면 루씬에서 tokenizer로 분리되어 나오는 것은 TestTokenizer에 incrementToken() 을 오버라이드 구현해서 token을 만들어 그 후 지정된 filter들이 또 다시 increamentToken 함수과정 돌면서 해당 filter 로직에 의해서 tokenstream 을 만들어 낸다.

public class TestTokenizerFactory extends AbstractTokenizerFactory {
    @Inject
    public TestTokenizerFactory(Index index, @IndexSettings Settings indexSettings, @Assisted String name, @Assisted Settings settings) {
        super(index, indexSettings, name, settings);
    }
    @Override
    public Tokenizer create(Reader reader) {
        return new TestTokenizer(reader);
    }
}

실제 메인으로 엘라스틱 바인딩프로세스에서 호출될 Analyzer 클래스를 만들어준다. TokenStreamComponents 메소드를 구현하여 토크나이져, 필터를 적용시켜 tokenStream을 만들게 된다.
기타 불용어처리를 하기 위해 이 경우 stopwordanalzyer를 기본으로 만든다.
그리고 아래에 사용되는 TestTokenizer, TestFilter 는 따로 구현을 해주어야 한다. 그것은 lucene analyzer구현과 같다.
그 lucene analyzer를 elasticsearch에 바인딩 시키는 것이다.
흐름 :
analyzer가 사용할 filter, tokenizer를 선언한다. 필터는 여러개가 들어갈 수 있다.(tokenStream의 데코레이터 패턴으로 보면된다.)
analyzer로 reader 타입으로 들어오게 되는데 이후 filter class들로 tokensteam형태로 들어가게 되고, 해당 tokenStream을 적절히(원하는 형태로) 처리한다.

public class TestAnalyzer extends StopwordAnalyzerBase {
	private Version matchVersion;
	public TestAnalyzer(Version version) throws IOException {
                // stopword(불용어)를 줄 수 있다. 아래 resource에 파일로 보관했기 때문에 아래와 같이 넣어 준다.  
		super(version, loadStopwordSet(false, TestAnalyzer.class, "stopwords.txt", "#")); 
		this.matchVersion = version;
	}	
	@Override
	protected TokenStreamComponents createComponents(String fieldName,
			Reader reader) {
		final Tokenizer source = new TestTokenizer(reader);
		TokenStream tok = new LowerCaseFilter(matchVersion, source);
	    tok = new TestFilter(tok);
	    tok = new StopFilter(matchVersion, tok, stopwords);
	    return new TokenStreamComponents(source, tok);
	}
}

아래는 TestFilter 이다. tokenizer에서 분리되어진 단어들이 분리된 정보(position, type, offset)와 함께 들어가게 된다. 루씬의 TokenFilter클래스를 상속받아
increamentToken 메소드를 재정의 하면 된다.
increamentToken() 메소드를 돌면서 tokenizer로부터 만들어진 토큰들을 받아 처리한다. 즉 필터는 각 토큰들의 상태(offset, position, type)을 다시 만들어줄 수 있다.

public class TestFilter extends TokenFilter {	
	private TypeAttribute typeAtt = addAttribute(TypeAttribute.class);   // 타입을 나타냄
	private CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);    // 토큰의 텍스트 자체를 나타냄
	private OffsetAttribute offsetAtt = addAttribute(OffsetAttribute.class);  // 하이라이팅될 때 그 문자의 offset을 가리킴. es의 highlight쿼리하게 될 때 중요.
	private PositionIncrementAttribute posIncrAtt = addAttribute(PositionIncrementAttribute.class); 문자의 거리. token의 index라고 보면됨

	public TestFilter(TokenStream input) {
		super(input);
	}
	@Override
	public boolean incrementToken() throws IOException {		    		
		while(input.incrementToken()) {                   
                     termAtt.buffer(); 토큰 텍스트를 set해줌.
	             offsetAtt.setOffset(텍스트 시작위치, 텍스트 끝 위치 );
	             typeAtt.setType( 토큰 타입 );	    
	             posIncrAtt.setPositionIncrement(토큰 순서);
                }
	}
}

이클래스에서 위에서 만든 analyzer, filter, tokenizer들을 elasticesearch로 바인딩한다.

public class TestAnalyzerPlugin extends AbstractPlugin {
    @Override
    public String name() {
        return "test-analyzer";
    }
    @Override
    public String description() {
        return "test analyzer support";
    }
    public void onModule(AnalysisModule module) {
        module.addProcessor(new TestAnalysisBinderProcessor());
    }
}

적용 방법 :
main/resource/es-plugin.properties 파일을 생성 후 plugin=org.elastic.com.TestAnalyzerPlugin
입력 후 저장
이것은 ES에서 따로 설치 과정을 거치지 않고 지정된 디렉토리에서 바로 플러그인을 인식하도록 한다.
mvn package 하여 패키징한다.
elastic plugins 디렉토리 밑에 name 함수에 선언한 "test-analyze" 라는 이름으로 디렉토리를 만들고
밑에 위 소스들을 패키징한 jar를 위치시킨다

인덱스 만들시에 setting 에 아래와 같이 추가해서 인덱스를 만들어준다.

 
{
  "analysis":{
      "analyzer":{
         "test_analyzer":{
             "type":"org.elastic.com.TestAnalyzerPlugin",
             "tokenizer":"test_tokenizer",
             "filter":["trim","test_filter","lowercase"]
          }
       }
}

자바의 경우

XContentBuilder indexSettings = XContentFactory.jsonBuilder(); 
      indexSettings.startObject()
                            .startObject("analysis")
                                 .startObject("analyzer")
                                     .startObject("test_analyzer")
                                         .field("type","com.elastic.plugin.TestAnalyzerProvider")
                                         .field("tokenizer","test_tokenizer")
                                         .field("filter",new String[]{"lowercase","trim","test_filter"})
                                     .endObject()
                                 .endObject()
                            .endObject()
                        .endObject();
CreateIndexRequestBuilder indexCreateRequest = client.admin().indices().prepareCreate("test_index_v1)
				.setSettings(indexSettings);
indexCreateRequest.execute().actionGet();

토크나이져는 lucene기본으로 있는 whitespacetokenizer 혹은 다른 것들을 쓸 수 있다. 물론 구현체를 넣어서 사용가능(tokenizer 클래스 상속 후 increamentToken() 구현해야함)
정리를 하자면 input -> tokenizer -> tokenfilter -> tokenfilter -> tokenfilter (다수 토큰필터를 적용가능, 물론 코드상 처리순서대로 데이터에 적용됨.)
위의 흐름은 각 사이에 모두 tokenStream 형태로 교환되어 increamentToken()을 통해 문장에서 떨어진 각 단어?토큰 들에 접근이 가능하게 된다. 이런 것들을 이용하여 자체적인 비즈니스 로직이 더해진 색인어를 만들 수 있다.
예를 들면 "게임중에 음료수를 마신다." 를 whitespaceAnalyze 한 다음 형태소 분석을 통해 "게임중에"의 조사를 때고 "게임"으로 바꾼 다던지, 색인이 필요없는 것들은 불용어 처리를 하고,
용언등에 대한 처리를 더하는 등을 할 수 있다.

참고 : http://jjeong.tistory.com/818

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[Elasticsearch] score 결과 보기 (explain) (0)	2015.06.13
[Elasticsearch] elasticsearch analyze결과 보기 (0)	2015.06.13
[Elasticsearch] 샤드, 레플리카 갯수 설정 (0)	2015.05.28
Elasticsearch cluster health check (0)	2015.05.15
elasticsearch query, filter 사용 차이 (0)	2015.05.07

//

[Elasticsearch] 샤드, 레플리카 갯수 설정

PUT /index_name { "settings" : { "number_of_shards" : 3, "number_of_replicas" : 1 } }

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[Elasticsearch] elasticsearch analyze결과 보기 (0)	2015.06.13
[Elasticsearch] Custom analyzer plugin 만들기 (0)	2015.05.28
Elasticsearch cluster health check (0)	2015.05.15
elasticsearch query, filter 사용 차이 (0)	2015.05.07
dangling indices 문제(index 가 지워지지 않는 현상) (0)	2015.04.06

//

Elasticsearch cluster health check

http://localhost:9201/_cluster/health?pretty=true

위 URL처럼 해당 클러스터 노드에 쿼리 할 경우 아래 와 같은 json array 타입으로 클러스터 상태를 알 수 있다.

{
  "cluster_name" : "clustername",
  "status" : "green",
  "timed_out" : false,
  "number_of_nodes" : 40,
  "number_of_data_nodes" : 10,
  "active_primary_shards" : 7,
  "active_shards" : 70,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 0
}

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[Elasticsearch] Custom analyzer plugin 만들기 (0)	2015.05.28
[Elasticsearch] 샤드, 레플리카 갯수 설정 (0)	2015.05.28
elasticsearch query, filter 사용 차이 (0)	2015.05.07
dangling indices 문제(index 가 지워지지 않는 현상) (0)	2015.04.06
Lucene(elasticsearch) score 계산 (0)	2015.03.26

//

Refactoring - 1(중복코드, 긴메소드)

1. 중복된 코드를 줄이자.

이것은 상속에 의해서도 구현될 수 있고, extract method 에 의해 정리될 수 도 있다.

많은 서브 클래스들에서 사용되는 중복된 코드는 super클래스에 정의/ 사용하므로써 중복을 줄일 수 있다.

2. 긴 메소드

객체를 심하게? 잘 이용된 프로그램은 해당 메소드가 어디선가 일어나는 것 같아 보이지 않고, 객체를 다른 객체로 많이 넘기는 상황? 을 볼 수 있다. 이러한 것들이 이루어지기 위해서는 메소드가 한 기능만 하도록 하고 짧아야한다. 그렇지만 메소드가 짧고 여러가지로 나눠지게 되면 다른 사람이 파악하기 어려워지는데 이럴 수록 메소드의 이름을 명확히 잘 지어내야 한다.(이거 어려운것 같다;;)

'프로그래밍 > 리팩토링' 카테고리의 다른 글

Extract Class(클래스 분리하기) (0)	2015.10.27

//

mysql table 용량 보는 쿼리

SELECT

concat(table_schema,'.',table_name),

concat(round(table_rows/1000000,2),'M') rows,

concat(round(data_length/(1024*1024*1024),2),'G') DATA,

concat(round(index_length/(1024*1024*1024),2),'G') idx,

concat(round((data_length+index_length)/(1024*1024*1024),2),'G') total_size,

round(index_length/data_length,2) idxfrac

FROM information_schema.TABLES

where table_name = '테이블명' ;

select table_schema "databases_name", SUM(data_length + index_length) / 1024 / 1024 "size(MB)" from information_schema.TABLES;

'프로그래밍' 카테고리의 다른 글

mysql 대소문자 비교 컬럼 (0)	2015.09.02
맥에 java 설치 (0)	2015.06.12
[maven] jar 를 Local Repository 에 추가하기 (0)	2015.05.06
maven 프로젝트생성하기 (0)	2015.05.06
저장 검색의 복잡도 (0)	2015.04.08

//

elasticsearch query, filter 사용 차이

elasticsearch query 는 보통 아래와 같은 쿼리를 많이 사용하게 되는데

------------------------------------------------

{

query :{

match / query_string:{

analyzer: ~~~

~~~~~

}

------------------------------------------------

{

query : {

bool : {

should/must :{ [

~~~~~~

],[

filter : { term: ~~~}

~~~~~~~

]

}

------------------------------------------------

filter와 query 를 많이 사용하게 된다.

filter / term 조합, query / match 조합을 사용하게 된다. filter 를 사용할시 해당 필드와 정확히 같은 내용을 찾는 것이고, query의 경우 해당 ES 인스턴스가 사용하는 analyzer에 의해서 분석된 결과 값을 보여준다.

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[Elasticsearch] Custom analyzer plugin 만들기 (0)	2015.05.28
[Elasticsearch] 샤드, 레플리카 갯수 설정 (0)	2015.05.28
Elasticsearch cluster health check (0)	2015.05.15
dangling indices 문제(index 가 지워지지 않는 현상) (0)	2015.04.06
Lucene(elasticsearch) score 계산 (0)	2015.03.26

//

[maven] jar 를 Local Repository 에 추가하기

내부적으로 사용되는 lib들은 프로젝트에서 사용하기 위해서 artifactId 등을 따로 지정해서 사용할 수 있다.

이런 library등을 jar파일로 설치한다. 설치라기보다 로컬 리파지토리로 가져온다.

이후 pom.xml에 해당 artifactid, groupid 를 추가해서 사용할 수 있다.

maven은 로컬리파지토리에서 해당 id들을 찾은 후 외부 저장소에서 찾는 순서인듯 하다.

mvn install:install-file
-Dfile=<path-to-file>
-DgroupId=<group-id>
-DartifactId=<artifact-id>
-Dversion=<version>
-Dpackaging=<packaging>
-DgeneratePom=true

Where: <path-to-file> the path to the file to load
       <group-id>      the group that the file should be registered under
       <artifact-id>   the artifact name for the file
       <version>       the version of the file
       <packaging>     the packaging of the file e.g. jar

예를 들어 test.jar 를 등록한다고 하면

mvn install:install-file -Dfile=test.jar -DgroupId=test -DartifactId=testing -Dversion=1.0 -Dpackaging=jar -DgeneratePom=true

'프로그래밍' 카테고리의 다른 글

맥에 java 설치 (0)	2015.06.12
mysql table 용량 보는 쿼리 (0)	2015.05.07
maven 프로젝트생성하기 (0)	2015.05.06
저장 검색의 복잡도 (0)	2015.04.08
git reset commit 살리기 (0)	2015.03.24

//

maven 프로젝트생성하기

mvn archetype:generate -DgroupId={project-packaging} 
   -DartifactId={project-name} 
   -DarchetypeArtifactId=maven-archetype-quickstart 
   -DinteractiveMode=false

1) 메이븐에서 프로젝트 위 command로 프로젝트 생성.

2) pom.xml파일에서 필요 디펜던시 추가.

<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>4.11</version>
			<scope>test</scope>
		</dependency>

3) mvn install 로 추가된 디펜던시 로컬리파지토리로 설치.

3) mvn eclipse:eclipse 명령으로 이클립스 파일 생성하고 프로젝트 import 함.

'프로그래밍' 카테고리의 다른 글

mysql table 용량 보는 쿼리 (0)	2015.05.07
[maven] jar 를 Local Repository 에 추가하기 (0)	2015.05.06
저장 검색의 복잡도 (0)	2015.04.08
git reset commit 살리기 (0)	2015.03.24
Linux Load average에 대해서 (0)	2015.03.10

//

'프로그래밍'에 해당되는 글 125건

hive 조회 결과 파일로 떨구기

'프로그래밍 > Hadoop ETC' 카테고리의 다른 글

맥에 java 설치

'프로그래밍' 카테고리의 다른 글

[Elasticsearch] Custom analyzer plugin 만들기

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[Elasticsearch] 샤드, 레플리카 갯수 설정

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

Elasticsearch cluster health check

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

Refactoring - 1(중복코드, 긴메소드)

'프로그래밍 > 리팩토링' 카테고리의 다른 글

mysql table 용량 보는 쿼리

'프로그래밍' 카테고리의 다른 글

elasticsearch query, filter 사용 차이

'프로그래밍 > ElasticSearch' 카테고리의 다른 글

[maven] jar 를 Local Repository 에 추가하기

'프로그래밍' 카테고리의 다른 글

maven 프로젝트생성하기

'프로그래밍' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바