2017-04-04 11 views
0

악센트를 포함 할 수있는 bigquery의 테이블 안에 단어를 찾으려면 정규 표현식을 작성하고 있습니다. 입력에 악센트가있을 수도 있고 그렇지 않을 수도 있습니다. 저는 scala로 코딩하고 있습니다. 그래서 입력은 scala로 변환되거나 bigquery의 함수를 사용하여 변환 될 수 있습니다. 나는 좋은 솔루션은 그런 일이 될 수도 있겠죠 : 나는scala - 악센트를 무시하도록 RE2에 대한 정규 표현식을 작성하십시오.

r'(?i:s[éèe]r[íìi][éèe]s)' 

에 입력을 변환 할 수 있습니다

input: serie 
word to find: Séries 

하지만 난 그게 같은 테이블에 열을 변환하는 것이 더있을 거라고 생각 :

r'(?i:s[ée]ries)' 

두 번째 상황을 해결하는 방법이나 해결 방법이 더 좋은지 잘 모릅니다. 미리 감사드립니다.

+1

체크 http://stackoverflow.com/a/43148949/5221944) 원은 충분히 명확하지 않습니다 나는 생각한다. –

답변

1

악센트를 포함 할 수있는 bigquery의 테이블 안에 단어를 찾으려면 정규식을 작성하려고합니다.

그래서 입력 스칼라 변환 또는 BigQuery에서의 기능을 사용할 수있는 아래 예와

재생

그것은 BigQuery의 표준 SQL에서 전체 재료

#standardSQL 
CREATE TEMP FUNCTION latin2accents(word STRING) AS 
((
    WITH lookups AS (
    SELECT 
    'y,a,e,i,o,u,c,ç,n,æ,œ,á,é,í,ó,ú,à,è,ì,ò,ù,ä,ë,ï,ö,ü,ÿ,â,ê,î,ô,û,å,ø,Ø,Å,Á,À,Â,Ä,È,É,Ê,Ë,Í,Î,Ï,Ì,Ò,Ó,Ô,Ö,Ú,Ù,Û,Ü,Ÿ,Ç,Æ,Œ,ñ' AS accents, 
    'y,a,e,i,o,u,c,c,n,ae,oe,a,e,i,o,u,a,e,i,o,u,a,e,i,o,u,y,a,e,i,o,u,a,o,O,A,A,A,A,A,E,E,E,E,I,I,I,I,O,O,O,O,U,U,U,U,Y,C,AE,OE,n' AS latins 
), pairs AS (
    SELECT accent, latin FROM lookups, 
     UNNEST(SPLIT(accents)) AS accent WITH OFFSET AS p1, 
     UNNEST(SPLIT(latins)) AS latin WITH OFFSET AS p2 
    WHERE p1 = p2 
), map AS (
    SELECT latin, CONCAT('[', STRING_AGG(accent, ''), ']') AS accents 
    FROM pairs 
    GROUP BY latin 
) 
    SELECT CONCAT('(?i:', STRING_AGG(IFNULL(accents, char), ''), ')') 
    FROM UNNEST(SPLIT(word, '')) char 
    LEFT JOIN map 
    ON char = latin 
)); 

WITH yourTable AS (
    SELECT 'Séries' AS word UNION ALL SELECT 'Series' UNION ALL 
    SELECT 'brasília' UNION ALL SELECT 'Niño' UNION ALL SELECT 'aperçu' 
), inputs AS (
    SELECT 'series' AS input UNION ALL SELECT 'Brasilia' UNION ALL 
    SELECT 'nino' UNION ALL SELECT 'apercu' 
) 
SELECT input, word AS found_word 
FROM yourTable CROSS JOIN inputs 
WHERE REGEXP_CONTAINS(word, latin2accents(input)) = TRUE 
ORDER BY input, word 
수행

출력은 다음과 같습니다. 당신이 거기에 대한 접근 방식을 채택 할 수 - -이 도움이되지 않을 경우 - 귀하의 사용 사례를 명확히하십시오 - 당신이

input  found_word 
-----  ---------- 
Brasilia brasília  
apercu  aperçu 
nino  Niño  
series  Series 
series  Séries